Вопросы с тегом «pandas»

169
Как фильтровать строки в пандах по регулярному выражению

Я хотел бы чисто отфильтровать фрейм данных с помощью регулярных выражений в одном из столбцов. Для надуманного примера: In [210]: foo = pd.DataFrame({'a' : [1,2,3,4], 'b' : ['hi', 'foo', 'fat', 'cat']}) In [211]: foo Out[211]: a b 0 1 hi 1 2 foo 2 3 fat 3 4 cat Я хочу отфильтровать строки с теми,...

169
Панды: объединить (объединить) два фрейма данных в нескольких столбцах

Я пытаюсь соединить два фрейма данных панд, используя два столбца: new_df = pd.merge(A_df, B_df, how='left', left_on='[A_c1,c2]', right_on = '[B_c1,c2]') но получил следующую ошибку: pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4164)() pandas/index.pyx in...

168
Использование Pandas для pd.read_excel () для нескольких листов одной и той же книги

У меня есть большой файл электронной таблицы (.xlsx), который я обрабатываю с помощью Python-панд. Бывает, что мне нужны данные из двух вкладок в этом большом файле. Одна из вкладок содержит массу данных, а другая - всего лишь несколько квадратных ячеек. Когда я использую pd.read_excel () на любом...

168
Конвертировать Pandas DataFrame в словарь

У меня есть DataFrame с четырьмя столбцами. Я хочу преобразовать этот DataFrame в словарь Python. Я хочу, чтобы элементы первого столбца были, keysа элементы других столбцов в той же строке были values. DataFrame: ID A B C 0 p 1 3 2 1 q 4 3 2 2 r 4 0 9 Вывод должен быть таким: Словарь: {'p':...

167
Логические операторы для логической индексации в Pandas

Я работаю с логическим индексом в Pandas. Вопрос в том, почему заявление: a[(a['some_column']==some_number) & (a['some_other_column']==some_other_number)] работает нормально, тогда как a[(a['some_column']==some_number) and (a['some_other_column']==some_other_number)] выходит с ошибкой? Пример:...

167
Панды групповой сортировки внутри групп

Я хочу сгруппировать мой фрейм данных по двум столбцам, а затем отсортировать агрегированные результаты по группам. In [167]: df Out[167]: count job source 0 2 sales A 1 4 sales B 2 6 sales C 3 3 sales D 4 7 sales E 5 5 market A 6 3 market B 7 2 market C 8 4 market D 9 1 market E In [168]:...

166
Как отобразить панды DataFrame с плавающей запятой, используя строку формата для столбцов?

Я хотел бы отобразить pandas dataframe с использованием заданного формата print()и IPython display(). Например: df = pd.DataFrame([123.4567, 234.5678, 345.6789, 456.7890], index=['foo','bar','baz','quux'], columns=['cost']) print df cost foo 123.4567 bar 234.5678 baz 345.6789 quux 456.7890 Я хотел...

166
Pandas DataFrame в список словарей

У меня есть следующий DataFrame: клиент item1 item2 item3 1 помидор с яблочным молоком 2 воды апельсиновый картофель 3 сока чипсов манго который я хочу перевести в список словарей в строке rows = [{'customer': 1, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'}, {'customer': 2, 'item1':...

166
Как добавить строку заголовка в панде DataFrame

Я читаю CSV-файл в pandas. Этот CSV-файл состоит из четырех столбцов и нескольких строк, но не имеет строки заголовка, которую я хочу добавить. Я пробовал следующее: Cov = pd.read_csv("path/to/file.txt", sep='\t') Frame=pd.DataFrame([Cov], columns = ["Sequence", "Start", "End", "Coverage"])...

165
Применение функции с несколькими аргументами для создания нового столбца панд

Я хочу создать новый столбец во pandasфрейме данных, применив функцию к двум существующим столбцам. После этого ответа я смог создать новый столбец, когда мне нужен только один столбец в качестве аргумента: import pandas as pd df = pd.DataFrame({"A": [10,20,30], "B": [20, 30, 10]}) def fx(x):...

165
Возьмите несколько списков в dataframe

Как взять несколько списков и поместить их в разные столбцы в кадре данных Python? Я попробовал это решение, но у меня возникли проблемы. Попытка 1: Имейте три списка, и соедините их вместе и используйте это res = zip(lst1,lst2,lst3) Дает только один столбец Попытка 2: percentile_list =...

164
Панды получают лучшие n записей в каждой группе

Предположим, у меня есть DataFrame панд, как это: >>> df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4],'value':[1,2,3,1,2,3,4,1,1]}) >>> df id value 0 1 1 1 1 2 2 1 3 3 2 1 4 2 2 5 2 3 6 2 4 7 3 1 8 4 1 Я хочу получить новый DataFrame с двумя верхними записями для каждого...

163
Pandas столбец списков, создать строку для каждого элемента списка

У меня есть dataframe, где некоторые ячейки содержат списки нескольких значений. Вместо того, чтобы хранить несколько значений в ячейке, я бы хотел расширить фрейм данных, чтобы каждый элемент в списке получил свою собственную строку (с такими же значениями во всех других столбцах). Так что если у...

163
Сравните два DataFrames и выведите их различия бок о бок

Я пытаюсь выделить именно то, что изменилось между двумя кадрами. Предположим, у меня есть два кадра данных Python Pandas: "StudentRoster Jan-1": id Name score isEnrolled Comment 111 Jack 2.17 True He was late to class 112 Nick 1.11 False Graduated 113 Zoe 4.12 True "StudentRoster Jan-2": id Name...

162
python pandas: удаляйте дубликаты по столбцам A, сохраняя строку с наибольшим значением в столбце B

У меня есть фрейм данных с повторяющимися значениями в столбце A. Я хочу удалить дубликаты, сохранив строку с самым высоким значением в столбце B. Итак, это: A B 1 10 1 20 2 30 2 40 3 10 Должен превратиться в это: A B 1 20 2 40 3 10 Уэс добавил несколько приятных функций для удаления дубликатов:...

162
Формат / Подавить научную запись из результатов агрегации Python Pandas

Как можно изменить формат для вывода из групповой операции в пандах, которая выдает научную запись для очень больших чисел? Я знаю, как выполнять форматирование строк в Python, но я не могу понять, как применить его здесь. df1.groupby('dept')['data1'].sum() dept value1 1.192433e+08 value2...

162
столбцы pandas GroupBy со значениями NaN (отсутствующими)

У меня есть DataFrame со многими пропущенными значениями в столбцах, которые я хочу сгруппировать: import pandas as pd import numpy as np df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']}) In [4]: df.groupby('b').groups Out[4]: {'4': [0], '6': [2]} видите, что Pandas сбросил строки...