Вопросы с тегом «pandas»

129
Несколько агрегаций одного и того же столбца с использованием pandas GroupBy.agg ()

Есть ли встроенный в pandas способ применения двух разных агрегатных функций f1, f2к одному и тому же столбцу df["returns"]без необходимости вызывать agg()несколько раз? Пример фрейма данных: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012,...

129
Удалите ненужные части из строк в столбце

Я ищу эффективный способ удаления ненужных частей из строк в столбце DataFrame. Данные выглядят так: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a Мне нужно обрезать эти данные до: time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 30 5 13:00 110 Я пробовал...

129
Как получить список всех повторяющихся элементов с помощью панд в Python?

У меня есть список товаров, у которых, вероятно, есть проблемы с экспортом. Я хотел бы получить список повторяющихся элементов, чтобы я мог их вручную сравнить. Когда я пытаюсь использовать дублированный метод pandas , он возвращает только первый дубликат. Есть ли способ получить все дубликаты, а...

129
Как я могу построить отдельные кадры данных Pandas в качестве подзаголовков?

У меня есть несколько Pandas DataFrames с одинаковой шкалой значений, но с разными столбцами и индексами. При вызове df.plot()получаю отдельные сюжетные изображения. на самом деле я хочу, чтобы все они находились в одном сюжете с подсюжетами, но, к сожалению, я не могу придумать решение, как это...

128
Замена Pandas или Numpy Nan на None для использования с MysqlDB

Я пытаюсь записать фреймворк Pandas (или можно использовать массив numpy) в базу данных mysql с помощью MysqlDB. MysqlDB, похоже, не понимает "nan", и моя база данных выдает ошибку, говоря, что nan отсутствует в списке полей. Мне нужно найти способ преобразовать «nan» в NoneType. Любые идеи?...

128
Добавить недостающие даты в фреймворк pandas

Мои данные могут иметь несколько событий на заданную дату или НИКАКИХ событий на дату. Я беру эти события, подсчитываю по дате и рисую их. Однако, когда я их рисую, две мои серии не всегда совпадают. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s =...

128
Используйте .corr, чтобы получить корреляцию между двумя столбцами

У меня есть следующий фреймворк pandas Top15: Я создаю столбец, в котором оценивается количество цитируемых документов на человека: Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita'] Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst'] Я хочу...

128
Удаление столбца индекса в пандах при чтении csv

У меня есть следующий код, который импортирует файл CSV. Есть 3 столбца, и я хочу установить первые два из них в качестве переменных. Когда я устанавливаю для второго столбца переменную «эффективность», индексный столбец также присоединяется. Как мне избавиться от столбца индекса? df =...

128
datetime dtypes в пандах read_csv

Я читаю файл csv с несколькими столбцами datetime. Мне нужно установить типы данных при чтении в файле, но проблема с датами. Например: headers = ['col1', 'col2', 'col3', 'col4'] dtypes = ['datetime', 'datetime', 'str', 'float'] pd.read_csv(file, sep='\t', header=None, names=headers, dtype=dtypes)...

126
Как сохранить индекс при использовании pandas merge

Я хотел бы объединить два DataFramesи сохранить индекс из первого кадра в качестве индекса в объединенном наборе данных. Однако, когда я выполняю слияние, полученный DataFrame имеет целочисленный индекс. Как я могу указать, что хочу сохранить индекс из левого фрейма данных? In [4]: a =...

126
Python pandas удаляет повторяющиеся столбцы

Каков самый простой способ удалить повторяющиеся столбцы из фрейма данных? Я читаю текстовый файл с повторяющимися столбцами через: import pandas as pd df=pd.read_table(fname) Имена столбцов: Time, Time Relative, N2, Time, Time Relative, H2, etc... Все столбцы Time и Time Relative содержат одни и...

126
Как оценить, сколько памяти потребуется для DataFrame Pandas?

Мне было интересно ... Если я читаю, скажем, файл csv размером 400 МБ в фрейм данных pandas (с использованием read_csv или read_table), есть ли способ предположить, сколько памяти для этого потребуется? Просто пытаюсь лучше понять фреймы данных и память...

124
Как создать DataFrame из случайных целых чисел с помощью Pandas?

Я знаю, что если я использую randn, import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD')) дает мне то, что я ищу, но с элементами нормального распределения. Но что, если мне просто нужны случайные целые числа? randintработает, предоставляя диапазон,...

123
Условная замена панд

У меня есть DataFrame, и я хочу заменить значения в определенном столбце, которые превышают значение на ноль. Я думал, что это способ добиться этого: df[df.my_channel > 20000].my_channel = 0 Если я скопирую канал в новый фрейм данных, это просто: df2 = df.my_channel df2[df2 > 20000] = 0 Это...

122
Как добавить несколько столбцов в фрейм данных pandas за одно задание?

Я новичок в пандах и пытаюсь понять, как одновременно добавить несколько столбцов в панды. Любая помощь здесь приветствуется. В идеале я хотел бы сделать это за один шаг, а не за несколько повторяющихся шагов ... import pandas as pd df = {'col_1': [0, 1, 2, 3], 'col_2': [4, 5, 6, 7]} df =...

122
Pandas groupby: как получить объединение строк

У меня есть такой фрейм данных: A B C 0 1 0.749065 This 1 2 0.301084 is 2 3 0.463468 a 3 4 0.643961 random 4 1 0.866521 string 5 2 0.120737 ! призвание In [10]: print df.groupby("A")["B"].sum() вернется A 1 1.615586 2 0.421821 3 0.463468 4 0.643961 Теперь я хотел бы сделать «то же самое» для...

121
получение индекса строки в функции применения панд

Я пытаюсь получить доступ к индексу строки в функции, применяемой ко всему DataFrameв Pandas. У меня примерно так: df = pandas.DataFrame([[1,2,3],[4,5,6]], columns=['a','b','c']) >>> df a b c 0 1 2 3 1 4 5 6 и я определю функцию, которая обращается к элементам с заданной строкой def...

121
Как записать в существующий файл Excel без перезаписи данных (с помощью pandas)?

Я использую pandas для записи в файл excel следующим образом: import pandas writer = pandas.ExcelWriter('Masterfile.xlsx') data_filtered.to_excel(writer, "Main", cols=['Diff1', 'Diff2']) writer.save() Masterfile.xlsx уже состоит из нескольких разных вкладок. Однако в нем еще нет «Main». Pandas...