Я читаю некоторые автоматические данные о погоде из Интернета. Наблюдения происходят каждые 5 минут и собираются в ежемесячные файлы для каждой метеостанции. Как только я закончу анализ файла, DataFrame будет выглядеть примерно так:
Sta Precip1hr Precip5min Temp DewPnt WindSpd WindDir AtmPress
Date
2001-01-01 00:00:00 KPDX 0 0 4 3 0 0 30.31
2001-01-01 00:05:00 KPDX 0 0 4 3 0 0 30.30
2001-01-01 00:10:00 KPDX 0 0 4 3 4 80 30.30
2001-01-01 00:15:00 KPDX 0 0 3 2 5 90 30.30
2001-01-01 00:20:00 KPDX 0 0 3 2 10 110 30.28
У меня проблема в том, что иногда ученый возвращается и исправляет наблюдения - не редактируя ошибочные строки, а добавляя дублирующую строку в конец файла. Простой пример такого случая иллюстрируется ниже:
import pandas
import datetime
startdate = datetime.datetime(2001, 1, 1, 0, 0)
enddate = datetime.datetime(2001, 1, 1, 5, 0)
index = pandas.DatetimeIndex(start=startdate, end=enddate, freq='H')
data1 = {'A' : range(6), 'B' : range(6)}
data2 = {'A' : [20, -30, 40], 'B' : [-50, 60, -70]}
df1 = pandas.DataFrame(data=data1, index=index)
df2 = pandas.DataFrame(data=data2, index=index[:3])
df3 = df2.append(df1)
df3
A B
2001-01-01 00:00:00 20 -50
2001-01-01 01:00:00 -30 60
2001-01-01 02:00:00 40 -70
2001-01-01 03:00:00 3 3
2001-01-01 04:00:00 4 4
2001-01-01 05:00:00 5 5
2001-01-01 00:00:00 0 0
2001-01-01 01:00:00 1 1
2001-01-01 02:00:00 2 2
И поэтому мне нужно df3
ровно стать:
A B
2001-01-01 00:00:00 0 0
2001-01-01 01:00:00 1 1
2001-01-01 02:00:00 2 2
2001-01-01 03:00:00 3 3
2001-01-01 04:00:00 4 4
2001-01-01 05:00:00 5 5
Я подумал, что добавление столбца с номерами строк ( df3['rownum'] = range(df3.shape[0])
) поможет мне выбрать самую нижнюю строку для любого значения DatetimeIndex
, но я застрял в поиске операторов group_by
or pivot
(или ???), чтобы это работало.
Ответы:
Я бы предложил использовать дублированный метод на самом Индексе Панд:
В то время как все другие методы работают, в настоящее время принятый ответ является наименее эффективным для предоставленного примера. Кроме того, хотя метод groupby лишь немного менее эффективен, я считаю, что дублированный метод более удобочитаем.
Используя предоставленные образцы данных:
Обратите внимание, что вы можете сохранить последний элемент, изменив аргумент keep.
Также следует отметить, что этот метод также работает
MultiIndex
(с использованием df1, как указано в примере Пола ):источник
loc
может не быть необходимым. Просто сделайтеdf3 = df3[~df3.index.duplicated(keep='first')]
, что отбросит все строки с дублирующимся индексом, кроме первого вхождения.Простое решение заключается в использовании
drop_duplicates
Для меня это работало быстро на больших наборах данных.
Для этого необходимо, чтобы столбец с дубликатами был «rownum». В модифицированном примере «rownum» не имеет дубликатов, поэтому ничего не удаляется. То, что мы действительно хотим, это чтобы столбцы были установлены в индекс. Я не нашел способ указать drop_duplicates, чтобы рассматривать только индекс.
Вот решение, которое добавляет индекс в виде столбца данных, удаляет дубликаты, а затем удаляет новый столбец:
И если вы хотите, чтобы все вернулось в правильном порядке, просто вызовите
sort
фрейм данных.источник
df.reset_index().drop_duplicates(cols='index',take_last=True).set_index('index')
reset_index()
добавляются столбцы level_0, level_1 и т. Д. И если у вашего индекса есть имя, это имя будет использоваться вместо метки «index». Это делает это немного больше, чем одной строкой, чтобы сделать это правильно для любого DataFrame.index_label = getattr(df.index, 'names', getattr(df.index, 'name', 'index'))
тоcols=index_label
тогдаset_index(index_labels)
и даже это не является надежным (не будет работать на неназванные multiindexes).idx = df.index.name or 'index'
, что можно также сделать,df2 = df.reset_index(); df2.drop_duplicates(idx, inplace=True); df2.set_index(idx, inplace=True)
чтобы избежать промежуточных копий (из-заinplace=True
)Боже мой Это на самом деле так просто!
Follow up edit 2013-10-29 В случае, если у меня довольно сложный
MultiIndex
, думаю, я предпочитаюgroupby
подход. Вот простой пример для потомков:и вот важная часть
источник
level=[0,1]
будет работать, если есть 2 уровняdf1.groupby(level=[0,1]).last()
. Это должно быть частью Pandas в качестве дополнения кdrop_duplicates
df.index.names
- это простой способ группировки по всем уровням индекса.xarray
для работы с дублирующимися индексами DateTime, которые делаютds.resample
иds.groupby
операции терпят неудачуxarray
до тех пор, пока вы не измените измерениеgrouped = df3.groupby(level=0)
наgrouped = df3.groupby(dim='time')
или содержащее дубликатыК сожалению, я не думаю, что Pandas позволяет сбрасывать спады с индексов. Я бы предложил следующее:
источник
Если кому-то, как я, нравится цепное манипулирование данными с использованием точечной нотации панд (например, конвейерная обработка), то может быть полезно следующее:
Это позволяет создавать цепочки операторов следующим образом:
источник
TypeError: 'Series' objects are mutable, thus they cannot be hashed
.. Это на самом деле работает для вас?Удалить дубликаты (Keeping First)
Удалить дубликаты (Сохраняя последний)
Тесты: 10 тыс. Циклов с использованием данных OP
источник