Вопросы с тегом «pandas»

160
NumPy или Pandas: сохранение типа массива целочисленным при наличии значения NaN

Есть ли предпочтительный способ сохранить тип данных numpyмассива фиксированным как int( int64или что-то еще), в то же время сохраняя элемент внутри как numpy.NaN? В частности, я конвертирую внутреннюю структуру данных в Pandas DataFrame. В нашей структуре у нас есть столбцы целочисленного типа,...

160
Удалить все повторяющиеся строки в Python Pandas

pandas drop_duplicatesФункция отлично подходит для «uniquifying» в dataframe. Тем не менее, одним из ключевых аргументов для передачи является take_last=Trueили take_last=False, хотя я хотел бы отбросить все строки, которые являются дубликатами, в подмножестве столбцов. Это возможно? A B C 0 foo 0...

159
Случайный выбор строки в кадре данных Pandas

Есть ли способ выбрать случайные строки из DataFrame в Pandas. В R, используя пакет car, есть полезная функция, some(x, n)которая похожа на head, но выбирает, в этом примере, 10 строк случайным образом из x. Я также посмотрел документацию по нарезке, и, похоже, нет ничего эквивалентного. Обновить...

159
Загрузить данные из TXT с пандами

Я загружаю текстовый файл, содержащий смесь данных типа float и string. Я хочу хранить их в массиве, где я могу получить доступ к каждому элементу. Сейчас просто занимаюсь import pandas as pd data = pd.read_csv('output_list.txt', header = None) print data Это структура входного файла: 1 0 2000.0...

159
Индикатор прогресса во время операций с пандами

Я регулярно выполняю операции pandas над фреймами данных, длина которых превышает 15 миллионов строк, и я хотел бы получить доступ к индикатору прогресса для определенных операций. Существует ли текстовый индикатор прогресса для операций pandas split-apply-Объединить? Например, что-то вроде:...

158
Эффективный способ применить несколько фильтров к pandas DataFrame или Series

У меня есть сценарий, в котором пользователь хочет применить несколько фильтров к объекту Pandas DataFrame или Series. По сути, я хочу эффективно объединить в цепочку несколько операций фильтрации (операций сравнения), которые задаются пользователем во время выполнения. Фильтры должны быть...

157
Фильтрация данных по фреймам Pandas по датам

У меня есть Pandas DataFrame со столбцом «дата». Теперь мне нужно отфильтровать все строки в DataFrame с датами за пределами следующих двух месяцев. По сути, мне нужно только сохранить строки, которые находятся в течение следующих двух месяцев. Каков наилучший способ достичь...

157
Как определить, содержит ли столбец Pandas определенное значение

Я пытаюсь определить, есть ли запись в столбце Панд, которая имеет определенное значение. Я пытался сделать это с if x in df['id']. Я думал, что это работает, за исключением случаев, когда я дал ему значение, которое, как я знал, не было в столбце, которое 43 in df['id']он все еще возвращал True....

156
Превратить Pandas Multi-Index в столбец

У меня есть датафрейм с 2 уровнями индекса: value Trial measurement 1 0 13 1 3 2 4 2 0 NaN 1 12 3 0 34 Который я хочу превратить в это: Trial measurement value 1 0 13 1 1 3 1 2 4 2 0 NaN 2 1 12 3 0 34 Как я могу лучше всего это сделать? Мне это нужно, потому что я хочу агрегировать данные, как...

155
панды получают столбец среднее / среднее

Я не могу получить среднее или среднее значение столбца в пандах. А есть датафрейм. Ничто из того, что я попробовал ниже, не дает мне среднее значение столбцаweight >>> allDF ID birthyear weight 0 619040 1962 0.1231231 1 600161 1963 0.981742 2 25602033 1963 1.3123124 3 624870 1987 0.94212...

155
Pandas dataframe fillna () только некоторые столбцы на месте

Я пытаюсь заполнить никакие значения в кадре данных Pandas с 0 только для некоторого подмножества столбцов. Когда я делаю: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Выход: a b c 0 1.0 4.0...

154
Как получить доступ к pandas groupby dataframe по ключу

Как получить доступ к соответствующему фрейму данных groupby в объекте groupby по ключу? Со следующей группой: rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'bar'] * 3, 'B': rand.randn(6), 'C': rand.randint(0, 20, 6)}) gb = df.groupby(['A']) Я могу пройти через это, чтобы получить...

154
Найти индекс элемента в серии Панды

Я знаю, что это очень простой вопрос, но по какой-то причине я не могу найти ответ. Как я могу получить индекс определенного элемента Серии в пандах Python? (первого появления будет достаточно) Т.е. я бы хотел что-то вроде: import pandas as pd myseries = pd.Series([1,4,0,7,5], index=[0,1,2,3,4])...

153
Панды: сумма строк DataFrame для заданных столбцов

У меня есть следующий DataFrame: In [1]: import pandas as pd df = pd.DataFrame({'a': [1,2,3], 'b': [2,3,4], 'c':['dd','ee','ff'], 'd':[5,9,1]}) df Out [1]: a b c d 0 1 2 dd 5 1 2 3 ee 9 2 3 4 ff 1 Я хотел бы добавить столбец, 'e'который является суммой столбца 'a', 'b'и 'd'. Просматривая форумы, я...

152
Замена пустых значений (пробел) на NaN в пандах

Я хочу найти все значения в кадре данных Pandas, которые содержат пробелы (любое произвольное количество) и заменить эти значения на NaN. Есть идеи, как это можно улучшить? В основном я хочу включить это: A B C 2000-01-01 -0.532681 foo 0 2000-01-02 1.490752 bar 1 2000-01-03 -1.387326 foo 2...

152
Как избавиться от столбца «Безымянный: 0» в панде DataFrame?

У меня есть ситуация, когда иногда, когда я читаю csvиз, dfя получаю нежелательный индексоподобный столбец с именем unnamed:0. file.csv ,A,B,C 0,1,2,3 1,4,5,6 2,7,8,9 CSV читается с этим: pd.read_csv('file.csv') Unnamed: 0 A B C 0 0 1 2 3 1 1 4 5 6 2 2 7 8 9 Это очень раздражает! У кого-нибудь есть...

151
Панды создают пустой DataFrame только с именами столбцов

У меня есть динамический DataFrame, который работает нормально, но когда нет данных для добавления в DataFrame, я получаю сообщение об ошибке. И поэтому мне нужно решение для создания пустого DataFrame только с именами столбцов. На данный момент у меня есть что-то вроде этого: df =...

151
Могут ли панды автоматически распознавать даты?

Сегодня я был приятно удивлен тем фактом, что при чтении данных из файла данных (например) панды могут распознавать типы значений: df = pandas.read_csv('test.dat', delimiter=r"\s+", names=['col1','col2','col3']) Например, это можно проверить следующим образом: for i, r in df.iterrows(): print...