Вопросы с тегом «dataframe»

155
Pandas dataframe fillna () только некоторые столбцы на месте

Я пытаюсь заполнить никакие значения в кадре данных Pandas с 0 только для некоторого подмножества столбцов. Когда я делаю: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Выход: a b c 0 1.0 4.0...

154
Агрегировать / суммировать несколько переменных на группу (например, сумма, среднее)

Из кадра данных, есть простой способ агрегации ( sum, mean, maxодновременно с) и др несколько переменных? Ниже приведены некоторые примеры данных: library(lubridate) days = 365*2 date = seq(as.Date("2000-01-01"), length = days, by = "day") year = year(date) month = month(date) x1 =...

154
Как получить доступ к pandas groupby dataframe по ключу

Как получить доступ к соответствующему фрейму данных groupby в объекте groupby по ключу? Со следующей группой: rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'bar'] * 3, 'B': rand.randn(6), 'C': rand.randint(0, 20, 6)}) gb = df.groupby(['A']) Я могу пройти через это, чтобы получить...

153
Панды: сумма строк DataFrame для заданных столбцов

У меня есть следующий DataFrame: In [1]: import pandas as pd df = pd.DataFrame({'a': [1,2,3], 'b': [2,3,4], 'c':['dd','ee','ff'], 'd':[5,9,1]}) df Out [1]: a b c d 0 1 2 dd 5 1 2 3 ee 9 2 3 4 ff 1 Я хотел бы добавить столбец, 'e'который является суммой столбца 'a', 'b'и 'd'. Просматривая форумы, я...

152
Как избавиться от столбца «Безымянный: 0» в панде DataFrame?

У меня есть ситуация, когда иногда, когда я читаю csvиз, dfя получаю нежелательный индексоподобный столбец с именем unnamed:0. file.csv ,A,B,C 0,1,2,3 1,4,5,6 2,7,8,9 CSV читается с этим: pd.read_csv('file.csv') Unnamed: 0 A B C 0 0 1 2 3 1 1 4 5 6 2 2 7 8 9 Это очень раздражает! У кого-нибудь есть...

152
Замена пустых значений (пробел) на NaN в пандах

Я хочу найти все значения в кадре данных Pandas, которые содержат пробелы (любое произвольное количество) и заменить эти значения на NaN. Есть идеи, как это можно улучшить? В основном я хочу включить это: A B C 2000-01-01 -0.532681 foo 0 2000-01-02 1.490752 bar 1 2000-01-03 -1.387326 foo 2...

152
Определите количество значений NA в столбце

Я хочу подсчитать количество NAзначений в столбце фрейма данных. Скажем, мой фрейм данных вызван df, а имя рассматриваемого столбца - col. Я придумал следующее: sapply(df$col, function(x) sum(length(which(is.na(x))))) Это хороший / самый эффективный способ сделать это?...

151
Панды создают пустой DataFrame только с именами столбцов

У меня есть динамический DataFrame, который работает нормально, но когда нет данных для добавления в DataFrame, я получаю сообщение об ошибке. И поэтому мне нужно решение для создания пустого DataFrame только с именами столбцов. На данный момент у меня есть что-то вроде этого: df =...

151
Могут ли панды автоматически распознавать даты?

Сегодня я был приятно удивлен тем фактом, что при чтении данных из файла данных (например) панды могут распознавать типы значений: df = pandas.read_csv('test.dat', delimiter=r"\s+", names=['col1','col2','col3']) Например, это можно проверить следующим образом: for i, r in df.iterrows(): print...

150
Повторите каждую строку data.frame количество раз, указанное в столбце

df <- data.frame(var1 = c('a', 'b', 'c'), var2 = c('d', 'e', 'f'), freq = 1:3) Какой самый простой способ расширить каждую строку на первые два столбца вышеупомянутого data.frame, чтобы каждая строка повторялась количество раз, указанное в столбце 'freq'? Другими словами, перейти от этого: df...

150
Самый быстрый способ заменить NA в большом data.table

У меня есть большая таблица данных , со многими пропущенными значениями, разбросанными по строкам ~ 200 тыс. И 200 столбцам. Я хотел бы как можно более эффективно перекодировать эти значения NA в нули. Я вижу два варианта: 1: преобразовать в data.frame и использовать что-то вроде этого 2: какая-то...

149
Удалить столбцы из кадра данных, где ВСЕ значения равны NA

У меня возникли проблемы с кадром данных и не может реально решить эту проблему сам: dataframe имеет произвольные свойства, столбцов и каждая строка представляет собой один набор данных . Вопрос в том, как избавиться от столбцов, где для ВСЕХ строк значение равно NA...

148
Разделение словаря / списка внутри столбца панд на отдельные столбцы

У меня есть данные, сохраненные в базе данных postgreSQL. Я запрашиваю эти данные с помощью Python2.7 и превращаю их в Pandas DataFrame. Однако последний столбец этого информационного кадра содержит словарь (или список?) Значений внутри него. DataFrame выглядит следующим образом: [1] df Station ID...

148
Выберите строки в pandas MultiIndex DataFrame

Каковы наиболее распространенные способы выбора / фильтрации строк фрейма данных, индекс которого является MultiIndex ? Нарезка на основе одного значения / метки Нарезка на основе нескольких этикеток с одного или нескольких уровней Фильтрация по логическим условиям и выражениям Какие методы...

146
Как разбить данные на 3 набора (тренировка, проверка и тестирование)?

У меня есть датафрейм pandas, и я хочу разделить его на 3 отдельных набора. Я знаю , что с помощью train_test_split из sklearn.cross_validation, можно разделить данные в двух сетах (поезд и тест). Тем не менее, я не смог найти никакого решения о разделении данных на три набора. Желательно, чтобы у...