Вопросы с тегом «pandas»

87
извлечение дней из значения numpy.timedelta64

Я использую pandas / python, и у меня есть два временных ряда s1 и s2, которые были сгенерированы с использованием функции to_datetime в поле df, содержащем даты / время. Когда я вычитаю s1 из s2 s3 = s2 - s1 Я получаю серию s3 типа timedelta64 [нс] 0 385 days, 04:10:36 1 57 days, 22:54:00 2 642...

87
Сдвинуть столбец в кадре данных pandas на один?

У меня есть фреймворк pandas. Я хочу «запаздывать» одну из моих колонок. Это означает, например, сдвиг всего столбца 'gdp' вверх на единицу, а затем удаление всех лишних данных в нижней части оставшихся строк, чтобы все столбцы снова стали равной длины. df = y gdp cap 0 1 2 5 1 2 3 9 2 8 7 2 3 3 4...

87
Как удалить столбец, содержащий только нули в пандах?

В настоящее время у меня есть фрейм данных, состоящий из столбцов с 1 и 0 в качестве значений, я хотел бы перебрать столбцы и удалить те, которые состоят только из 0. Вот что я пробовал до сих пор: ones = [] zeros = [] for year in years: for i in range(0,599): if year[str(i)].values.any() == 1:...

87
Как сделать строковый столбец pandas dataframe в нижнем регистре, если в нем отсутствуют значения?

Следующий код не работает. import pandas as pd import numpy as np df=pd.DataFrame(['ONE','Two', np.nan],columns=['x']) xLower = df["x"].map(lambda x: x.lower()) Как мне настроить его, чтобы получить xLower = ['one', 'two', np.nan]? Эффективность важна, поскольку реальный фрейм данных огромен....

87
Как установить некоторые xlim и ylim в фасетной сетке Seaborn lmplot

Я использую lmplot Сиборна для построения линейной регрессии, разделив мой набор данных на две группы с помощью категориальной переменной. И для x, и для y я хотел бы вручную установить нижнюю границу на обоих графиках, но оставил верхнюю границу по умолчанию Seaborn. Вот простой пример: import...

87
Удаление строк, содержащих пустые ячейки, из фрейма данных pandas

У меня есть файл, pd.DataFrameкоторый был создан путем анализа некоторых таблиц Excel. Столбец, в котором есть пустые ячейки. Например, ниже приведены выходные данные для частоты этого столбца, 32320 записей имеют пропущенные значения для Tenant . >>> value_counts(Tenant, normalize=False)...

87
Применить функцию к каждой ячейке в DataFrame

У меня есть фрейм данных, который может выглядеть так: A B C foo bar foo bar bar foo foo bar Я хочу просмотреть каждый элемент каждой строки (или каждый элемент каждого столбца) и применить следующую функцию, чтобы получить последующий DF: def foo_bar(x): return x.replace('foo', 'wow') A B C wow...

86
pandas: сложный фильтр по строкам DataFrame

Я хотел бы фильтровать строки по функции каждой строки, например def f(row): return sin(row['velocity'])/np.prod(['masses']) > 5 df = pandas.DataFrame(...) filtered = df[apply_to_all_rows(df, f)] Или другой, более сложный, надуманный пример: def g(row): if row['col1'].method1() == 1: val =...

86
Как задать пользовательские цвета для гистограммы pandas / matplotlib

Я только начал использовать pandas / matplotlib в качестве замены Excel для создания столбчатых диаграмм с накоплением. Я столкнулся с проблемой (1) в палитре по умолчанию всего 5 цветов, поэтому, если у меня больше 5 категорий, цвета повторяются. Как я могу указать больше цветов? В идеале,...

86
Разделить большой фрейм данных pandas

У меня большой фрейм данных с 423244 строками. Я хочу разделить это на 4. Я пробовал следующий код, который дал ошибку?ValueError: array split does not result in an equal division for item in np.split(df, 4): print item Как разделить этот фрейм данных на 4 группы?...

86
ValueError: numpy.dtype имеет неправильный размер, попробуйте перекомпилировать

Я только что установил пакет pandas и statsmodels на свой python 2.7. Когда я попробовал «импортировать pandas как pd», появляется это сообщение об ошибке. Кто-нибудь может помочь? Благодарность!!! numpy.dtype has the wrong size, try recompiling Traceback (most recent call last): File...

86
Сиборн показывает научную запись на тепловой карте для трехзначных чисел

Я создаю тепловую карту из pivot_table pandas, как показано ниже: table2 = pd.pivot_table(df,values='control',columns='Year',index='Region',aggfunc=np.sum) sns.heatmap(table2,annot=True,cmap='Blues') Он создает тепловую карту, как показано ниже. Вы можете видеть, что числа не огромны (максимум...

86
Панды: преобразование категорий в числа

Предположим, у меня есть фрейм данных со странами, который выглядит так: cc | temp US | 37.0 CA | 12.0 US | 35.0 AU | 20.0 Я знаю, что есть функция pd.get_dummies для преобразования стран в «горячие кодировки». Однако я хочу вместо этого преобразовать их в индексы, чтобы получить cc_index =...

86
Как сохранить новый лист в существующем файле Excel с помощью Pandas?

Я хочу использовать файлы Excel для хранения данных, разработанных с помощью Python. Моя проблема в том, что я не могу добавлять листы в существующий файл Excel. Здесь я предлагаю образец кода для работы, чтобы решить эту проблему. import pandas as pd import numpy as np path =...

85
Добавить массив numpy в качестве столбца во фрейм данных Pandas

У меня есть объект фрейма данных Pandas формы (X, Y), который выглядит так: [[1, 2, 3], [4, 5, 6], [7, 8, 9]] и многочисленная разреженная матрица (CSC) формы (X, Z), которая выглядит примерно так [[0, 1, 0], [0, 0, 1], [1, 0, 0]] Как я могу добавить содержимое из матрицы во фрейм данных в новом...

85
сохранить график гистограммы pandas.Series в файл

В ipython Notebook сначала создайте объект серии pandas, затем, вызвав метод экземпляра .hist (), браузер отобразит рисунок. Мне интересно, как сохранить этот рисунок в файл (я имею в виду не щелчок правой кнопкой мыши и сохранение как, а команды, необходимые в сценарии)....

85
Вычислить разницу во времени Pandas DataFrame между двумя столбцами в часах и минутах

У меня есть два столбца fromdateи todateв кадре данных. import pandas as pd data = {'todate': [pd.Timestamp('2014-01-24 13:03:12.050000'), pd.Timestamp('2014-01-27 11:57:18.240000'), pd.Timestamp('2014-01-23 10:07:47.660000')], 'fromdate': [pd.Timestamp('2014-01-26 23:41:21.870000'),...

84
Индекс доступа последнего элемента в фрейме данных

Я искал это, но, похоже, не нашел (хотя это должно быть чрезвычайно тривиально). Проблема в том, что я хотел бы получить значение столбца для первой и последней записи фрейма данных. Но если я это сделаю: df.ix[0]['date'] Я получил: datetime.datetime(2011, 1, 10, 16, 0) но если я это сделаю:...