Вопросы с тегом «pandas»

Pandas - это библиотека Python для манипулирования и анализа данных Panel, например, многомерных временных рядов и наборов данных поперечного сечения, обычно встречающихся в статистике, результатах экспериментальной науки, эконометрике или финансах.

73
Разница между isna () и isnull () в пандах

Я уже давно пользуюсь пандами. Но я не понял, в чем разница между isna()и isnull()в пандах. И, что более важно, какой из них использовать для определения пропущенных значений в кадре данных. Какова основная разница в том, как значение определяется как naили...

69
Почему люди предпочитают панды SQL?

Я использую SQL с 1996 года, поэтому я могу быть предвзятым. Я широко использовал MySQL и SQLite 3, но также использовал Microsoft SQL Server и Oracle. Подавляющее большинство операций, которые я видел в Pandas, можно сделать проще с помощью SQL. Это включает в себя фильтрацию набора данных, выбор...

42
ValueError: Входные данные содержат NaN, бесконечность или значение, слишком большое для dtype ('float32')

Я получил ValueError при прогнозировании тестовых данных с использованием модели RandomForest. Мой код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Ошибка:...

35
Расчет и визуализация корреляционной матрицы с пандами

У меня есть фрейм данных Pandas с несколькими записями, и я хочу рассчитать корреляцию между доходами магазинов определенного типа. Есть ряд магазинов с данными о доходах, классификацией области деятельности (театр, магазины одежды, продукты питания ...) и другими данными. Я попытался создать новый...

33
Открытие 20ГБ файла для анализа с пандами

В настоящее время я пытаюсь открыть файл с пандами и python для целей машинного обучения, для меня было бы идеально, чтобы они все были в DataFrame. Теперь размер файла составляет 18 ГБ, а объем оперативной памяти - 32 ГБ, но я получаю ошибки памяти. Из вашего опыта это возможно? Если нет, знаете...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

25
Существует ли простой способ параллельного запуска pandas.DataFrame.isin?

У меня есть программа моделирования и скоринга, которая активно использует DataFrame.isinфункцию панд, просматривая списки «похожих» на Facebook записей отдельных пользователей на каждой из нескольких тысяч конкретных страниц. Это самая трудоемкая часть программы, в большей степени, чем части...

19
Как заполнить пропущенное значение на основе других столбцов в кадре данных Pandas?

Предположим, у меня есть кадр данных 5 * 3, в котором третий столбец содержит пропущенное значение 1 2 3 4 5 NaN 7 8 9 3 2 NaN 5 6 NaN Я надеюсь сгенерировать значение для пропущенного правила, основанного на том, что первый продукт второй столбец 1 2 3 4 5 20 <--4*5 7 8 9 3 2 6 <-- 3*2 5 6...

18
есть ли инструмент для очистки данных для python / pandas, похожий на инструмент R tidyr?

Я работаю над проблемой Kaggle, где некоторые переменные представлены строками, а не столбцами (разрушение сети Telstra). В настоящее время я ищу эквивалент функции collect (), separa (() и spread (), который можно найти в инструменте R...

17
Как посчитать количество пропущенных значений в каждой строке в кадре данных Pandas?

Как я могу получить число недостающего значения в каждой строке в панде dataframe. Я хотел бы разделить фреймы данных на различные фреймы данных, которые имеют одинаковое количество пропущенных значений в каждой строке. Любое...

16
Панды теперь быстрее, чем data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Тесты data.table не обновлялись с 2014 года. Я слышал где-то, что Pandasсейчас быстрее, чем data.table. Это правда? Кто-нибудь делал какие-либо тесты? Я никогда не использовал Python раньше, но подумал бы о переключении, если...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

16
Где в рабочем процессе мы должны иметь дело с отсутствующими данными?

Я строю рабочий процесс для создания моделей машинного обучения (в моем случае, с использованием Python pandasи sklearnпакетов) из данных, извлеченных из очень большой базы данных (здесь, Vertica посредством SQL и pyodbc), и критический шаг в этом процессе включает в себя отсутствие значения...

14
Pandas Dataframe для DMatrix

Я пытаюсь запустить xgboost в scikit learn. И я использую только Pandas для загрузки данных в dataframe. Как я должен использовать панд DF с xgboost. Меня смущает процедура DMatrix, необходимая для запуска алгоритма...

13
Преобразование столбца панд int в тип данных timestamp

У меня есть датафрейм, который среди прочего содержит столбец количества миллисекунд, прошедших с 1970-1-1. Мне нужно преобразовать этот столбец целых чисел в данные метки времени, чтобы затем я мог в конечном итоге преобразовать его в столбец данных даты и времени, добавив серию столбцов метки...

13
Преимущества pandas dataframe для обычной реляционной базы данных

В Data Science многие, кажется, используют фреймы данных pandas в качестве хранилища данных. Каковы особенности панд, которые делают его превосходным хранилищем данных по сравнению с обычными реляционными базами данных, такими как MySQL , которые используются для хранения данных во многих других...

12
Массовое преобразование категориальных столбцов в Pandas (не одноразовое кодирование)

У меня есть панды dataframe с тоннами категоричных колонн, которые я планирую использовать в дерево решений с scikit учиться. Мне нужно преобразовать их в числовые значения (не один горячий вектор). Я могу сделать это с LabelEncoder из scikit учиться. Проблема в том, что их слишком много, и я не...