Вопросы с тегом «pandas»

138
масштабирование столбцов в пандах с помощью sklearn

У меня есть фреймворк pandas со столбцами смешанного типа, и я хотел бы применить min_max_scaler sklearn к некоторым столбцам. В идеале я хотел бы выполнить эти преобразования на месте, но еще не придумал, как это сделать. Я написал следующий код, который работает: import pandas as pd import numpy...

136
Как загрузить файл tsv в фрейм данных Pandas?

Я новичок в питоне и пандах. Я пытаюсь tsvзагрузить файл в панда DataFrame. Вот что я пытаюсь и получаю ошибку: >>> df1 = DataFrame(csv.reader(open('c:/~/trainSetRel3.txt'), delimiter='\t')) Traceback (most recent call last): File "<pyshell#28>", line 1, in <module> df1 =...

136
ImportError: нет модуля с именем dateutil.parser

При импорте pandasв Pythonпрограмму я получаю следующую ошибку monas-mbp:book mona$ sudo pip install python-dateutil Requirement already satisfied (use --upgrade to upgrade): python-dateutil in /System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python Cleaning up... monas-mbp:book...

135
Панды конвертируют фрейм данных в массив кортежей

Я обработал некоторые данные с помощью панд, и теперь я хочу выполнить пакетное сохранение обратно в базу данных. Это требует, чтобы я преобразовал фрейм данных в массив кортежей, причем каждый кортеж соответствует «строке» фрейма данных. Мой DataFrame выглядит примерно так: In [182]: data_set...

135
как проверить dtype столбца в python pandas

Мне нужно использовать разные функции для обработки числовых и строковых столбцов. То, что я делаю сейчас, действительно глупо: allc = list((agg.loc[:, (agg.dtypes==np.float64)|(agg.dtypes==np.int)]).columns) for y in allc: treat_numeric(agg[y]) allc = list((agg.loc[:,...

135
Панды: Как разделить текст в столбце на несколько строк?

Я работаю с большим CSV-файлом, и рядом с последним столбцом есть строка текста, которую я хочу разделить по определенному разделителю. Мне было интересно, если есть простой способ сделать это с помощью панд или питона? CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3...

135
pandas: несколько условий при индексировании фрейма данных - неожиданное поведение

Я фильтрую строки в кадре данных по значениям в двух столбцах. По какой-то причине оператор ИЛИ ведет себя так, как я ожидал, что оператор И будет вести себя, и наоборот. Мой тестовый код: import pandas as pd df = pd.DataFrame({'a': range(5), 'b': range(5) }) # let's insert some -1 values...

134
Как распечатать объект groupby

Я хочу распечатать результат группировки с помощью Pandas. У меня есть фреймворк: import pandas as pd df = pd.DataFrame({'A': ['one', 'one', 'two', 'three', 'three', 'one'], 'B': range(6)}) print(df) A B 0 one 0 1 one 1 2 two 2 3 three 3 4 three 4 5 one 5 При печати после группировки по букве «А» у...

133
Python pandas: заполняйте фрейм данных строка за строкой

Простая задача добавления строки к pandas.DataFrameобъекту кажется сложной. По этому поводу есть 3 вопроса о stackoverflow, ни один из которых не дает рабочего ответа. Вот что я пытаюсь сделать. У меня есть DataFrame, форма которого я уже знаю, а также имена строк и столбцов. >>> df =...

132
Pandas DataFrame: заменить все значения в столбце в зависимости от условия

У меня есть простой DataFrame, подобный следующему: Я хочу выбрать все значения в столбце «Первый сезон» и заменить те, которые превышают 1990 год, на 1. В этом примере только у Baltimore Ravens значение 1996 года будет заменено на 1 (оставив остальные данные без изменений). Я использовал...

132
Как я могу выполнить горячее кодирование в Python?

У меня проблема классификации машинного обучения с 80% категориальных переменных. Должен ли я использовать одно горячее кодирование, если я хочу использовать какой-либо классификатор для классификации? Могу ли я передать данные классификатору без кодировки? Я пытаюсь сделать следующее для выбора...

131
Нормализовать данные в пандах

Предположим, у меня есть фрейм данных pandas df: Я хочу вычислить среднее значение кадра данных по столбцам. Это просто: df.apply(average) затем диапазон столбцов max (col) - min (col). Это снова просто: df.apply(max) - df.apply(min) Теперь для каждого элемента я хочу вычесть среднее значение его...

131
проверьте, является ли переменная кадром данных

когда моя функция f вызывается с переменной, я хочу проверить, является ли var фреймом данных pandas: def f(var): if var == pd.DataFrame(): print "do stuff" Думаю, решение может быть довольно простым, но даже с def f(var): if var.values != None: print "do stuff" Я не могу заставить его работать...

131
каков самый эффективный способ подсчета вхождений в пандах?

У меня есть большой (около 12 миллионов строк) dataframe df, скажем: df.columns = ['word','documents','frequency'] Таким образом, своевременно выполнялось следующее: word_grouping = df[['word','frequency']].groupby('word') MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()...

130
Объедините список фреймов данных pandas вместе

У меня есть список фреймов данных Pandas, которые я хотел бы объединить в один фрейм данных Pandas. Я использую Python 2.7.10 и Pandas 0.16.2 Я создал список фреймов данных из: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn,...