Вопросы с тегом «dataframe»

129
Удалите ненужные части из строк в столбце

Я ищу эффективный способ удаления ненужных частей из строк в столбце DataFrame. Данные выглядят так: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a Мне нужно обрезать эти данные до: time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 30 5 13:00 110 Я пробовал...

129
Как определить разбиение DataFrame?

Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель в DataFrames в Scala, но не знаю, как это сделать. Одна из таблиц данных, с которыми я работаю, содержит список транзакций по учетной записи, силимар к следующему примеру. Account Date Type...

129
Как добавить новый столбец в фрейм данных Spark (используя PySpark)?

У меня есть Spark DataFrame (с использованием PySpark 1.5.1), и я хотел бы добавить новый столбец. Я безуспешно пробовал следующее: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col =...

128
Добавить недостающие даты в фреймворк pandas

Мои данные могут иметь несколько событий на заданную дату или НИКАКИХ событий на дату. Я беру эти события, подсчитываю по дате и рисую их. Однако, когда я их рисую, две мои серии не всегда совпадают. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s =...

128
datetime dtypes в пандах read_csv

Я читаю файл csv с несколькими столбцами datetime. Мне нужно установить типы данных при чтении в файле, но проблема с датами. Например: headers = ['col1', 'col2', 'col3', 'col4'] dtypes = ['datetime', 'datetime', 'str', 'float'] pd.read_csv(file, sep='\t', header=None, names=headers, dtype=dtypes)...

127
Как кратко написать формулу с множеством переменных из фрейма данных?

Предположим, у меня есть переменная ответа и данные, содержащие три ковариаты (в качестве игрушечного примера): y = c(1,4,6) d = data.frame(x1 = c(4,-1,3), x2 = c(3,9,8), x3 = c(4,-4,-2)) Я хочу подобрать линейную регрессию к данным: fit = lm(y ~ d$x1 + d$x2 + d$y2) Есть ли способ написать формулу,...

126
Сохранение Dataframe в CSV непосредственно в s3 Python

У меня есть DataFrame pandas, который я хочу загрузить в новый файл CSV. Проблема в том, что я не хочу сохранять файл локально перед переносом на s3. Есть ли какой-нибудь метод, например to_csv, для прямой записи фрейма данных в s3? Я использую boto3. Вот что у меня есть на данный момент: import...

124
Как создать DataFrame из случайных целых чисел с помощью Pandas?

Я знаю, что если я использую randn, import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD')) дает мне то, что я ищу, но с элементами нормального распределения. Но что, если мне просто нужны случайные целые числа? randintработает, предоставляя диапазон,...

123
data.frame строки в список

У меня есть data.frame, который я хотел бы преобразовать в список по строкам, то есть каждая строка будет соответствовать своим собственным элементам списка. Другими словами, мне нужен список, который будет содержать строки в data.frame. До сих пор я решал эту проблему следующим образом, но мне...

122
Динамически выбирать столбцы фрейма данных с помощью $ и символьного значения

У меня есть вектор с разными именами столбцов, и я хочу иметь возможность перебирать каждый из них, чтобы извлечь этот столбец из data.frame. Например, рассмотрим набор данных mtcarsи некоторые имена переменных, хранящиеся в векторе символов cols. Когда я пытаюсь выбрать переменную из...

122
Как добавить несколько столбцов в фрейм данных pandas за одно задание?

Я новичок в пандах и пытаюсь понять, как одновременно добавить несколько столбцов в панды. Любая помощь здесь приветствуется. В идеале я хотел бы сделать это за один шаг, а не за несколько повторяющихся шагов ... import pandas as pd df = {'col_1': [0, 1, 2, 3], 'col_2': [4, 5, 6, 7]} df =...

121
Подсчитайте количество строк в каждой группе

У меня есть фрейм данных, и я хотел бы подсчитать количество строк в каждой группе. Я регулярно использую эту aggregateфункцию для суммирования данных следующим образом: df2 <- aggregate(x ~ Year + Month, data = df1, sum) Теперь я хотел бы посчитать наблюдения, но не могу найти подходящего...

121
Найдите максимальное значение столбца и верните соответствующие значения строки с помощью Pandas

Используя Python Pandas, я пытаюсь найти Country& Placeс максимальным значением. Это возвращает максимальное значение: data.groupby(['Country','Place'])['Value'].max() Но как мне получить соответствующее Countryи...

121
получение индекса строки в функции применения панд

Я пытаюсь получить доступ к индексу строки в функции, применяемой ко всему DataFrameв Pandas. У меня примерно так: df = pandas.DataFrame([[1,2,3],[4,5,6]], columns=['a','b','c']) >>> df a b c 0 1 2 3 1 4 5 6 и я определю функцию, которая обращается к элементам с заданной строкой def...

121
Как добавить строки во фрейм данных R

Я просмотрел StackOverflow, но не могу найти решения, специфичного для моей проблемы, которое включает добавление строк во фрейм данных R. Я инициализирую пустой фрейм данных с двумя столбцами следующим образом. df = data.frame(x = numeric(), y = character()) Затем моя цель - перебрать список...

120
Как разложить (взорвать) столбец в фрейме данных pandas?

У меня есть следующий DataFrame, в котором один из столбцов является объектом (ячейка типа списка): df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]}) df Out[458]: A B 0 1 [1, 2] 1 2 [1, 2] Мой ожидаемый результат: A B 0 1 1 1 1 2 3 2 1 4 2 2 Что мне делать для этого? Связанный вопрос pandas: когда...

119
Передайте в функцию имя столбца data.frame.

Я пытаюсь написать функцию для приема data.frame ( x) и columnот нее. Функция выполняет некоторые вычисления для x и позже возвращает другой data.frame. Я застрял на передовом методе передачи имени столбца функции. Два минимальных примера fun1и fun2приведенные ниже дают желаемый результат, позволяя...

119
Какие правила использует Pandas для создания представления или копии?

Я смущен правилами, которые использует Pandas, когда решает, что выбор из фрейма данных является копией исходного фрейма данных или представлением оригинала. Если у меня, например, df = pd.DataFrame(np.random.randn(8,8), columns=list('ABCDEFGH'), index=range(1,9)) Я понимаю, что a queryвозвращает...