Дан кадр данных панд, содержащий возможные значения NaN, разбросанные здесь и там: Вопрос: Как определить, какие столбцы содержат значения NaN? В частности, могу ли я получить список имен столбцов, содержащих...
Дан кадр данных панд, содержащий возможные значения NaN, разбросанные здесь и там: Вопрос: Как определить, какие столбцы содержат значения NaN? В частности, могу ли я получить список имен столбцов, содержащих...
У меня есть DataFrame, сгенерированный следующим образом: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результаты выглядят так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0|...
У меня есть CSV-файл без заголовка с индексом DateTime. Я хочу переименовать индекс и имя столбца, но с помощью df.rename () переименовывается только имя столбца. Ошибка? Я на версии 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]],...
Предположим, у меня есть DataFrame с некоторыми NaNs: >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 Что мне нужно сделать, так это заменить each NaNна первое не NaNзначение в том...
У меня есть фрейм данных с именами столбцов, и я хочу найти тот, который содержит определенную строку, но не совсем соответствует ей. Я ищу 'spike'в именах столбцов нравятся 'spike-2', 'hey spike', 'spiked-in'( 'spike'часть всегда непрерывна). Я хочу, чтобы имя столбца возвращалось в виде строки...
Каков наиболее эффективный способ организовать следующий фрейм данных pandas: данные = Position Letter 1 a 2 b 3 c 4 d 5 e в словарь вроде alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 :
У меня есть фреймворк pandas со столбцами смешанного типа, и я хотел бы применить min_max_scaler sklearn к некоторым столбцам. В идеале я хотел бы выполнить эти преобразования на месте, но еще не придумал, как это сделать. Я написал следующий код, который работает: import pandas as pd import numpy...
Я хочу добавить столбец в DataFrameс произвольным значением (то же самое для каждой строки). Я получаю ошибку, когда использую withColumnследующее: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most...
Я создал data.frame в R, который не очень большой, но его сборка занимает довольно много времени. Я хотел бы сохранить его как файл, который я могу, чем снова открыть в...
У меня есть DataFrameтакие панды, как следующие. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Я хочу сгруппировать это по...
Я работаю с большим CSV-файлом, и рядом с последним столбцом есть строка текста, которую я хочу разделить по определенному разделителю. Мне было интересно, если есть простой способ сделать это с помощью панд или питона? CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3...
df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) Как лучше всего вернуть уникальные значения Col1 и Col2? Желаемый результат 'Bob', 'Joe', 'Bill', 'Mary',...
Простая задача добавления строки к pandas.DataFrameобъекту кажется сложной. По этому поводу есть 3 вопроса о stackoverflow, ни один из которых не дает рабочего ответа. Вот что я пытаюсь сделать. У меня есть DataFrame, форма которого я уже знаю, а также имена строк и столбцов. >>> df =...
У меня есть простой DataFrame, подобный следующему: Я хочу выбрать все значения в столбце «Первый сезон» и заменить те, которые превышают 1990 год, на 1. В этом примере только у Baltimore Ravens значение 1996 года будет заменено на 1 (оставив остальные данные без изменений). Я использовал...
Я хочу знать, как опускать NAзначения во фрейме данных, но только в некоторых столбцах, которые меня интересуют. Например, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) но я хочу опустить только те данные, где yесть NA, поэтому результат должен быть x y z 1 1 0 NA 2 2 10 33...
Как лучше всего назначить несколько столбцов с помощью data.table? Например: f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) Я бы хотел сделать что-то подобное (конечно, это неверный синтаксис): x[ , (col1, col2) := f(), by = "id"] И чтобы расширить это, у меня может быть много...
У меня есть список фреймов данных Pandas, которые я хотел бы объединить в один фрейм данных Pandas. Я использую Python 2.7.10 и Pandas 0.16.2 Я создал список фреймов данных из: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn,...
Как в R добавить новую строку во фрейм данных после того, как фрейм данных уже инициализирован? Пока у меня есть это: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", "ciao") merge(df, de) # Adds to...
Учитывая два фрейма данных aи b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570...
Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель в DataFrames в Scala, но не знаю, как это сделать. Одна из таблиц данных, с которыми я работаю, содержит список транзакций по учетной записи, силимар к следующему примеру. Account Date Type...