Вопросы с тегом «dataframe»

90
Заменить все конкретные значения во фрейме данных

Имея фрейм данных, как мне заменить все конкретные значения во всех строках и столбцах. Скажем, например, я хочу заменить все пустые записи на NA's (без ввода позиций): df <- data.frame(list(A=c("", "xyz", "jkl"), B=c(12, "", 100))) A B 1 12 2 xyz 3 jkl 100 Ожидаемый результат: A B 1 NA 12 2...

89
Аннотирование столбцов со значениями на диаграммах столбцов Pandas

Я искал способ аннотировать свои столбцы на графике столбцов Pandas округленными числовыми значениями из моего DataFrame. >>> df=pd.DataFrame({'A':np.random.rand(2),'B':np.random.rand(2)},index=['value1','value2'] ) >>> df A B value1 0.440922 0.911800 value2 0.588242 0.797366...

88
Spark DataFrame groupBy и сортировка в порядке убывания (pyspark)

Я использую pyspark (Python 2.7.9 / Spark 1.3.1) и имею объект GroupObject фрейма данных, который мне нужно фильтровать и сортировать в порядке убывания. Пытаюсь достичь этого с помощью этого фрагмента кода. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Но...

87
Выбрать первую строку по группе

Из такого фрейма данных test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10]) test <- test[order(test$id), ] rownames(test) <- 1:10 > test id string 1 1 A 2 1 F 3 2 B 4 2 G 5 3 C 6 3 H 7 4 D 8 4 I 9 5 E 10 5 J Я хочу создать новый с первой строкой каждой пары id / string. Если...

87
Сдвинуть столбец в кадре данных pandas на один?

У меня есть фреймворк pandas. Я хочу «запаздывать» одну из моих колонок. Это означает, например, сдвиг всего столбца 'gdp' вверх на единицу, а затем удаление всех лишних данных в нижней части оставшихся строк, чтобы все столбцы снова стали равной длины. df = y gdp cap 0 1 2 5 1 2 3 9 2 8 7 2 3 3 4...

87
Применить функцию к каждой ячейке в DataFrame

У меня есть фрейм данных, который может выглядеть так: A B C foo bar foo bar bar foo foo bar Я хочу просмотреть каждый элемент каждой строки (или каждый элемент каждого столбца) и применить следующую функцию, чтобы получить последующий DF: def foo_bar(x): return x.replace('foo', 'wow') A B C wow...

86
Преобразование именованного вектора символов в data.frame

У меня есть именованный вектор символов, возвращаемый из xmlAttrs следующим образом: testVect <- structure(c("11.2.0.3.0", "12.89", "12.71"), .Names = c("db_version", "elapsed_time", "cpu_time")) Я хотел бы преобразовать его во фрейм данных, который выглядит так: testDF <-...

86
Разделить большой фрейм данных на список фреймов данных на основе общего значения в столбце

У меня есть фрейм данных с 10 столбцами, собирающими действия «пользователей», где один из столбцов содержит идентификатор (не уникальный, идентифицирующий пользователя) (столбец 10). длина кадра данных составляет около 750000 строк. Я пытаюсь извлечь отдельные фреймы данных (чтобы получить список...

84
Найдите уникальные значения в столбце и отсортируйте их

У меня есть фреймворк pandas. Я хочу напечатать уникальные значения одного из его столбцов в порядке возрастания. Вот как я это делаю: import pandas as pd df = pd.DataFrame({'A':[1,1,3,2,6,2,8]}) a = df['A'].unique() print a.sort() Проблема в том, что я получаю Noneна выходе....

83
Как объединить серию и DataFrame

Если вы пришли сюда в поисках информации о том, как объединить a DataFrameи Seriesиндекс , пожалуйста, посмотрите этот ответ . Первоначальное намерение OP состояло в том, чтобы спросить, как назначить элементы серии в качестве столбцов другому DataFrame . Если вам интересно узнать ответ на этот...

83
Spark Dataframe различает столбцы с повторяющимся именем

Итак, как я знаю в Spark Dataframe, несколько столбцов могут иметь то же имя, что и на снимке ниже: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0,...

82
Как заменить значения NA в таблице для выбранных столбцов

Есть много сообщений о замене ценностей NA. Я знаю, что можно заменить NA в следующей таблице / кадре следующим: x[is.na(x)]<-0 Но что, если я хочу ограничить его только определенными столбцами? Я покажу вам пример. Во-первых, давайте начнем с набора данных. set.seed(1234) x <-...