Вопросы с тегом «dplyr»

Используйте этот тег для вопросов, связанных с функциями из пакета dplyr, такими как group_by, summarize, filter и select.

760
data.table vs dplyr: один может делать что-то хорошо, другой - плохо или плохо?

обзор Я относительно знаком с data.table, не так много с dplyr. Я прочитал несколько dplyrвиньеток и примеров, которые всплыли на SO, и до сих пор мои выводы таковы: data.tableи dplyrсопоставимы по скорости, за исключением случаев, когда существует много (то есть> 10-100 КБ) групп, и при...

192
Отобразить / напечатать все строки таблицы (tbl_df)

tibble(ранее tbl_df) является версией фрейма данных, созданного dplyrпакетом манипулирования фреймами данных в R. Он предотвращает вывод длинных таблиц при случайном вызове фрейма данных. После того, как фрейм данных был обернут в tibble/ tbl_df, есть ли команда для просмотра всего фрейма данных...

188
Фильтровать строки, содержащие определенную строку

Я должен фильтровать фрейм данных, используя в качестве критерия те строки, в которых содержится строка RTB. Я использую dplyr. d.del <- df %>% group_by(TrackingPixel) %>% summarise(MonthDelivery = as.integer(sum(Revenue))) %>% arrange(desc(MonthDelivery)) Я знаю , что могу использовать...

179
Можно ли использовать пакет dplyr для условного мутации?

Можно ли использовать мутацию, если она является условной (в зависимости от значений определенных значений столбца)? Этот пример помогает показать, что я имею в виду. structure(list(a = c(1, 3, 4, 6, 3, 2, 5, 1), b = c(1, 3, 4, 2, 6, 7, 2, 6), c = c(6, 3, 6, 5, 3, 6, 5, 3), d = c(6, 2, 4, 5, 3, 7,...

175
Извлечь столбец dplyr tbl как вектор

Есть ли более краткий способ получить один столбец таблицы dplyr в качестве вектора из таблицы с базой данных (т. Е. Фрейм / таблица данных не может быть поднабором напрямую)? require(dplyr) db <- src_sqlite(tempfile(), create = TRUE) iris2 <- copy_to(db, iris) iris2$Species # NULL Это было...

172
Исправление множественного предупреждения «неизвестный столбец»

У меня есть постоянное многократное предупреждение о «неизвестном столбце» для всех типов команд (например, str (x) для установки обновлений в пакеты), и я не уверен, как это отладить или исправить. Предупреждение «неизвестный столбец» явно связано с переменной в tbl_df, которую я переименовал, но...

168
Используйте имена динамических переменных в `dplyr`

Я хочу использовать dplyr::mutate()для создания нескольких новых столбцов в кадре данных. Имена столбцов и их содержимое должны генерироваться динамически. Пример данных из радужки: library(dplyr) iris <- tbl_df(iris) Я создал функцию для изменения моих новых столбцов из Petal.Widthпеременной:...

157
Группировать по нескольким столбцам в dplyr, используя строковый вектор

Я пытаюсь перенести свое понимание plyr в dplyr, но не могу понять, как группировать по нескольким столбцам. # make data with weird column names that can't be hard coded data = data.frame( asihckhdoydkhxiydfgfTgdsx = sample(LETTERS[1:3], 100, replace=TRUE), a30mvxigxkghc5cdsvxvyv0ja =...

153
Относительные частоты / пропорции с dplyr

Предположим, я хочу рассчитать долю различных значений в каждой группе. Например, используя mtcarsданные, как рассчитать относительную частоту числа передач с помощью am (автоматически / вручную) за один раз dplyr? library(dplyr) data(mtcars) mtcars <- tbl_df(mtcars) # count frequency mtcars...

137
Выберите первую и последнюю строку из сгруппированных данных

Вопрос Используя dplyr, как выбрать верхние и нижние наблюдения / строки сгруппированных данных в одном утверждении? Данные и пример Учитывая фрейм данных df <- data.frame(id=c(1,1,1,2,2,2,3,3,3), stopId=c("a","b","c","a","b","c","a","b","c"), stopSequence=c(1,2,3,3,1,4,3,1,2)) Я могу получить...

128
Удалите повторяющиеся строки с помощью dplyr

У меня есть такой data.frame - set.seed(123) df = data.frame(x=sample(0:1,10,replace=T),y=sample(0:1,10,replace=T),z=1:10) > df x y z 1 0 1 1 2 1 0 2 3 0 1 3 4 1 1 4 5 1 0 5 6 0 1 6 7 1 0 7 8 1 0 8 9 1 0 9 10 0 1 10 Я хочу удалить повторяющиеся строки на основе первых двух столбцов. Ожидаемый...

121
Применять функцию к каждой строке таблицы с помощью dplyr?

При работе с ним plyrя часто находил полезным использовать adplyскалярные функции, которые мне приходилось применять к каждой строке. например data(iris) library(plyr) head( adply(iris, 1, transform , Max.Len= max(Sepal.Length,Petal.Length)) ) Sepal.Length Sepal.Width Petal.Length Petal.Width...

120
Что означает функция%>% в R?

Я видел использование функции %>%(процент больше, чем процент) в некоторых пакетах, таких как dplyr и rvest . Что это означает? Это способ писать закрывающие блоки в...

118
Замена на «переименовать» в dplyr

Мне нравится функция переименования в plyr rename. Я недавно начал использовать dplyr, и мне было интересно, есть ли простой способ переименовать переменные с помощью функции из dplyr, которая так же проста в использовании, как и plyr...

111
Может ли dplyr объединяться по нескольким столбцам или составному ключу?

Я понимаю, что dplyrv3.0 позволяет объединять разные переменные: left_join(x, y, by = c("a" = "b")будет соответствовать x.aкy.b Однако можно ли присоединиться к комбинации переменных или мне нужно заранее добавить составной ключ? Что-то вроде этого: left_join(x, y, by = c("a c" = "b d")для...

108
Соберите несколько наборов столбцов

У меня есть данные онлайн-опроса, в котором респонденты задают цикл вопросов 1-3 раза. Обзор программного обеспечения (Qualtrics) записывает эти данные в нескольких столбцах, то есть, В3.2 в обзоре будет иметь столбцы Q3.2.1., Q3.2.2.и Q3.2.3.: df <- data.frame( id = 1:10, time =...

99
фильтр для полных случаев в data.frame с помощью dplyr (удаление по регистру)

Можно ли фильтровать data.frame для полных случаев с помощью dplyr? complete.casesсо списком всех переменных работает, конечно. Но это а) многословно, когда есть много переменных, и б) невозможно, когда имена переменных неизвестны (например, в функции, которая обрабатывает любой data.frame)....

98
Суммирование по нескольким столбцам с помощью dplyr

Мой вопрос включает суммирование значений по нескольким столбцам фрейма данных и создание нового столбца, соответствующего этому суммированию, используя dplyr. Записи данных в столбцах являются двоичными (0,1). Я думаю о построчном аналоге функции summarise_eachили . Ниже приведен минимальный...

97
dplyr summarize: эквивалент «.drop = FALSE» для сохранения групп с нулевой длиной на выходе

При использовании summariseс plyr«S ddplyфункции, пустые категории удаляются по умолчанию. Вы можете изменить это поведение, добавив .drop = FALSE. Однако это не работает при использовании summariseс dplyr. Есть ли другой способ сохранить в результате пустые категории? Вот пример с поддельными...

97
R dplyr: удаление нескольких столбцов

У меня есть фрейм данных и список столбцов в этом фреймворке, который я хотел бы удалить. Давайте использовать irisнабор данных в качестве примера. Я хотел бы бросить Sepal.Lengthи Sepal.Widthи использовать только оставшиеся столбцы. Как это сделать с помощью пакета selectили select_из...