Выбор столбцов на основе совпадения строк - dplyr :: select

Question 1

У меня есть фрейм данных («данные») с множеством столбцов. Некоторые столбцы содержат определенную строку ("search_string").

Как я могу использовать, dplyr::select()чтобы дать мне подмножество, включающее только столбцы, содержащие строку?

Я старался:

# columns as boolean vector
select(data, grepl("search_string",colnames(data)))

# columns as vector of column names names 
select(data, colnames(data)[grepl("search_string",colnames(data))])

Ни один из них не работает.

Я знаю, что select()принимает числовые векторы в качестве замены столбцов, например:

select(data,5,7,9:20)

Но я не знаю, как получить числовой вектор столбцов IDs из моего grepl()выражения.

Question 2

В мире dplyr попробуйте:

select(iris,contains("Sepal"))

См. Раздел «Выбор» ?selectдля получения информации о многих других помощниках, например starts_with, ends_withи т. Д.

Question 3

Ты можешь попробовать:

select(data, matches("search_string"))

Это более общий характер, чем contains- вы можете использовать регулярное выражение (например "one_string|or_the_other").

Дополнительные примеры см: http://rpackages.ianhowson.com/cran/dplyr/man/select.html .

Question 4

Нет необходимости использования selectпросто использовать [вместо

data[,grepl("search_string", colnames(data))]

Попробуем с irisнабором данных

>iris[,grepl("Sepal", colnames(iris))]
  Sepal.Length Sepal.Width
1          5.1         3.5
2          4.9         3.0
3          4.7         3.2
4          4.6         3.1
5          5.0         3.6
6          5.4         3.9

Question 5

Основываясь на ответе Петра Мигдальса, я хочу дать альтернативное решение, позволяющее использовать вектор строк:

myVectorOfStrings <- c("foo", "bar")
matchExpression <- paste(myVectorOfStrings, collapse = "|")
# [1] "foo|bar"
df %>% select(matches(matchExpression))

Использование ORоператора регулярного выражения ( |)

ВНИМАНИЕ : Если у вас действительно есть простой вектор имен столбцов (и вам не нужна мощность RegExpression), см. Комментарий под этим ответом (так как это более чистое решение).

Answer 1

У меня есть фрейм данных («данные») с множеством столбцов. Некоторые столбцы содержат определенную строку ("search_string").

Как я могу использовать, dplyr::select()чтобы дать мне подмножество, включающее только столбцы, содержащие строку?

Я старался:

# columns as boolean vector
select(data, grepl("search_string",colnames(data)))

# columns as vector of column names names 
select(data, colnames(data)[grepl("search_string",colnames(data))])

Ни один из них не работает.

Я знаю, что select()принимает числовые векторы в качестве замены столбцов, например:

select(data,5,7,9:20)

Но я не знаю, как получить числовой вектор столбцов IDs из моего grepl()выражения.

Answer 2

См. Также этот SO-ответ для нескольких строк и совпадений: stackoverflow.com/q/29018292/3871924

Agenis

Answer 3

114

В мире dplyr попробуйте:

select(iris,contains("Sepal"))

См. Раздел «Выбор» ?selectдля получения информации о многих других помощниках, например starts_with, ends_withи т. Д.

Joran
источник

2

Помните, что вы можете легко оторваться от этого, поскольку, пытаясь избежать регулярного выражения, регулярное выражение возвращается, чтобы укусить вас, например: select(iris, contains(".") )Не уверен, как вы должны перейти fixed=TRUEк принудительному поиску фактического"."

thelatemail

1

@thelatemail Это похоже на упущение либо в коде, либо в документации (то есть предполагаем мы fixed = TRUEили эквивалент). dplyr еще довольно молод.

Joran

@thelatemail Упс! Я сделал также!

Joran

6

Что ж, тогда это довольно неудачное начало моей карьеры на github. Скоро появится функция «Закрыть как дубликат»!

thelatemail

1

@MattBannert см. Решение, которое я предоставил

Boern

Answer 4

2

Помните, что вы можете легко оторваться от этого, поскольку, пытаясь избежать регулярного выражения, регулярное выражение возвращается, чтобы укусить вас, например: select(iris, contains(".") )Не уверен, как вы должны перейти fixed=TRUEк принудительному поиску фактического"."

thelatemail

Answer 5

1

@thelatemail Это похоже на упущение либо в коде, либо в документации (то есть предполагаем мы fixed = TRUEили эквивалент). dplyr еще довольно молод.

Joran

Answer 6

@thelatemail Упс! Я сделал также!

Joran

Answer 7

6

Что ж, тогда это довольно неудачное начало моей карьеры на github. Скоро появится функция «Закрыть как дубликат»!

thelatemail

Answer 8

1

@MattBannert см. Решение, которое я предоставил

Boern

Answer 9

60

Ты можешь попробовать:

select(data, matches("search_string"))

Это более общий характер, чем contains- вы можете использовать регулярное выражение (например "one_string|or_the_other").

Дополнительные примеры см: http://rpackages.ianhowson.com/cran/dplyr/man/select.html .

Петр Мигдал
источник

1

лучше, так как поддерживает регулярное выражение

Boern

Ссылка сейчас не работает

pratikpc

Answer 10

1

лучше, так как поддерживает регулярное выражение

Boern

Answer 11

Ссылка сейчас не работает

pratikpc

Answer 12

30

Нет необходимости использования selectпросто использовать [вместо

data[,grepl("search_string", colnames(data))]

Попробуем с irisнабором данных

>iris[,grepl("Sepal", colnames(iris))]
  Sepal.Length Sepal.Width
1          5.1         3.5
2          4.9         3.0
3          4.7         3.2
4          4.6         3.1
5          5.0         3.6
6          5.4         3.9

Джилбер Урбина
источник

6

@arumbay dplyr- это panceum - даже если вы можете это сделать base, стандартный синтаксис не такой приятный / читаемый / составной - см. мой ответ .

Петр Мигдал

Answer 13

6

@arumbay dplyr- это panceum - даже если вы можете это сделать base, стандартный синтаксис не такой приятный / читаемый / составной - см. мой ответ .

Петр Мигдал

Answer 14

Основываясь на ответе Петра Мигдальса, я хочу дать альтернативное решение, позволяющее использовать вектор строк:

myVectorOfStrings <- c("foo", "bar")
matchExpression <- paste(myVectorOfStrings, collapse = "|")
# [1] "foo|bar"
df %>% select(matches(matchExpression))

Использование ORоператора регулярного выражения ( |)

ВНИМАНИЕ : Если у вас действительно есть простой вектор имен столбцов (и вам не нужна мощность RegExpression), см. Комментарий под этим ответом (так как это более чистое решение).

Answer 15

5

Для вектора известных имен столбцов используйтеselect(df, one_of(array_of_colnames))

AlexR

Выбор столбцов на основе совпадения строк - dplyr :: select

Ответы: