Укажите собственный формат даты для аргумента colClasses в read.table / read.csv

101

Вопрос:

Есть ли способ указать формат даты при использовании аргумента colClasses в read.table / read.csv?

(Я понимаю, что могу преобразовать после импорта, но со многими столбцами даты, подобными этому, было бы проще сделать это на этапе импорта)


Пример:

У меня есть .csv со столбцами даты в формате %d/%m/%Y.

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))

Это неправильное преобразование. Например, 15/07/2008становится 0015-07-20.


Воспроизводимый код:

data <- 
structure(list(func_loc = structure(c(1L, 2L, 3L, 3L, 3L, 3L, 
3L, 4L, 4L, 5L), .Label = c("3076WAG0003", "3076WAG0004", "3076WAG0007", 
"3076WAG0009", "3076WAG0010"), class = "factor"), order_type = structure(c(3L, 
3L, 1L, 1L, 1L, 1L, 2L, 2L, 3L, 1L), .Label = c("PM01", "PM02", 
"PM03"), class = "factor"), actual_finish = structure(c(4L, 6L, 
1L, 2L, 3L, 7L, 1L, 8L, 1L, 5L), .Label = c("", "11/03/2008", 
"14/08/2008", "15/07/2008", "17/03/2008", "19/01/2009", "22/09/2008", 
"6/09/2007"), class = "factor")), .Names = c("func_loc", "order_type", 
"actual_finish"), row.names = c(NA, 10L), class = "data.frame")


write.csv(data,"data.csv", row.names = F)                                                        

dataImport <- read.csv("data.csv")
str(dataImport)
dataImport

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
dataImport

А вот как выглядит результат:

вывод кода

Томми О'Делл
источник
Хакерский способ сделать это - создать свою собственную версию read.tableи добавить formatаргумент, который передается в as.Date. Я не удивлюсь, если есть лучший способ, о котором я не думаю.
Joran

Ответы:

158

Вы можете написать свою собственную функцию, которая принимает строку и преобразует ее в Date, используя желаемый формат, а затем использовать, setAsчтобы установить ее как asметод. Затем вы можете использовать свою функцию как часть colClasses.

Пытаться:

setAs("character","myDate", function(from) as.Date(from, format="%d/%m/%Y") )

tmp <- c("1, 15/08/2008", "2, 23/05/2010")
con <- textConnection(tmp)

tmp2 <- read.csv(con, colClasses=c('numeric','myDate'), header=FALSE)
str(tmp2)

Затем измените, если необходимо, для работы с вашими данными.

Редактировать ---

Возможно, вы захотите запустить setClass('myDate')сначала, чтобы избежать предупреждения (вы можете игнорировать предупреждение, но оно может раздражать, если вы делаете это часто, и это простой вызов, который избавляет от него).

Грег Сноу
источник
2
Вау - setAs - это палочка-выручалочка! Как я никогда раньше не видел эту функцию?
user295691 05
4
Обратите внимание, что вы можете получить предупреждение «нет определения для класса myDate», как подробно описано в этом вопросе .
Danny D'Amours
1
Что setMethod('myDate')делать? Запуск просто дает мне ошибку ...
Джош О'Брайен
1
@ ДжошО'Брайен, извините, это должно было быть setClass(исправлено). Что он делает, так это предотвращает setAsвыдачу предупреждения о том, что myDate не существует как класс. Предупреждение безвредно, и все по-прежнему работает, но установка класса означает, что вы даже не видите предупреждения.
Грег Сноу
1
@MySchizoBuddy, если у вас есть только один столбец даты и вы делаете это один раз, то, вероятно, не имеет значения, каким образом вы это делаете. Но если у вас есть несколько столбцов в вашем наборе данных, которые являются датами, тогда я думаю, что этот подход, вероятно, будет проще, чем изменение каждого столбца после чтения.
Грег Сноу
25

Если есть только 1 формат даты, который вы хотите изменить, вы можете использовать Defaultsпакет для изменения формата по умолчанию в пределахas.Date.character

library(Defaults)
setDefaults('as.Date.character', format = '%d/%M/%Y')
dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
## 'data.frame':    10 obs. of  3 variables:
##  $ func_loc     : Factor w/ 5 levels "3076WAG0003",..: 1 2 3 3 3 3 3 4 4 5
##  $ order_type   : Factor w/ 3 levels "PM01","PM02",..: 3 3 1 1 1 1 2 2 3 1
##  $ actual_finish: Date, format: "2008-10-15" "2009-10-19" NA "2008-10-11" ...

Я думаю, что ответ @Greg Snow намного лучше, поскольку он не меняет поведение по умолчанию часто используемой функции.

Mnel
источник
7

Если вам также нужно время:

setClass('yyyymmdd-hhmmss')
setAs("character","yyyymmdd-hhmmss", function(from) as.POSIXct(from, format="%Y%m%d-%H%M%S"))
d <- read.table(colClasses="yyyymmdd-hhmmss", text="20150711-130153")
str(d)
## 'data.frame':    1 obs. of  1 variable:
## $ V1: POSIXct, format: "2015-07-11 13:01:53"
Марк Райкок
источник
2

Между тем, давным-давно проблема была решена Хэдли Уикхэм. Итак, в настоящее время решение сведено к одной строчке:

library(readr)
data <- read_csv("data.csv", 
                  col_types = cols(actual_finish = col_datetime(format = "%d/%m/%Y")))

Может быть, мы хотим даже избавиться от ненужного:

data <- as.data.frame(data)
Андри Синьорелл
источник