У меня есть файл CSV (24,1 МБ), который я не могу полностью прочитать в сеансе R. Когда я открываю файл в программе для работы с электронными таблицами, я вижу 112 544 строки. Когда я читаю его в R с помощью, read.csv
я получаю только 56 952 строки и это предупреждение:
cit <- read.csv("citations.CSV", row.names = NULL,
comment.char = "", header = TRUE,
stringsAsFactors = FALSE,
colClasses= "character", encoding= "utf-8")
Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
EOF within quoted string
Я могу прочитать весь файл в R с помощью readLines
:
rl <- readLines(file("citations.CSV", encoding = "utf-8"))
length(rl)
[1] 112545
Но я не могу вернуть это в R в виде таблицы (через read.csv
):
write.table(rl, "rl.txt", quote = FALSE, row.names = FALSE)
rl_in <- read.csv("rl.txt", skip = 1, row.names = NULL)
Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
EOF within quoted string
Как я могу решить или обойти это сообщение EOF (которое кажется скорее ошибкой, чем предупреждением), чтобы получить весь файл в моем R
сеансе?
У меня похожие проблемы с другими методами чтения файлов CSV:
require(sqldf)
cit_sql <- read.csv.sql("citations.CSV", sql = "select * from file")
require(data.table)
cit_dt <- fread("citations.CSV")
require(ff)
cit_ff <- read.csv.ffdf(file="citations.CSV")
Вот мой sessionInfo ()
R version 3.0.1 (2013-05-16)
Platform: x86_64-w64-mingw32/x64 (64-bit)
locale:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C
[5] LC_TIME=English_United States.1252
attached base packages:
[1] tools tcltk stats graphics grDevices utils datasets methods base
other attached packages:
[1] ff_2.2-11 bit_1.1-10 data.table_1.8.8 sqldf_0.4-6.4
[5] RSQLite.extfuns_0.0.1 RSQLite_0.11.4 chron_2.3-43 gsubfn_0.6-5
[9] proto_0.3-10 DBI_0.2-7
r
csv
eof
read.table
Бен
источник
источник
fread
работе в этой ситуации? Я предпочитаю это, потому что это намного быстрее, чемread.csv
. Ноfread
, похоже, не принимаетquote
аргументов ..fread
в целом не очень хорошо работает со встроенной цитатой, но я уверен, что скоро будет обходной путь. stackoverflow.com/questions/16094025/…write.csv()
и возвращал 403 сread.csv()
. Добавление quote = "" дало мне до 410 строк.read.table()
не лучше. Интересно, что еще можно попробовать ...Я новичок в R и подумал, что опубликую это на случай, если это поможет кому-то еще. Я пытался прочитать данные из текстового файла (разделенного запятыми), который содержал несколько испанских символов, и мне потребовалась целая вечность, чтобы понять это. Я знал, что мне нужно использовать кодировку UTF-8, установить аргумент заголовка в значение ИСТИНА и что мне нужно установить аргумент sep в значение «,», но тогда у меня все еще были зависания. Прочитав этот пост, я попытался установить для аргумента заполнения значение ИСТИНА, но затем получил тот же «EOF в цитируемой строке», который я смог исправить таким же образом, как указано выше. Моя успешная таблица read.table выглядит так:
target <- read.table("target2.txt", fill=TRUE, header=TRUE, quote="", sep=",", encoding="UTF-8")
В результате появились символы испанского языка и такие же затемнения, которые были у меня изначально, так что я называю это успехом! Спасибо всем!
источник
В разделе справки R, как указано выше, просто полностью отключите цитирование, просто добавив:
to the read.csv () работал у меня.
Ошибка «EOF в строке в кавычках» произошла с:
А в прочитанном файле отсутствовало 6619 строк. Но отключив цитирование
Работал без ошибок и все строки были успешно прочитаны.
источник
Я также столкнулся с этой проблемой и смог обойти аналогичную ошибку EOF, используя:
Обратите внимание, что параметр-разделитель определяется в более общем
read.table()
.источник
На самом деле, использование
read.csv()
для чтения файла с текстовым содержимым - не лучшая идея, отключите кавычки, поскольку установкаquote=""
- это только временное решение, оно работало только с отдельными кавычками. Предупреждение может быть вызвано и по другим причинам, например из-за некоторых специальных символов.Постоянное решение (использование
read.csv()
), выяснение, что это за специальные символы, и использование регулярного выражения для их устранения - это идея.Вы когда-нибудь задумывались об установке пакета
{data.table}
и использованииfread()
для чтения файла. это намного быстрее и не побеспокоит вас этим предупреждением EOF. Обратите внимание, что загруженный файл будет сохранен как объект data.table, но не как объект data.frame. Класс data.table имеет много хороших функций, но в любом случае вы можете преобразовать его, используяas.data.frame()
при необходимости.источник
У меня была аналогичная проблема: предупреждение EOF, и только часть данных загружалась с помощью read.csv (). Я пробовал использовать кавычки = "", но они удалили только предупреждение EOF.
Но, глядя на первую строку, которая не загружалась, я обнаружил, что в одной из ячеек был специальный символ, стрелка → (шестнадцатеричное значение 0x1A). После удаления стрелки я получил данные для нормальной загрузки.
источник
У меня тоже была похожая проблема. Но в моем случае причина проблемы заключалась в наличии апострофов (т.е. одинарных кавычек) в некоторых текстовых значениях. Это особенно часто встречается при работе с данными, включая тексты на французском языке, например «L'autre jour».
Таким образом, решение было просто настроить параметры по умолчанию цитатой аргумента для исключения «'» символ, и , таким образом, используя цитату = „\“ " (т.е. двойной кавычки только ), все работало отлично.
Я надеюсь, что это поможет некоторым из вас. Приветствия.
источник
Пакет readr исправит эту проблему.
источник