Чтение CSV-файла UTF8 с помощью Python

Question 1

Я пытаюсь прочитать CSV-файл с акцентированными символами с помощью Python (только французские и / или испанские символы). Основываясь на документации Python 2.5 для csvreader ( http://docs.python.org/library/csv.html ), я придумал следующий код для чтения файла CSV, поскольку csvreader поддерживает только ASCII.

def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs):
    # csv.py doesn't do Unicode; encode temporarily as UTF-8:
    csv_reader = csv.reader(utf_8_encoder(unicode_csv_data),
                            dialect=dialect, **kwargs)
    for row in csv_reader:
        # decode UTF-8 back to Unicode, cell by cell:
        yield [unicode(cell, 'utf-8') for cell in row]

def utf_8_encoder(unicode_csv_data):
    for line in unicode_csv_data:
        yield line.encode('utf-8')

filename = 'output.csv'
reader = unicode_csv_reader(open(filename))
try:
    products = []
    for field1, field2, field3 in reader:
        ...

Ниже приведен отрывок из CSV-файла, который я пытаюсь прочитать:

0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert
...

Несмотря на то, что я пытаюсь кодировать / декодировать в UTF-8, я все равно получаю следующее исключение:

Traceback (most recent call last):
  File ".\Test.py", line 53, in <module>
    for field1, field2, field3 in reader:
  File ".\Test.py", line 40, in unicode_csv_reader
    for row in csv_reader:
  File ".\Test.py", line 46, in utf_8_encoder
    yield line.encode('utf-8', 'ignore')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 68: ordinal not in range(128)

Как это исправить?

Question 2

.encodeМетод будет применяться к строке Unicode , чтобы сделать байт-строку; но вместо этого вы вызываете его в байтовой строке ... неправильно! Посмотрите на codecsмодуль в стандартной библиотеке и, codecs.openв частности, на лучшие общие решения для чтения текстовых файлов в кодировке UTF-8. Однако, csvв частности , для модуля вам необходимо передать данные utf-8, и это то, что вы уже получаете, поэтому ваш код может быть намного проще:

import csv

def unicode_csv_reader(utf8_data, dialect=csv.excel, **kwargs):
    csv_reader = csv.reader(utf8_data, dialect=dialect, **kwargs)
    for row in csv_reader:
        yield [unicode(cell, 'utf-8') for cell in row]

filename = 'da.csv'
reader = unicode_csv_reader(open(filename))
for field1, field2, field3 in reader:
  print field1, field2, field3

PS: если окажется, что ваши входные данные НЕ в utf-8, а, например, в ISO-8859-1, тогда вам понадобится «перекодирование» (если вы хотите использовать utf-8 на csvуровне модуля) , формы line.decode('whateverweirdcodec').encode('utf-8')- но, вероятно, вы можете просто использовать имя вашей существующей кодировки в yieldстроке в моем коде выше, вместо того 'utf-8', как csvна самом деле будет хорошо с кодированными строками байтов ISO-8859- *.

Question 3

Python 2.X

Существует библиотека unicode-csv, которая должна решить ваши проблемы, с дополнительным преимуществом, заключающимся в том, что не нужно писать какой-либо новый код, связанный с csv.

Вот пример из их readme:

>>> import unicodecsv
>>> from cStringIO import StringIO
>>> f = StringIO()
>>> w = unicodecsv.writer(f, encoding='utf-8')
>>> w.writerow((u'é', u'ñ'))
>>> f.seek(0)
>>> r = unicodecsv.reader(f, encoding='utf-8')
>>> row = r.next()
>>> print row[0], row[1]
é ñ

Python 3.X

В python 3 это сразу поддерживается встроенным csvмодулем. См. Этот пример:

import csv
with open('some.csv', newline='', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

Question 4

Если вы хотите прочитать CSV-файл с кодировкой utf-8, минималистичный подход, который я рекомендую вам, - использовать что-то вроде этого:

with open(file_name, encoding="utf8") as csv_file:

С этим утверждением вы можете позже использовать для работы программу чтения CSV.

Question 5

Также ознакомьтесь с ответом в этом сообщении: https://stackoverflow.com/a/9347871/1338557

Предлагается использовать библиотеку ucsv.py. Краткая и простая замена CSV, написанная для решения проблемы кодирования (utf-8) для Python 2.7. Также обеспечивает поддержку csv.DictReader

Изменить : добавление образца кода, который я использовал:

import ucsv as csv

#Read CSV file containing the right tags to produce
fileObj = open('awol_title_strings.csv', 'rb')
dictReader = csv.DictReader(fileObj, fieldnames = ['titles', 'tags'], delimiter = ',', quotechar = '"')
#Build a dictionary from the CSV file-> {<string>:<tags to produce>}
titleStringsDict = dict()
for row in dictReader:
    titleStringsDict.update({unicode(row['titles']):unicode(row['tags'])})

Question 6

Использование, codecs.openкак предложил Алекс Мартелли, оказалось для меня полезным.

import codecs

delimiter = ';'
reader = codecs.open("your_filename.csv", 'r', encoding='utf-8')
for line in reader:
    row = line.split(delimiter)
    # do something with your row ...

Question 7

Ссылка на страницу справки такая же для python 2.6, и, насколько мне известно, в модуле csv с версии 2.5 не было никаких изменений (кроме исправлений ошибок). Вот код, который работает без какого-либо кодирования / декодирования (файл da.csv содержит те же данные, что и данные переменных ). Я предполагаю, что ваш файл должен читаться правильно без каких-либо преобразований.

test.py:

## -*- coding: utf-8 -*-
#
# NOTE: this first line is important for the version b) read from a string(unicode) variable
#

import csv

data = \
"""0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert"""

# a) read from a file
print 'reading from a file:'
for (f1, f2, f3) in csv.reader(open('da.csv'), dialect=csv.excel):
    print (f1, f2, f3)

# b) read from a string(unicode) variable
print 'reading from a list of strings:'
reader = csv.reader(data.split('\n'), dialect=csv.excel)
for (f1, f2, f3) in reader:
    print (f1, f2, f3)

da.csv:

0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert

Question 8

Стоит отметить, что если у вас ничего не получилось, возможно, вы забыли сбежать со своего пути.
Например, такой код:

f = open("C:\Some\Path\To\file.csv")

Приведет к ошибке:

SyntaxError: (ошибка юникода) кодек unicodeescape не может декодировать байты в позиции 2-3: усеченный \ UXXXXXXXX escape

Чтобы исправить, просто выполните:

f = open("C:\\Some\\Path\\To\\file.csv")

Question 9

Глядя на Latin-1таблицу юникода , я вижу код символа 00E9« СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E С ОСТРЫМ ». Это символ с ударением в ваших данных выборки. Простой тест Pythonпоказывает, что UTF-8кодировка этого символа отличается от UTF-16кодировки Unicode (почти ).

>>> u'\u00e9'
u'\xe9'
>>> u'\u00e9'.encode('utf-8')
'\xc3\xa9'
>>>

Я предлагаю вам попробовать encode("UTF-8")данные в Юникоде перед вызовом специального unicode_csv_reader(). Простое чтение данных из файла может скрыть кодировку, поэтому проверьте фактические значения символов.

Question 10

Была такая же проблема на другом сервере, но я понял, что локали перепутались.

export LC_ALL="en_US.UTF-8"

исправил проблему

Answer 1

Я пытаюсь прочитать CSV-файл с акцентированными символами с помощью Python (только французские и / или испанские символы). Основываясь на документации Python 2.5 для csvreader ( http://docs.python.org/library/csv.html ), я придумал следующий код для чтения файла CSV, поскольку csvreader поддерживает только ASCII.

def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs):
    # csv.py doesn't do Unicode; encode temporarily as UTF-8:
    csv_reader = csv.reader(utf_8_encoder(unicode_csv_data),
                            dialect=dialect, **kwargs)
    for row in csv_reader:
        # decode UTF-8 back to Unicode, cell by cell:
        yield [unicode(cell, 'utf-8') for cell in row]

def utf_8_encoder(unicode_csv_data):
    for line in unicode_csv_data:
        yield line.encode('utf-8')

filename = 'output.csv'
reader = unicode_csv_reader(open(filename))
try:
    products = []
    for field1, field2, field3 in reader:
        ...

Ниже приведен отрывок из CSV-файла, который я пытаюсь прочитать:

0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert
...

Несмотря на то, что я пытаюсь кодировать / декодировать в UTF-8, я все равно получаю следующее исключение:

Traceback (most recent call last):
  File ".\Test.py", line 53, in <module>
    for field1, field2, field3 in reader:
  File ".\Test.py", line 40, in unicode_csv_reader
    for row in csv_reader:
  File ".\Test.py", line 46, in utf_8_encoder
    yield line.encode('utf-8', 'ignore')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 68: ordinal not in range(128)

Как это исправить?

Answer 2

Мартин, если вы рядом, не могли бы вы переключить принятый ответ с единственного ответа Мартелли на Python 2.

Антти Хаапала

Answer 3

.encodeМетод будет применяться к строке Unicode , чтобы сделать байт-строку; но вместо этого вы вызываете его в байтовой строке ... неправильно! Посмотрите на codecsмодуль в стандартной библиотеке и, codecs.openв частности, на лучшие общие решения для чтения текстовых файлов в кодировке UTF-8. Однако, csvв частности , для модуля вам необходимо передать данные utf-8, и это то, что вы уже получаете, поэтому ваш код может быть намного проще:

import csv

def unicode_csv_reader(utf8_data, dialect=csv.excel, **kwargs):
    csv_reader = csv.reader(utf8_data, dialect=dialect, **kwargs)
    for row in csv_reader:
        yield [unicode(cell, 'utf-8') for cell in row]

filename = 'da.csv'
reader = unicode_csv_reader(open(filename))
for field1, field2, field3 in reader:
  print field1, field2, field3

PS: если окажется, что ваши входные данные НЕ в utf-8, а, например, в ISO-8859-1, тогда вам понадобится «перекодирование» (если вы хотите использовать utf-8 на csvуровне модуля) , формы line.decode('whateverweirdcodec').encode('utf-8')- но, вероятно, вы можете просто использовать имя вашей существующей кодировки в yieldстроке в моем коде выше, вместо того 'utf-8', как csvна самом деле будет хорошо с кодированными строками байтов ISO-8859- *.

Answer 4

4

Означает ли это, что пример в документах Python (где копирование и вставка OP) неверен? В чем смысл дополнительного шага кодирования, если он сломается, когда вы дадите ему unicode csv?

Anentropic 06

Answer 5

Пожалуйста, посмотрите этот ответ для Python 3

Антти Хаапала

Answer 6

Python 2.X

Существует библиотека unicode-csv, которая должна решить ваши проблемы, с дополнительным преимуществом, заключающимся в том, что не нужно писать какой-либо новый код, связанный с csv.

Вот пример из их readme:

>>> import unicodecsv
>>> from cStringIO import StringIO
>>> f = StringIO()
>>> w = unicodecsv.writer(f, encoding='utf-8')
>>> w.writerow((u'é', u'ñ'))
>>> f.seek(0)
>>> r = unicodecsv.reader(f, encoding='utf-8')
>>> row = r.next()
>>> print row[0], row[1]
é ñ

Python 3.X

В python 3 это сразу поддерживается встроенным csvмодулем. См. Этот пример:

import csv
with open('some.csv', newline='', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

Answer 7

10

Если вы хотите прочитать CSV-файл с кодировкой utf-8, минималистичный подход, который я рекомендую вам, - использовать что-то вроде этого:

with open(file_name, encoding="utf8") as csv_file:

С этим утверждением вы можете позже использовать для работы программу чтения CSV.

Ник Куэвас
источник

2

Возможно ли, что это только Python 3? У меня это не получается в Python 2. Он не принимает encodinginopen

Zvika

@Zvika да, в python 3 это решение работает:open('file.csv', 'r', encoding="ISO8859")

luca76

Я бы также добавил open (file_name, "rt", encoding = 'utf-8'), то есть открытый файл в режиме "чтения текста"

Джимми Ли Джонс,

Answer 8

2

Возможно ли, что это только Python 3? У меня это не получается в Python 2. Он не принимает encodinginopen

Zvika

Answer 9

@Zvika да, в python 3 это решение работает:open('file.csv', 'r', encoding="ISO8859")

luca76

Answer 10

Я бы также добавил open (file_name, "rt", encoding = 'utf-8'), то есть открытый файл в режиме "чтения текста"

Джимми Ли Джонс,

Answer 11

3

Также ознакомьтесь с ответом в этом сообщении: https://stackoverflow.com/a/9347871/1338557

Предлагается использовать библиотеку ucsv.py. Краткая и простая замена CSV, написанная для решения проблемы кодирования (utf-8) для Python 2.7. Также обеспечивает поддержку csv.DictReader

Изменить : добавление образца кода, который я использовал:

import ucsv as csv

#Read CSV file containing the right tags to produce
fileObj = open('awol_title_strings.csv', 'rb')
dictReader = csv.DictReader(fileObj, fieldnames = ['titles', 'tags'], delimiter = ',', quotechar = '"')
#Build a dictionary from the CSV file-> {<string>:<tags to produce>}
titleStringsDict = dict()
for row in dictReader:
    titleStringsDict.update({unicode(row['titles']):unicode(row['tags'])})

Атрипаван
источник

вы должны указать некоторые подробности этой ссылки в своем ответе, на всякий случай, если ссылка не работает \

Ядже

# Downvoter - Не уверен, почему вы думали, что это бесполезно. Библиотека ucsv у меня отлично работала. Помогло решить ошибку unicde, с которой я боролся уже 2 дня. Если вы искали пример кода, вот он, в редакторе @ Yaje. Я привел некоторые подробности; также пример кода. И исправил ссылку, которая раньше указывала на какой-то другой пост.

Атрипаван

Есть ли конкретная причина, по которой вы открываете текстовый файл как двоичный? 'rb' предназначен для открытия двоичных файлов.

Codeguy007 02

Answer 12

вы должны указать некоторые подробности этой ссылки в своем ответе, на всякий случай, если ссылка не работает \

Ядже

Answer 13

# Downvoter - Не уверен, почему вы думали, что это бесполезно. Библиотека ucsv у меня отлично работала. Помогло решить ошибку unicde, с которой я боролся уже 2 дня. Если вы искали пример кода, вот он, в редакторе @ Yaje. Я привел некоторые подробности; также пример кода. И исправил ссылку, которая раньше указывала на какой-то другой пост.

Атрипаван

Answer 14

Есть ли конкретная причина, по которой вы открываете текстовый файл как двоичный? 'rb' предназначен для открытия двоичных файлов.

Codeguy007 02

Answer 15

2

Использование, codecs.openкак предложил Алекс Мартелли, оказалось для меня полезным.

import codecs

delimiter = ';'
reader = codecs.open("your_filename.csv", 'r', encoding='utf-8')
for line in reader:
    row = line.split(delimiter)
    # do something with your row ...

user1154664
источник

3

Это не будет работать со всеми CSV, следующая допустимая строка csv: "Foo Bar; Baz"; 231; 313; ";;;"; 1;

jb.

Вы импортируете csvмодуль, но не используете его.

Кристоф Русси,

Answer 16

3

Это не будет работать со всеми CSV, следующая допустимая строка csv: "Foo Bar; Baz"; 231; 313; ";;;"; 1;

jb.

Answer 17

Вы импортируете csvмодуль, но не используете его.

Кристоф Русси,

Answer 18

Ссылка на страницу справки такая же для python 2.6, и, насколько мне известно, в модуле csv с версии 2.5 не было никаких изменений (кроме исправлений ошибок). Вот код, который работает без какого-либо кодирования / декодирования (файл da.csv содержит те же данные, что и данные переменных ). Я предполагаю, что ваш файл должен читаться правильно без каких-либо преобразований.

test.py:

## -*- coding: utf-8 -*-
#
# NOTE: this first line is important for the version b) read from a string(unicode) variable
#

import csv

data = \
"""0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert"""

# a) read from a file
print 'reading from a file:'
for (f1, f2, f3) in csv.reader(open('da.csv'), dialect=csv.excel):
    print (f1, f2, f3)

# b) read from a string(unicode) variable
print 'reading from a list of strings:'
reader = csv.reader(data.split('\n'), dialect=csv.excel)
for (f1, f2, f3) in reader:
    print (f1, f2, f3)

da.csv:

0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert

Answer 19

Интересно, в какой версии Python это будет работать? Я получаю ошибки как с 2.7, так и с 3.5. «ValueError: недостаточно значений для распаковки (ожидалось 3, получено 1)»

eis

Answer 20

@eis: Я могу представить, что в вашей системе запятая не является разделителем по умолчанию. Попробуйте добавить delimiter=','вместо dialect=csv.excel.

фургон

Answer 21

Стоит отметить, что если у вас ничего не получилось, возможно, вы забыли сбежать со своего пути.
Например, такой код:

f = open("C:\Some\Path\To\file.csv")

Приведет к ошибке:

SyntaxError: (ошибка юникода) кодек unicodeescape не может декодировать байты в позиции 2-3: усеченный \ UXXXXXXXX escape

Чтобы исправить, просто выполните:

f = open("C:\\Some\\Path\\To\\file.csv")

Answer 22

Глядя на Latin-1таблицу юникода , я вижу код символа 00E9« СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E С ОСТРЫМ ». Это символ с ударением в ваших данных выборки. Простой тест Pythonпоказывает, что UTF-8кодировка этого символа отличается от UTF-16кодировки Unicode (почти ).

>>> u'\u00e9'
u'\xe9'
>>> u'\u00e9'.encode('utf-8')
'\xc3\xa9'
>>>

Я предлагаю вам попробовать encode("UTF-8")данные в Юникоде перед вызовом специального unicode_csv_reader(). Простое чтение данных из файла может скрыть кодировку, поэтому проверьте фактические значения символов.

Answer 23

Была такая же проблема на другом сервере, но я понял, что локали перепутались.

export LC_ALL="en_US.UTF-8"

исправил проблему

Чтение CSV-файла UTF8 с помощью Python

Ответы:

Python 2.X

Python 3.X