При попытке преобразовать текстовый файл в его ASCII-эквивалент я получаю сообщение об ошибке iconv: illegal input sequence at position
.
Я использую команду iconv -f UTF-8 -t ascii//TRANSLIT file
Оскорбительный персонаж есть æ
.
Сам текстовый файл присутствует здесь .
Почему это говорит о недопустимой последовательности? Вводимый символ является правильным символом UTF-8 (U + 00E6).
text-processing
character-encoding
unicode
user13107
источник
источник
hexdump -C file
команду и получил в0002b220 72 75 69 6e e6 0a 20 2d 2d 20 48 6f 72 61 63 65 |ruin.. -- Horace|
качестве вывода.Файл, на который вы ссылаетесь, выглядит как UTF-8 внутри документа HTML
Если вы сначала запустите его через преобразователь HTML в текст, например,
затем фрагмент UTF-8, с которым у вас возникли проблемы, кажется, транслитерируется без ошибок, т.е.
становится
html2text
Утилита не может быть установлена на вашей системе - если вы не можете найти / установить его есть и другие конвертеры , включая модуль питона.источник
file
команда говорит ASCII, но причина в том, что она просто смотрит в начало файла, а символ ISO-8859-1 появляется далеко, в позиции 181536.