Я заметил, что file
команда Linux не возвращает никакого значения, если XML-файл имеет <?xml version="1.0" encoding="UTF-8"?>
вверху. Если пролог отсутствует, file -i somefile.xml
возвращает некоторое значение. У кого-нибудь есть идеи, почему это происходит? Я в основном заинтересован в знании кодировки файлов и нашел, file -i filename.xml
что она несколько полезна, но есть ли что-нибудь лучше в Linux для определения кодировки и кодировки?
1
Догадываться о кодировках - это черное искусство, которое даже в популярных браузерах не может быть абсолютно правильным. Я предлагаю вам позволить вашему синтаксическому анализатору подчиняться кодировке XML, громко ломаться, если кодировка оказывается недействительной, и что вы исправляете ошибки кодирования в источнике.
источник