Открытие файла UTF-8 с кодировкой UTF-16 в gedit приводит к чтению на китайском языке

1

Я знаю, что это на самом деле не проблема, но мне было очень любопытно, почему это происходит.

Как воспроизвести это явление

Откройте gedit и введите что-нибудь (я использовал текст Lorem Ipsum с lipsum.com). Сохраните файл и закройте gedit.

Снова откройте его и нажмите «Открыть», затем «Другие документы ...». Нажмите на файл, который вы только что сделали. Прежде чем нажать кнопку «Открыть», нажмите «Кодировка символов» и выберите UTF-16.

Как только файл открывается, в редакторе появляется какой-то китайский язык, смешанный с некоторыми случайными не воспроизводимыми символами Юникода. Теперь вот где начинается действительно странная часть: откройте Google Translate и вставьте текст на китайском. Убедитесь, что вы выбрали «китайский» в качестве языка.

В зависимости от текста, вы почти всегда увидите где-нибудь понятный (и даже нормальный) английский. В моем случае я увидел: «Для получения дополнительной информации, пожалуйста, посетите наш сайт по адресу: www.globalcouncil.org», и «Это первый раз, когда вы пришли к нам в этой области. Вы можете посетить наш сайт «. Смотрите полный текст на Pastebin.

Другие наблюдения

  • При переводе текста с использованием веб-сайта freetranslation.com часть текста появляется в обратном порядке, например: «изображение ⁥ макрос 瑡 桴 礠 樠 с охотой» 慭, а цены - 挠 楬 挠 макрос Ɱ 挠 Одна общая фраза
  • Этот текст, если его перевернуть, фактически совпадает с исходным текстом, который я набрал, когда кодировкой была UTF-8.
  • Перевернутый текст, кажется, ведет себя так, как будто он на самом деле тоже задом наперед; когда я набираю что-то в конце текста, оно появляется в начале.
  • Некоторые предложения звучат настолько нормально (а иногда и смешно), что кажется, что это не может быть причудами программного обеспечения для перевода, например: «Суп нельзя использовать при лечении острых или хронических обструктивных заболеваний легких». Это не было в оригинальном тексте, который я вставил.
  • Я нашел этот вопрос в LinuxQuestions , который воспроизводит это явление, когда он помещается через Google Translate. Вот некоторые из понятных английских: «Это место, где вы можете найти свою любимую миску и миску».

Вопрос

Почему это происходит? И почему сгенерированные предложения звучат так реалистично? Это причуда гедита или переводчиков? (Было бы хорошо, если бы носитель китайского языка мог дать мне свое мнение.)

Это мой первый вопрос о суперпользователе, поэтому, пожалуйста, не обращайте на меня внимания. Заранее спасибо.

HA Sanger
источник
1
Почти наверняка переводчик обнаружит, что это не читаемый китайский, затем определит, что он искажен в UTF-8, и «переведет» его для вас. Я на 99% уверен, что изменение вызвано переопределением RTL где-то в этом тексте.
wizzwizz4

Ответы:

1

Как говорящий по-китайски, я могу с уверенностью сказать, что все эти китайские иероглифы недействительны и являются случайным мусором (извините за нарушение тайны). Проблема возникает здесь:

Теперь вот где начинается действительно странная часть: откройте Google Translate и вставьте текст на китайском. Убедитесь, что вы выбрали "китайский" в качестве языка

Google переводчик на китайский <> английский не так надежен, как кажется. У Google пока нет очень точного перевода с китайского на английский / с английского на китайский из-за совершенно разной языковой структуры китайского и английского. Чтобы привести ваш пример.

изображение ⁥ макрос 瑡 桴 礠 樠 с охотой ⁴ и цены 礠 楬 挠 макрос Ɱ 挠 Одна общая фраза

Все эти китайские слова выше, даже не имеют никакого смысла. Но Google переводчик думал, что вы действительно вставляете туда что-то полезное, поэтому он просто случайным образом соединяет слова в своей базе данных.

Давайте возьмем эти два "挠 楬", которые в конечном счете могут иметь крошечную связь.

«挠» может поливать цветок «挠 水»

И «楬» может быть каким-то типом дерева. Так что, возможно, "挠 楬" поливает какое-то дерево (хотя мы никогда не используем китайские слова вместе, как описано выше)

Но Google переводчик был похож на «楬 楬 означает гибкость»

Так что да ... Проблема в том, что Google Translate плохой, вот и все.

Что касается этого:

«Для получения дополнительной информации, пожалуйста, посетите наш сайт по адресу: www.globalcouncil.org», и «Это первый раз, когда вы пришли к нам в этой области. Вы можете посетить наш сайт».

Я подозреваю, что вы случайно скопировали этот текст вместе с китайскими словами.

И в целом задом наперед, я думаю, что wizzwizz4 уже предлагает то решение, которое для вас

Нг Сек Лонг
источник