Для верстки у нас есть наш знаменитый текст «Lorem ipsum», чтобы проверить, как он выглядит.
Я ищу набор файлов, содержащих текст, закодированный в нескольких разных кодировках, которые я могу использовать в своих тестах JUnit для тестирования некоторых методов, которые имеют дело с кодировкой символов при чтении текстовых файлов.
Пример:Имея ISO 8859-1
закодированный тестовый файл и Windows-1252
закодированный тестовый файл. Windows-1252 должна вызывать различия в области 80 16 - 9F 16 . Другими словами, он должен содержать хотя бы один символ этого региона, чтобы отличать его от ISO 8859-1.
Возможно, лучший набор тестовых файлов - это тот, где тестовый файл для каждой кодировки содержит все свои символы один раз. Но, может быть, я не знаю, что - все мы любим это кодирование, верно? :-)
Есть ли такой набор тестовых файлов для проблем с кодировкой символов?
источник
Ответы:
Как насчет попытки использовать файлы набора тестов ICU ? Я не знаю, нужны ли они для вашего теста, но, похоже, у них, по крайней мере, есть довольно полные файлы сопоставления из / в UTF: Ссылка на репо для тестовых файлов ICU
источник
Статья в Википедии о диакритических знаках довольно обширна, к сожалению, вам придется извлекать эти символы вручную. Также для каждого языка может существовать несколько мнемоник. Например, на польском языке мы используем:
который содержит все 9 польских диакритических знаков в одном правильном предложении. Еще одна полезная подсказка для поиска - это панграммы : предложения, в которых каждая буква алфавита используется хотя бы один раз :
Список панграмм содержит исчерпывающее резюме. Любой хочет обернуть это простым:
public interface NationalCharacters { String spanish(); String russian(); //... }
библиотека?
источник
Я не знаю каких-либо полных текстовых документов, но если вы можете начать с простого обзора всех наборов символов, на сервере ftp.unicode.org есть несколько файлов.
Вот, например, WINDOWS-1252. Первый столбец - это значение шестнадцатеричного символа, а второй - значение Unicode.
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
источник
Что ж, я использовал онлайн-инструмент для создания наборов текстовых символов из Lorem Ipsum. Я верю, что это может вам помочь. У меня нет такого, в котором были бы все разные кодировки на одной странице.
http://generator.lorem-ipsum.info /
источник