До сегодняшнего дня я - как дилетант ИИ - смущен обещанными и достигнутыми улучшениями автоматического перевода.
У меня сложилось впечатление: впереди еще очень, очень далекий путь. Или есть другие объяснения, почему автоматические переводы (предлагаемые и предоставляемые, например, Google) довольно простых статей Википедии все еще читаются и звучат в основном глупо, трудно читаемы, и только очень частично полезны и полезны?
Это может зависеть от личных предпочтений (в отношении читабельности, полезности и полезности), но мои личные ожидания очень разочарованы.
И наоборот: переводы Google, тем не менее, читабельны, полезны и полезны для большинства пользователей ?
Или у Google есть причины сохранить свои достижения (а не показывать пользователям лучшее, что они могут показать)?
Предварительный результат: мы все еще далеки от возможности общаться с искусственным интеллектом на равной основе и в понимании - только на уровне строк. Так чего же нам бояться? Потому что они знают больше, чем мы - но мы не знаем?
источник
Ответы:
Кто утверждал, что машинный перевод так же хорош, как и человеческий переводчик? Для меня, как профессионального переводчика, который зарабатывает на перевод в течение 35 лет, MT означает, что моя ежедневная производительность качественного перевода выросла в 3–5 раз, в зависимости от сложности исходного текста.
Я не могу согласиться с тем, что качество МТ снижается с продолжительностью ввода иностранного языка. Раньше это было верно для старых систем с семантическим и грамматическим анализом. Я не думаю, что я знаю все старые системы (я знаю Systran, дрянной инструмент от Siemens, который был продан от одной компании к другой, как подарок Danaer, XL8, Personal Translator and Translate), но даже профессиональную систему в которые я вложил 28.000 немецких марок (!!!!) с треском провалился.
Например, предложение:
может быть переведен с помощью нескольких инструментов MT на немецкий язык.
Личный переводчик 20 :
Подскажите :
DeepL :
Google:
Сегодня Google обычно предоставляет мне читабельные, почти правильные переводы, а DeepL еще лучше. Только сегодня утром я перевел 3500 слов за 3 часа, и результат безупречен, хотя исходный текст был полон ошибок (написано на китайском языке).
источник
Переводы Google могут быть полезны, особенно если вы знаете, что переводы не идеальны, и если вы просто хотите иметь первоначальное представление о значении текста (чьи переводы Google могут иногда вводить в заблуждение или неверно). Я бы не рекомендовал переводчик Google (или любой другой переводчик, не являющийся человеком), чтобы выполнить серьезный перевод, если, возможно, это не общее предложение или слово, оно не включает в себя очень длинные тексты и неформальный язык (или сленг), переводы включают Английский язык или у вас нет доступа к человеческому переводчику.
В статье «И снова придание значимости ИИ» авторы также обсуждают сложность задачи перевода (которая считается проблемой, полной ИИ ). Они также упоминают трансформатор (другую современную модель машинного перевода), которая дает довольно плохие результаты (оценивается с использованием метрики BLEU).
В заключение, машинный перевод - сложная проблема, и современные системы машинного перевода определенно не так хороши, как профессиональные переводчики.
источник
Вы задали довольно много вопросов, на некоторые из которых нельзя ответить однозначно. Чтобы понять качество (и его историю) машинных переводов, мне бы хотелось сослаться на Кристофера Мэннинга, который он назвал «эталоном одного предложения», как он представлен в его лекции . Он содержит один пример с китайского на английский, который сравнивается с выводом Google Translate. Правильный перевод для примера:
Google Translate вернул следующие переводы.
Является ли Google сохраняет или «шкура» свои лучшие результаты: Я сомневаюсь , что это. Есть много отличных исследователей, работающих в области обработки естественного языка (НЛП). Если бы у Google было «величайшее достижение» для перевода, исследователи рано или поздно выяснили бы это. (В любом случае, зачем Google скрывать свое «величайшее достижение»? Похоже, они видят преимущества открытого исходного кода, см. Transformer [1] или BERT [2])
NB. Обновленный список современных алгоритмов в NLP см. В таблице лидеров SQuAD2.0 .
[1] Vaswani, Ashish, et al. «Внимание - это все, что вам нужно». Достижения в области нейронных систем обработки информации. 2017.
[2] Devlin, Jacob, et al. «Берт: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». Препринт arXiv arXiv: 1810.04805 (2018).
источник
In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
Это действительно зависит от языковой пары и темы содержания. Перевод с / на английский на любой другой язык обычно лучше всего поддерживается. Перевод на популярные языки и с них работает лучше, например, перевод с английского на румынский - более плохой перевод, чем с английского на русский. Но перевод с английского на русский или румынский язык лучше, чем перевод с русского на румынский. И перевод с румынского на английский лучше, чем перевод с румынского на английский.
Но если вы привыкли работать с переводчиками и у вас есть мимолетное знакомство с языками, ошибками перевода и темой, легко понять, что там должно было быть. И в этот момент иногда проще читать что-то переведенное на ваш родной язык для быстрого сканирования, чем читать на другом языке.
Менее популярные языки (для перевода не обязательно по количеству носителей) намного ближе к буквальным переводам, лишь немного лучше, чем то, что вы лично сделали бы, используя словарь для двух языков, которые вы не знаете.
источник
Да, они несколько полезны и позволяют переводить быстрее.
Может быть, я не знаю. Если вы ищете информацию, Google действительно делает много ужасных глупостей, таких как изучение того, что говорят пользователи в Интернете, принятие неподходящих данных в качестве надежных наборов входных данных.
источник
Извиняюсь за то, что не пишу на английском. Пожалуйста, найдите адаптированный перевод здесь:
Чтобы дать заинтересованным людям представление о качестве MT (DeepL), посмотрите этот пример из текста, над которым я работал сегодня утром (6300 слов, началось в 9 часов утра, доставка сегодня около 13 часов, и до сих пор найти время для этого поста). Я работал над этим предложением (201 слово), когда я разместил свой комментарий.
DeepL возвращает это:
Мне потребовалось от 5 до 10 минут, чтобы настроить этот пункт.
Как переводчик, я знаю, что не могу положиться на машинный перевод, но со временем я изучил специфику и возможности различных систем и знаю, на что обратить внимание.
МТ очень помогает мне в работе.
источник
Это будет не столько ответ, сколько комментарий.
Качество зависит от нескольких вещей, включая (как сказал Аарон выше) 1) языковую пару и 2) тему, но также 3) роды и 4) стиль оригинала и 5) количество имеющегося у вас параллельного текста обучить систему МТ.
Чтобы подготовить почву, практически все МТ в наши дни основаны на параллельных текстах, то есть текстах на двух разных языках, причем один предположительно является переводом другого (или оба являются переводом какого-то третьего языка); и потенциальное использование словарей (возможно, с помощью морфологических процессов) в качестве отката, когда параллельные тексты не содержат конкретных слов.
Более того, как уже говорили другие, система МП никоим образом не понимает тексты, которые она переводит; он просто видит строки символов и последовательности слов, состоящие из символов, и ищет похожие строки и последовательности в текстах, которые он переводил ранее. (Хорошо, это немного сложнее, и были попытки разобраться с семантикой в вычислительных системах, но пока это в основном строки.)
1) Языки различаются. Некоторые языки имеют много морфологии, что означает, что они делают вещи с одним словом, что другие языки делают с несколькими словами. Простым примером будет испанский 'cantaremos' = английский "мы будем петь". И один язык может делать то, что другой язык даже не беспокоит, например, неформальное / формальное (tu / usted) различие в испанском языке, которому английский не имеет эквивалента. Или один язык может делать вещи с морфологией, что другой язык делает с порядком слов. Или сценарий, который использует язык, может даже не обозначать границы слов (китайский и некоторые другие). Чем больше разных языков, тем сложнее будет переводить систему МП между ними. Первые эксперименты в статистической МТ были проведены между французским и английским языками,
2) Тема: Если у вас есть параллельные тексты в Библии (что справедливо почти для любой пары письменных языков), и вы обучаете свою систему МТ этим, не ожидайте, что она пойдет хорошо на технических текстах. (Ну, в любом случае, Библия представляет собой относительно небольшой объем текста по стандартам обучающих систем МП, но притворяйтесь :-).) Словарный запас Библии сильно отличается от словаря технических текстов, как и частота различных грамматических слов. конструкции. (Грамматика по сути та же самая, но в английском, например, вы получаете гораздо больше пассивного голоса и больше составных существительных в научных и технических текстах.)
3) Роды: если ваш параллельный текст носит декларативный характер (например, руководства для тракторов), попытка использовать полученную в результате систему MT в диалоговом окне не даст вам хороших результатов.
4) Стиль: думаю, Хилари против Дональда; Эрудит против популярного. Тренировка с одной стороны не принесет хороших результатов с другой. Точно так же обучите систему МП романам на уровне взрослых и используйте ее в детских книгах.
5) Языковая пара: английский имеет много текстов, и шансы найти тексты на каком-либо другом языке, параллельном данному тексту на английском языке, намного выше, чем шансы найти параллельные тексты, скажем, на русском и игбо. (Тем не менее, могут существовать исключения, например, языки Индии.) Как общее обобщение: чем больше таких параллельных текстов вам нужно для обучения системе МП, тем лучше результаты.
В общем, язык сложен (вот почему я люблю его - я лингвист). Поэтому неудивительно, что системы MT не всегда работают хорошо.
Кстати, человеческие переводчики тоже не всегда так хороши. Десять или два года назад я получал переводы документов от людей-переводчиков на английский, чтобы использовать их в качестве учебных материалов для систем МП. Некоторые переводы было трудно понять, и в некоторых случаях, когда мы получали переводы от двух (или более) переводчиков-людей, трудно было поверить, что переводчики читали одни и те же документы.
И наконец, (почти) никогда не бывает только одного правильного перевода; Есть несколько способов перевода отрывка, которые могут быть более или менее хорошими, в зависимости от того, какие функции (грамматическая корректность, стиль, последовательность использования, ...) вы хотите. Там нет простой меры "точности".
источник
Удивительно, но все остальные ответы очень расплывчаты и пытаются подойти к этому от переводчика-человека POV. Давайте переключимся на ML-инженера.
При создании инструмента перевода одним из первых вопросов, который мы должны рассмотреть, является «Как мы измеряем, как работает наш инструмент?» ,
Что, по сути, и требует ОП.
Теперь это не простая задача (некоторые другие ответы объясняют почему). Существует статья в Википедии, в которой упоминаются разные способы оценки результатов машинного перевода - существуют как человеческие, так и автоматические оценки (такие как BLEU , NIST , LEPOR ).
С ростом методов нейронной сети эти показатели значительно улучшились.
Перевод - сложная проблема. Есть много вещей, которые могут быть правильными (или неправильными), и система компьютерного перевода часто игнорирует некоторые тонкости, которые выделяются для человека, говорящего.
Я думаю, что если мы хотим думать о будущем, есть несколько вещей, на которые мы можем положиться:
Подводя итог, можно сказать, что эта сложная проблема, хотя и не решена, безусловно, находится на хорошем пути и позволяет получить впечатляющие результаты для хорошо изученных языковых пар.
источник
Если бы они были, то то, что они сдерживают, было бы удивительно . Google публикует много сильных статей по обработке естественного языка, в том числе те, которые достигают самых современных результатов или делают значительные концептуальные прорывы . Они также выпустили очень полезные наборы данных и инструменты . Google - одна из немногих компаний, которая не только использует самые современные исследования, но и активно участвует в литературе.
Машинный перевод - это просто сложная проблема. Хороший переводчик должен свободно владеть обоими языками, чтобы хорошо выполнять свою работу. Каждый язык будет иметь свои собственные идиомы и не буквальные или контекстно-зависимые значения. Простая работа со словарем на двух языках может привести к ужасным результатам (для человека или компьютера), поэтому нам необходимо обучить наши модели существующим корпусам, которые существуют на нескольких языках, чтобы узнать, как на самом деле используются слова (например, скомпилированная вручную фраза) Таблицы перевода могут использоваться как функции , они просто не могут быть целой историей). Для некоторых языковых пар много параллельных корпусов (например, для языков ЕС у нас есть полное производство Европейского парламента). Для других пар тренировочные данные намного скуднее. И даже если у нас есть тренировочные данные, будут существовать менее используемые слова и фразы, которые появляются не так часто, чтобы их можно было выучить.
Раньше это было еще большей проблемой, так как синонимы было трудно объяснить. Если бы в наших тренировочных данных были предложения «Собака поймала мяч», а не «Щенок поймал мяч», мы получили бы низкую вероятность второго предложения. Действительно, во многих таких случаях потребуется значительное сглаживание, чтобы предотвратить вероятность того, что вероятность станет нулевой .
Появление моделей нейронного языка в последние 15 лет или около того в значительной степени помогло решить эту проблему, позволив сопоставить слова с реально-значимым семантическим пространством перед изучением связей между словами. Это позволяет изучать модели, в которых слова, близкие по значению, также близки друг к другу в семантическом пространстве, и, таким образом, переключение слова по его синониму не окажет значительного влияния на вероятность содержащегося предложения. word2vecмодель, которая очень хорошо это проиллюстрировала; он показал, что вы можете, например, взять семантический вектор для «короля», вычесть вектор для «мужчины», добавить вектор для «женщины» и найти, что ближайшее слово к результирующему вектору было «королевой». После того, как исследование моделей нейронного языка началось всерьез, мы начали замечать немедленные и массовые падения недоумения (то есть, насколько смущали модели естественный текст), и мы наблюдаем соответствующее увеличение показателя BLEU (т.е. качества перевода) теперь, когда те языковые модели интегрируются в системы машинного перевода.
Машинный перевод все еще не так хорошо , как переводы качества человека, и вполне возможно , не будет , что хорошо , пока мы не треснуть полностью Сапиент ИИ. Но хорошие человеческие переводчики стоят дорого, в то время как у каждого, кто имеет доступ к Интернету, есть машинные переводчики. Вопрос не в том, лучше ли человеческий перевод, а в том, насколько близко машина подходит к этому уровню качества. Этот разрыв сокращается и продолжает сокращаться.
источник