Каково реальное качество машинных переводов?

27

До сегодняшнего дня я - как дилетант ИИ - смущен обещанными и достигнутыми улучшениями автоматического перевода.

У меня сложилось впечатление: впереди еще очень, очень далекий путь. Или есть другие объяснения, почему автоматические переводы (предлагаемые и предоставляемые, например, Google) довольно простых статей Википедии все еще читаются и звучат в основном глупо, трудно читаемы, и только очень частично полезны и полезны?

Это может зависеть от личных предпочтений (в отношении читабельности, полезности и полезности), но мои личные ожидания очень разочарованы.

И наоборот: переводы Google, тем не менее, читабельны, полезны и полезны для большинства пользователей ?

Или у Google есть причины сохранить свои достижения (а не показывать пользователям лучшее, что они могут показать)?


Предварительный результат: мы все еще далеки от возможности общаться с искусственным интеллектом на равной основе и в понимании - только на уровне строк. Так чего же нам бояться? Потому что они знают больше, чем мы - но мы не знаем?

Ханс-Петер Стрикер
источник
2
Машинный перевод - сложная проблема, тем более что современные методы не пытаются понять текст, который нужно перевести. Это работает более или менее во многих случаях, но может также эффектно провалиться. Я лично нахожу это - учитывая это - большинство переводов полезны, и у меня нет оснований полагать, что компании MT сдерживаются. Может быть, какие-то доменные приложения, которые более коммерчески чувствительны, но не имеют широкого общего МТ.
Оливер Мейсон
@OliverMason: «современные методы не пытаются понять переводимый текст» - в этом суть? Вот так я должен понимать результаты МТ? Грустно достаточно. (Некоторое противоречие со стороны сообщества ИИ было бы очень кстати!)
Ханс-Питер Стрикер
1
@ Hans-PeterStricker: Ну, это действительно все началось, когда Фред Елинек заметил, что стрельба лингвистов сделала его распознаватель речи более точным. С тех пор различные формы машинного обучения обогнали искусственный интеллект, основанный на правилах, и теперь мы едва ли понимаем, как большинство систем искусственного интеллекта «действительно работают» - за исключением, возможно, стохастического уровня.
Кевин
2
@ Hans-PeterStricker Не очень полезно думать о современной системе ИИ как о «понимании» чего-либо. Думайте об этом больше как о системе, которая принимает набор входов и создает набор выходов. На входе может быть текст на английском языке, а на выходе - текст на испанском языке. Система «научилась» этому из целого ряда английских текстов и их эквивалентных испанских текстов. Значит ли это, что он понимает английский или понимает испанский? Это больше вопрос философии. Практически важно то, что он может конвертировать английский в испанский с некоторой степенью надежности.
Джош Эллер
Он был слегка затронут в ответах, но я думаю, что стоит отметить, что ответ сильно зависит от языковых пар, о которых вы говорите. Качество, скажем, английского <-> испанского, значительно выше, чем английского <-> японского.
Мбриг

Ответы:

21

Кто утверждал, что машинный перевод так же хорош, как и человеческий переводчик? Для меня, как профессионального переводчика, который зарабатывает на перевод в течение 35 лет, MT означает, что моя ежедневная производительность качественного перевода выросла в 3–5 раз, в зависимости от сложности исходного текста.

Я не могу согласиться с тем, что качество МТ снижается с продолжительностью ввода иностранного языка. Раньше это было верно для старых систем с семантическим и грамматическим анализом. Я не думаю, что я знаю все старые системы (я знаю Systran, дрянной инструмент от Siemens, который был продан от одной компании к другой, как подарок Danaer, XL8, Personal Translator and Translate), но даже профессиональную систему в которые я вложил 28.000 немецких марок (!!!!) с треском провалился.

Например, предложение:

В этот жаркий летний день мне пришлось работать, и это была боль в заднице.

может быть переведен с помощью нескольких инструментов MT на немецкий язык.

Личный переводчик 20 :

Auf diesem heißen Sommertag musste ich arbeiten, and war war ein Schmerz im Esel.

Подскажите :

Diesem heißen Sommertag musste ich arbeiten, and war war ein Schmerz im Esel.

DeepL :

Diesem heißen Sommertag musste ich arbeiten und es war eine Qual.

Google:

Diesem heißen Sommertag musste ich arbeiten und es war ein Schmerz im Arsch.

Сегодня Google обычно предоставляет мне читабельные, почти правильные переводы, а DeepL еще лучше. Только сегодня утром я перевел 3500 слов за 3 часа, и результат безупречен, хотя исходный текст был полон ошибок (написано на китайском языке).

Герберт
источник
4
Тем из нас, кто не владеет немецким языком, не ясно, какая из этих альтернатив хороша и плоха. Я знаю, что «Esel» означает «задница (животное)», а «Arsch» означает «задница (часть тела)». Я не знаю, что означает "Qual", или приемлемо ли "ein Schmerz im Arsch".
Стиг Хеммер
3
«Schmerz im Esel» - это смешно (и неправильно). «Арш» - довольно разговорное слово, которое вы бы не использовали в письменном немецком языке. «Qual» - это «боль», поэтому ИМХО это лучший выбор, хотя и не совсем точный, поскольку предложение выражает скорее раздражение, чем реальную боль.
Оливер Мейсон
1
@OliverMason Qual - хороший перевод: dict.leo.org/englisch-deutsch/qual
yunzen
4
@OliverMason Я - носитель немецкого языка и считаю, что это очень хорошо
подходит
5
@OliverMason «боль в заднице» - это идиома. «Шмерц им Арш» - это не так: никто не говорит этого. «Qual» - это точный перевод английской идиомы, который, в отличие от того, что вы сказали, редко обозначает реальную физическую боль (и, аналогично, «Qual» может быть как буквальной, так и переносной болью). Без дальнейшего контекста перевод DeepL кажется идеальным.
Конрад Рудольф
7

Переводы Google могут быть полезны, особенно если вы знаете, что переводы не идеальны, и если вы просто хотите иметь первоначальное представление о значении текста (чьи переводы Google могут иногда вводить в заблуждение или неверно). Я бы не рекомендовал переводчик Google (или любой другой переводчик, не являющийся человеком), чтобы выполнить серьезный перевод, если, возможно, это не общее предложение или слово, оно не включает в себя очень длинные тексты и неформальный язык (или сленг), переводы включают Английский язык или у вас нет доступа к человеческому переводчику.

0100100

В статье «И снова придание значимости ИИ» авторы также обсуждают сложность задачи перевода (которая считается проблемой, полной ИИ ). Они также упоминают трансформатор (другую современную модель машинного перевода), которая дает довольно плохие результаты (оценивается с использованием метрики BLEU).

В заключение, машинный перевод - сложная проблема, и современные системы машинного перевода определенно не так хороши, как профессиональные переводчики.

nbro
источник
100 баллов BLEU не означает перевод в соответствии с золотым стандартом человека, это означает, что он точно соответствует эталонному переводу Поскольку обычно существует несколько способов перевода предложения, даже человеческий перевод обычно не имеет 100 BLEU, но больше похож на 50-60.
justhalf
@justhalf Прочтите мой ответ еще раз.
nbro
1
Спасибо за ответ, и извините, если мой предыдущий комментарий оказался грубым. Моя точка зрения в моем предыдущем комментарии состояла в том, что неточно создавать впечатление, что человеческий перевод получит 100 баллов BLEU, что, по-видимому, и делает ваш текущий ответ.
justhalf
100
5

Вы задали довольно много вопросов, на некоторые из которых нельзя ответить однозначно. Чтобы понять качество (и его историю) машинных переводов, мне бы хотелось сослаться на Кристофера Мэннинга, который он назвал «эталоном одного предложения», как он представлен в его лекции . Он содержит один пример с китайского на английский, который сравнивается с выводом Google Translate. Правильный перевод для примера:

В 1519 году шестьсот испанцев высадились в Мексике, чтобы завоевать империю ацтеков с населением в несколько миллионов человек. Они потеряли две трети своих солдат в первом столкновении.

Google Translate вернул следующие переводы.

2009 1519 600 испанцев высадились в Мексике, миллионы людей завоевали империю ацтеков, первые две трети солдат против своей потери.

2011 1519 600 испанцев высадились в Мексике, миллионы людей завоевали империю ацтеков, первоначальная потеря солдат, две трети их столкновений.

2013 1519 600 испанцев высадились в Мексике, чтобы покорить империю ацтеков, сотни миллионов людей, начальная потеря конфронтации солдат на две трети.

2015 1519 600 испанцев высадились в Мексике, миллионы людей завоевали империю ацтеков, первые две трети потерь солдат, которых они столкнули.

2017 В 1519 году 600 испанцев высадились в Мексике, чтобы покорить миллионы людей империи ацтеков - первое сражение, которое они убили на две трети.

Является ли Google сохраняет или «шкура» свои лучшие результаты: Я сомневаюсь , что это. Есть много отличных исследователей, работающих в области обработки естественного языка (НЛП). Если бы у Google было «величайшее достижение» для перевода, исследователи рано или поздно выяснили бы это. (В любом случае, зачем Google скрывать свое «величайшее достижение»? Похоже, они видят преимущества открытого исходного кода, см. Transformer [1] или BERT [2])

NB. Обновленный список современных алгоритмов в NLP см. В таблице лидеров SQuAD2.0 .

[1] Vaswani, Ashish, et al. «Внимание - это все, что вам нужно». Достижения в области нейронных систем обработки информации. 2017.

[2] Devlin, Jacob, et al. «Берт: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». Препринт arXiv arXiv: 1810.04805 (2018).

RikH
источник
Большое спасибо за ссылку на "хорошо оплачиваемых исследователей". Имея в виду компенсации всегда помогает лучше понять вещи (хотя я не знаю, что вы имели в виду при установке этой ссылки).
Ханс-Питер Стрикер
Аргумент был не очень твердым либо. Удалили ссылку и попытались улучшить аргумент. Я читал много статей НЛП и довольно уверен в своих выводах, но трудно найти поддержку для аргумента.
РикХ
Пожалуйста, дайте мне знать о ваших выводах (если вы не возражаете). Мой почтовый адрес можно найти на странице моего профиля.
Ханс-Питер Стрикер
1
2019 :In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
Дэн М.
4

Это действительно зависит от языковой пары и темы содержания. Перевод с / на английский на любой другой язык обычно лучше всего поддерживается. Перевод на популярные языки и с них работает лучше, например, перевод с английского на румынский - более плохой перевод, чем с английского на русский. Но перевод с английского на русский или румынский язык лучше, чем перевод с русского на румынский. И перевод с румынского на английский лучше, чем перевод с румынского на английский.

Но если вы привыкли работать с переводчиками и у вас есть мимолетное знакомство с языками, ошибками перевода и темой, легко понять, что там должно было быть. И в этот момент иногда проще читать что-то переведенное на ваш родной язык для быстрого сканирования, чем читать на другом языке.

Менее популярные языки (для перевода не обязательно по количеству носителей) намного ближе к буквальным переводам, лишь немного лучше, чем то, что вы лично сделали бы, используя словарь для двух языков, которые вы не знаете.

Аарон Харун
источник
2

Я не прав, а переводы Google, тем не менее, читабельны, полезны и полезны для большинства пользователей?

Да, они несколько полезны и позволяют переводить быстрее.

Или у Google есть причины сохранить свои величайшие достижения (а не показать пользователям лучшее, что они могут показать)?

Может быть, я не знаю. Если вы ищете информацию, Google действительно делает много ужасных глупостей, таких как изучение того, что говорят пользователи в Интернете, принятие неподходящих данных в качестве надежных наборов входных данных.

user8426627
источник
2

Извиняюсь за то, что не пишу на английском. Пожалуйста, найдите адаптированный перевод здесь:

Чтобы дать заинтересованным людям представление о качестве MT (DeepL), посмотрите этот пример из текста, над которым я работал сегодня утром (6300 слов, началось в 9 часов утра, доставка сегодня около 13 часов, и до сих пор найти время для этого поста). Я работал над этим предложением (201 слово), когда я разместил свой комментарий.

или любые процессы, которые запускаются или активируются, когда вы не вошли в систему на этом Веб-сайте, или которые иным образом мешают нормальной работе или создают необоснованную нагрузку на инфраструктуру этого Веб-сайта; или (e) использовать ручное или автоматизированное программное обеспечение, устройства или другие процессы для «сканирования», «очистки» или «паука» любой страницы данного Веб-сайта; или (f) декомпилировать, перепроектировать или иным образом пытаться получить исходный код этого сайта ».

DeepL возвращает это:

Sie versichern, garantieren унд verpflichten Сечь gegenüber АВС, Дасс Sie умирает Nicht чан Werden: (а) betrügerische, missbräuchliche Одер anderweitig Illegale Aktivitäten durchzuführen, умирают Anlass für умереть Beendigung Ihres RECHTS Ауф Zugang Одер Nutzung Dieser веб-сайта унд / Одер дер Dienste зет können; oder (b) Mitteilungen oder Aufforderungen, die dazu bestimmt sind oder sind, Passwörter, Konten oder private Informationen von anderen Nutzern dieser Веб-сайт zu erhalten, zu posten oder zu ubertragen oder posten oder zu posten oder zu über; oder (c) die Sicherheit eines Computernetzwerks verletzen, Passwörter oder Sicherheitsverschlüsselungscodes knacken, материал изготовления нелегалов (материал einschließlich, das als bedrohlich oder obszön angesehen werden kann) überten ogentegen, übertragen ogen, beberten ogen der tra tra tra die ausdrücklich verboten sind; oder (d) Mailliste, Listenserver oder jede anddere Form von Auto-Responder oder «Spam» auf dieser Веб-сайт oder Prozesse, die ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser Веб-сайт angemeldet sind, oder die asneenesenenenesenesenedenedenedenedenesenedenedenedenedenedenedenedenedenedenedenege - en de unedenege as Belastung der Infrastruktur Dieser Веб-сайт stören; oder (e) manuelle oder automatisierte Software, Geräte oder anddere Prozesse verwenden, um eine Seite dieser Веб-сайт zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Веб-сайт zu erhalten. die ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser Веб-сайт angemeldet sind, oder die anderweitig das ordnungsgemäße Функциональные возможности для веб-сайта; oder (e) manuelle oder automatisierte Software, Geräte oder anddere Prozesse verwenden, um eine Seite dieser Веб-сайт zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Веб-сайт zu erhalten. die ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser Веб-сайт angemeldet sind, oder die anderweitig das ordnungsgemäße Функциональные возможности для веб-сайта; oder (e) manuelle oder automatisierte Software, Geräte oder anddere Prozesse verwenden, um eine Seite dieser Веб-сайт zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Веб-сайт zu erhalten. zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Веб-сайт zu erhalten. zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Веб-сайт zu erhalten.

Мне потребовалось от 5 до 10 минут, чтобы настроить этот пункт.

Как переводчик, я знаю, что не могу положиться на машинный перевод, но со временем я изучил специфику и возможности различных систем и знаю, на что обратить внимание.

МТ очень помогает мне в работе.

Герберт
источник
2
Обратите внимание, что юридические тексты обеспечивают более качественные автоматические переводы, поскольку в этой области имеется множество многоязычных текстов.
Quora Feans
1

Это будет не столько ответ, сколько комментарий.

Качество зависит от нескольких вещей, включая (как сказал Аарон выше) 1) языковую пару и 2) тему, но также 3) роды и 4) стиль оригинала и 5) количество имеющегося у вас параллельного текста обучить систему МТ.

Чтобы подготовить почву, практически все МТ в наши дни основаны на параллельных текстах, то есть текстах на двух разных языках, причем один предположительно является переводом другого (или оба являются переводом какого-то третьего языка); и потенциальное использование словарей (возможно, с помощью морфологических процессов) в качестве отката, когда параллельные тексты не содержат конкретных слов.

Более того, как уже говорили другие, система МП никоим образом не понимает тексты, которые она переводит; он просто видит строки символов и последовательности слов, состоящие из символов, и ищет похожие строки и последовательности в текстах, которые он переводил ранее. (Хорошо, это немного сложнее, и были попытки разобраться с семантикой в ​​вычислительных системах, но пока это в основном строки.)

1) Языки различаются. Некоторые языки имеют много морфологии, что означает, что они делают вещи с одним словом, что другие языки делают с несколькими словами. Простым примером будет испанский 'cantaremos' = английский "мы будем петь". И один язык может делать то, что другой язык даже не беспокоит, например, неформальное / формальное (tu / usted) различие в испанском языке, которому английский не имеет эквивалента. Или один язык может делать вещи с морфологией, что другой язык делает с порядком слов. Или сценарий, который использует язык, может даже не обозначать границы слов (китайский и некоторые другие). Чем больше разных языков, тем сложнее будет переводить систему МП между ними. Первые эксперименты в статистической МТ были проведены между французским и английским языками,

2) Тема: Если у вас есть параллельные тексты в Библии (что справедливо почти для любой пары письменных языков), и вы обучаете свою систему МТ этим, не ожидайте, что она пойдет хорошо на технических текстах. (Ну, в любом случае, Библия представляет собой относительно небольшой объем текста по стандартам обучающих систем МП, но притворяйтесь :-).) Словарный запас Библии сильно отличается от словаря технических текстов, как и частота различных грамматических слов. конструкции. (Грамматика по сути та же самая, но в английском, например, вы получаете гораздо больше пассивного голоса и больше составных существительных в научных и технических текстах.)

3) Роды: если ваш параллельный текст носит декларативный характер (например, руководства для тракторов), попытка использовать полученную в результате систему MT в диалоговом окне не даст вам хороших результатов.

4) Стиль: думаю, Хилари против Дональда; Эрудит против популярного. Тренировка с одной стороны не принесет хороших результатов с другой. Точно так же обучите систему МП романам на уровне взрослых и используйте ее в детских книгах.

5) Языковая пара: английский имеет много текстов, и шансы найти тексты на каком-либо другом языке, параллельном данному тексту на английском языке, намного выше, чем шансы найти параллельные тексты, скажем, на русском и игбо. (Тем не менее, могут существовать исключения, например, языки Индии.) Как общее обобщение: чем больше таких параллельных текстов вам нужно для обучения системе МП, тем лучше результаты.

В общем, язык сложен (вот почему я люблю его - я лингвист). Поэтому неудивительно, что системы MT не всегда работают хорошо.

Кстати, человеческие переводчики тоже не всегда так хороши. Десять или два года назад я получал переводы документов от людей-переводчиков на английский, чтобы использовать их в качестве учебных материалов для систем МП. Некоторые переводы было трудно понять, и в некоторых случаях, когда мы получали переводы от двух (или более) переводчиков-людей, трудно было поверить, что переводчики читали одни и те же документы.

И наконец, (почти) никогда не бывает только одного правильного перевода; Есть несколько способов перевода отрывка, которые могут быть более или менее хорошими, в зависимости от того, какие функции (грамматическая корректность, стиль, последовательность использования, ...) вы хотите. Там нет простой меры "точности".

Майк Максвелл
источник
1

Удивительно, но все остальные ответы очень расплывчаты и пытаются подойти к этому от переводчика-человека POV. Давайте переключимся на ML-инженера.

При создании инструмента перевода одним из первых вопросов, который мы должны рассмотреть, является «Как мы измеряем, как работает наш инструмент?» ,

Что, по сути, и требует ОП.

Теперь это не простая задача (некоторые другие ответы объясняют почему). Существует статья в Википедии, в которой упоминаются разные способы оценки результатов машинного перевода - существуют как человеческие, так и автоматические оценки (такие как BLEU , NIST , LEPOR ).

С ростом методов нейронной сети эти показатели значительно улучшились.

Перевод - сложная проблема. Есть много вещей, которые могут быть правильными (или неправильными), и система компьютерного перевода часто игнорирует некоторые тонкости, которые выделяются для человека, говорящего.

Я думаю, что если мы хотим думать о будущем, есть несколько вещей, на которые мы можем положиться:

  • Наши методы становятся лучше, шире известны и проверены. Это собирается улучшить точность в долгосрочной перспективе.
  • Мы разрабатываем новые методы, которые могут учитывать переменные, которые ранее игнорировались, или просто лучше работать.
  • Многие из существующих в настоящее время моделей перевода часто «повторно» используются для перевода других языков (например, попробуйте перевести «JEDEN» с польского на китайский (традиционный) с помощью Google Translator - в итоге вы получите «ONE», что свидетельствует о том, что тот факт, что Google переводит с польского на английский, а затем с английского на китайский). Это, очевидно, не очень хороший подход - вы потеряете некоторую информацию в процессе - но она все еще будет работать, поэтому такие компании, как Google, используют ее для языков, где у них недостаточно рабочей силы или данных. Со временем появятся более специализированные модели, которые улучшат ситуацию.
  • Кроме того, как указывалось в предыдущем пункте, все больше и больше данных только поможет улучшить машинный перевод.

Подводя итог, можно сказать, что эта сложная проблема, хотя и не решена, безусловно, находится на хорошем пути и позволяет получить впечатляющие результаты для хорошо изученных языковых пар.

MatthewRock
источник
«Удивительно все остальные ответы ...», а не все остальные ответы. Я бы сказал «Некоторые другие ответы» или «Большинство других ответов».
nbro
0

«Или у Google есть причины, чтобы сохранить свои достижения (и не показывать пользователям лучшее, что они могут показать)»

Если бы они были, то то, что они сдерживают, было бы удивительно . Google публикует много сильных статей по обработке естественного языка, в том числе те, которые достигают самых современных результатов или делают значительные концептуальные прорывы . Они также выпустили очень полезные наборы данных и инструменты . Google - одна из немногих компаний, которая не только использует самые современные исследования, но и активно участвует в литературе.

Машинный перевод - это просто сложная проблема. Хороший переводчик должен свободно владеть обоими языками, чтобы хорошо выполнять свою работу. Каждый язык будет иметь свои собственные идиомы и не буквальные или контекстно-зависимые значения. Простая работа со словарем на двух языках может привести к ужасным результатам (для человека или компьютера), поэтому нам необходимо обучить наши модели существующим корпусам, которые существуют на нескольких языках, чтобы узнать, как на самом деле используются слова (например, скомпилированная вручную фраза) Таблицы перевода могут использоваться как функции , они просто не могут быть целой историей). Для некоторых языковых пар много параллельных корпусов (например, для языков ЕС у нас есть полное производство Европейского парламента). Для других пар тренировочные данные намного скуднее. И даже если у нас есть тренировочные данные, будут существовать менее используемые слова и фразы, которые появляются не так часто, чтобы их можно было выучить.

Раньше это было еще большей проблемой, так как синонимы было трудно объяснить. Если бы в наших тренировочных данных были предложения «Собака поймала мяч», а не «Щенок поймал мяч», мы получили бы низкую вероятность второго предложения. Действительно, во многих таких случаях потребуется значительное сглаживание, чтобы предотвратить вероятность того, что вероятность станет нулевой .

Появление моделей нейронного языка в последние 15 лет или около того в значительной степени помогло решить эту проблему, позволив сопоставить слова с реально-значимым семантическим пространством перед изучением связей между словами. Это позволяет изучать модели, в которых слова, близкие по значению, также близки друг к другу в семантическом пространстве, и, таким образом, переключение слова по его синониму не окажет значительного влияния на вероятность содержащегося предложения. word2vecмодель, которая очень хорошо это проиллюстрировала; он показал, что вы можете, например, взять семантический вектор для «короля», вычесть вектор для «мужчины», добавить вектор для «женщины» и найти, что ближайшее слово к результирующему вектору было «королевой». После того, как исследование моделей нейронного языка началось всерьез, мы начали замечать немедленные и массовые падения недоумения (то есть, насколько смущали модели естественный текст), и мы наблюдаем соответствующее увеличение показателя BLEU (т.е. качества перевода) теперь, когда те языковые модели интегрируются в системы машинного перевода.

Машинный перевод все еще не так хорошо , как переводы качества человека, и вполне возможно , не будет , что хорошо , пока мы не треснуть полностью Сапиент ИИ. Но хорошие человеческие переводчики стоят дорого, в то время как у каждого, кто имеет доступ к Интернету, есть машинные переводчики. Вопрос не в том, лучше ли человеческий перевод, а в том, насколько близко машина подходит к этому уровню качества. Этот разрыв сокращается и продолжает сокращаться.

луч
источник
Мне не нравится такой подход - но это вопрос вкуса и мнения. Обойтись без «выученного / научного / понимающего» перевода только потому, что «человеческие переводчики стоят дорого», мне грустно. О чем же тогда перевод?
Ханс-Питер Стрикер
@ Hans-PeterStricker Translation - это возможность общаться с людьми, с которыми у вас нет общего языка. Машинный перевод в настоящее время достаточно хорош, чтобы позволить нам сделать это несколько хорошо, хотя получающиеся переводы часто не грамматичны или звучат как не говорящий на нативном языке. (продолжение ...)
Рэй
В зависимости от того, что вы подразумеваете под «учёным / научным / понимающим», мы, возможно, уже делаем это. Вот что такое отображение на семантический вектор; слова встроены в векторное пространство, которое представляет их основное значение. Статья Sutskever, которую я связал (как «концептуальная»), фактически выполняет перевод, отображая все предложение в семантический вектор, а затем преобразовывая этот вектор в предложение на целевом языке. Так что "понимание" своего рода определенно происходит там. (продолжение ...)
Рэй
Существуют также модели, которые изучают основной синтаксис (то есть структуру предложения), и была проделана работа по интеграции этого в нейронные модели, хотя в настоящее время модели, которые изучают, на какие части предложения следует обратить внимание в любой данный момент чтобы быть более эффективным в обработке такого рода вещей, чем явные синтаксические модели. (продолжение ...)
Рэй
Если вы не думаете, что любое из этих «пониманий» считается Истинным пониманием, то что будет считаться кроме ИИ, который проходит тест Тьюринга, то есть полностью разумный? Обратите внимание, что я никогда не говорил, что мы не сможем создать полностью разумного ИИ (я не мог сказать, сколько времени это займет; это не моя часть поля. Но у меня мало сомнений, что мы доберемся в конце концов). Но модели, которые я описываю здесь, - это то, что мы используем сейчас , и они довольно хорошо позволяют людям общаться. Исследование ИИ направлено на получение последовательно лучших версий «достаточно хороших»
Рэй