При чем n-граммы становятся контрпродуктивными?

13

При обработке на естественном языке можно взять корпус и оценить вероятность появления следующего слова в последовательности из n. n обычно выбирается как 2 или 3 (биграммы и триграммы).

Есть ли известная точка, в которой отслеживание данных для n-й цепочки становится контрпродуктивным, учитывая количество времени, которое требуется для классификации конкретного корпуса один раз на этом уровне? Или учитывая количество времени, которое потребуется для поиска вероятностей в словаре (структура данных)?

jonsca
источник
связанный с этой другой нитью о проклятии размерности
Антуан

Ответы:

2

Есть ли известная точка, в которой отслеживание данных для n-й цепочки становится контрпродуктивным, учитывая количество времени, которое требуется для классификации конкретного корпуса один раз на этом уровне?

Вы должны искать недоумение против таблиц или графиков размера n-граммы .

Примеры:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

введите описание изображения здесь

http://images.myshared.ru/17/1041315/slide_16.jpg :

введите описание изображения здесь

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

введите описание изображения здесь

Сложность зависит от вашей языковой модели, размера n-граммы и набора данных. Как обычно, существует компромисс между качеством языковой модели и продолжительностью работы. Лучшие языковые модели в настоящее время основаны на нейронных сетях, поэтому выбор размера n-граммы не является проблемой (но вам нужно выбрать размер (ы) фильтра, если вы используете CNN, среди других гиперпараметров ...).

Франк Дернонкур
источник
12

Ваша мера «контрпродуктивности» может быть произвольной - например. с большим количеством быстрой памяти это может быть обработано быстрее (более разумно).

Сказав это, в это входит экспоненциальный рост, и, по моим собственным наблюдениям, он составляет около 3-4 баллов. (Я не видел никаких конкретных исследований).

Триграммы имеют преимущество перед биграммами, но они маленькие. Я никогда не применял 4 грамма, но улучшение будет намного меньше. Вероятно, аналогичный порядок уменьшения. Например. если триграммы улучшают результаты на 10% по сравнению с биграммами, то разумная оценка для 4 граммов может быть на 1% лучше по сравнению с триграммами.

Однако настоящий убийца - это память и разбавление числовых показателей. С10,000 уникальное слово корпус, тогда нужна модель биграмма 100002ценности; модель триграммы потребуется100003; а 4-грамм понадобится100004, Теперь, хорошо, это будут редкие массивы, но вы получите картину. Наблюдается экспоненциальный рост числа значений, и вероятности становятся намного меньше из-за разбавления частотных показателей. Разница между 0 или 1 наблюдением становится намного более важной, и все же частота наблюдений отдельных 4-граммовых снижается.

Вам понадобится огромный корпус, чтобы компенсировать эффект разбавления, но закон Ципфа гласит, что у огромного корпуса также будут еще более уникальные слова ...

Я предполагаю, что именно поэтому мы видим много моделей, реализаций и демонстраций биграмм и триграмм; но нет полностью работающих 4-граммовых примеров.

winwaed
источник
2
Хорошее резюме. На страницах 48-53 («длинная блуждающая циничная диатриба») следующей статьи более подробно об этом (статья также содержит некоторые результаты для n-граммов более высокого порядка) research.microsoft.com/~joshuago/longcombine.pdf
Евгений
2
Ссылка мертва. Вот полная ссылка и ссылка на версию arXiv: Джошуа Т. Гудман (2001). Немного прогресса в языковом моделировании: расширенная версия. Microsoft Research: Редмонд, Вашингтон (США). Технический отчет MSR-TR-2001-72.
scozy