При обработке на естественном языке можно взять корпус и оценить вероятность появления следующего слова в последовательности из n. n обычно выбирается как 2 или 3 (биграммы и триграммы).
Есть ли известная точка, в которой отслеживание данных для n-й цепочки становится контрпродуктивным, учитывая количество времени, которое требуется для классификации конкретного корпуса один раз на этом уровне? Или учитывая количество времени, которое потребуется для поиска вероятностей в словаре (структура данных)?
text-mining
natural-language
jonsca
источник
источник
Ответы:
Вы должны искать недоумение против таблиц или графиков размера n-граммы .
Примеры:
http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :
http://images.myshared.ru/17/1041315/slide_16.jpg :
http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :
Сложность зависит от вашей языковой модели, размера n-граммы и набора данных. Как обычно, существует компромисс между качеством языковой модели и продолжительностью работы. Лучшие языковые модели в настоящее время основаны на нейронных сетях, поэтому выбор размера n-граммы не является проблемой (но вам нужно выбрать размер (ы) фильтра, если вы используете CNN, среди других гиперпараметров ...).
источник
Ваша мера «контрпродуктивности» может быть произвольной - например. с большим количеством быстрой памяти это может быть обработано быстрее (более разумно).
Сказав это, в это входит экспоненциальный рост, и, по моим собственным наблюдениям, он составляет около 3-4 баллов. (Я не видел никаких конкретных исследований).
Триграммы имеют преимущество перед биграммами, но они маленькие. Я никогда не применял 4 грамма, но улучшение будет намного меньше. Вероятно, аналогичный порядок уменьшения. Например. если триграммы улучшают результаты на 10% по сравнению с биграммами, то разумная оценка для 4 граммов может быть на 1% лучше по сравнению с триграммами.
Однако настоящий убийца - это память и разбавление числовых показателей. С10 , 000 уникальное слово корпус, тогда нужна модель биграмма 100002 ценности; модель триграммы потребуется100003 ; а 4-грамм понадобится100004 , Теперь, хорошо, это будут редкие массивы, но вы получите картину. Наблюдается экспоненциальный рост числа значений, и вероятности становятся намного меньше из-за разбавления частотных показателей. Разница между 0 или 1 наблюдением становится намного более важной, и все же частота наблюдений отдельных 4-граммовых снижается.
Вам понадобится огромный корпус, чтобы компенсировать эффект разбавления, но закон Ципфа гласит, что у огромного корпуса также будут еще более уникальные слова ...
Я предполагаю, что именно поэтому мы видим много моделей, реализаций и демонстраций биграмм и триграмм; но нет полностью работающих 4-граммовых примеров.
источник