Распознавание речи не такой сложный пример, как вы думаете.
Во-первых, представьте себе создание цепочки Маркова (MC), которая распознает текст. Ваша программа читает кучу (без ошибок) текста и вычисляет состояния (слова) и изменения состояний (следующие слова). Похоже, вы поняли это. Теперь вы можете сгенерировать текст, или с помощью некоторого текста предсказать следующее слово, используя состояния и вероятности перехода вашего MC.
Теперь представьте, что вы хотите использовать свой MC с речью. Вы просто попросите людей прочитать текст, похожий на ваш MC, и все готово, верно? Ну ... За исключением того, что они будут произносить слова по-другому: там, где в письменном тексте написано "картошка", вы на самом деле услышите "по-та-то" и "по-та-то" и "пу-тай" -в "и т. д. И наоборот: текст" ели "и" восемь "представляют два разных состояния, но (как правило) произносится как одно и то же.
Ваш алгоритм больше не видит базовые состояния (слова), он видит вероятностное распределение произношения для каждого слова. Ваш оригинальный MC скрыт за произношением, и теперь ваша модель должна быть двухслойной.
Таким образом, вы могли бы заставить много людей читать вслух текст, который вы использовали для первоначального обучения, вы могли бы получить распределение для произношения для каждого слова, а затем объединить вашу исходную модель с моделью произношения, и у вас есть скрытая модель Маркова ( HMM).
Большинство реальных проблем будут такими, поскольку реальный мир имеет тенденцию быть шумным. Вы на самом деле не будете знать, в каком состоянии находится что-то. Вместо этого вы получите различные индикаторы для каждого состояния: иногда один и тот же индикатор для разных состояний («съел» и «восемь»), а иногда разные индикаторы для одного и того же состояния. ("ПУ-ТАЙ-НОУ" и "ПУ-ТА-ТУ"). Следовательно, HMM больше подходят для реальных проблем.
[Два примечания: 1) фактическое распознавание речи работает на уровне фонем, а не на уровне слов, и 2) я считаю, что HMM были королем холма для распознавания речи, но недавно были свергнуты глубокими нейронными сетями.]