У меня есть список слов, принадлежащих к разным категориям. Каждая категория имеет свой собственный шаблон (например, одна имеет фиксированную длину со специальными символами, другая существует из символов, которые встречаются только в этой категории «слова», ...).
Например:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...
Я ищу технику машинного обучения, чтобы изучать эти схемы самостоятельно, основываясь на данных обучения. Я уже пытался определить некоторые переменные предиктора (например, длину слова, количество специальных символов, ...) самостоятельно, а затем использовал нейронные сети для изучения и прогнозирования категории. Но это совсем не то, что я хочу. Я хочу, чтобы техника выучила шаблоны для каждой категории самостоятельно - даже для изучения шаблонов, о которых я никогда не думал.
Поэтому я привожу данные обучения алгоритму (состоящие из примеров словосочетаний) и хочу, чтобы он выучил шаблоны для каждой категории, чтобы потом прогнозировать категорию из похожих или равных слов.
Есть ли современный способ сделать это?
Спасибо за вашу помощь
Ответы:
Может ли ваша проблема быть сформулирована как желание обнаружить регулярные выражения, которые будут соответствовать строкам в каждой категории? Это проблема «генерации регулярных выражений», подмножество проблемы индукции грамматики (см. Также сайт Александра Кларка ).
Проблема с регулярными выражениями проще. Я могу указать вам код Frak и RegexGenerator . В онлайн RegexGenerator ++ есть ссылки на их научные статьи по этой проблеме.
источник
Вы можете попробовать рекуррентные нейронные сети, где ваш ввод представляет собой последовательность букв в слове, а ваш вывод представляет собой категорию. Это соответствует вашим требованиям, так что вы не пишете никаких функций.
Однако, чтобы этот метод действительно работал, вам потребуется довольно большой набор обучающих данных.
Вы можете обратиться к разделу « Маркировка контролируемых последовательностей с помощью рекуррентных нейронных сетей» главы 2 Алекса Грейвса для более подробной информации.
Это ссылка на препринт
источник