Хорошие пакеты для «частого анализа последовательности» в Python?

14

Кто-нибудь использовал (и любил) какие-либо хорошие пакеты для "частого анализа последовательности" в Python, кроме FPM в MLLib? Я ищу стабильную посылку, предпочтительнее для тех, кто поддерживается. Спасибо!

Edamame
источник

Ответы:

6

Я нашел только один: https://github.com/bartdag/pymining

у них есть реализация BIDEтам, но это не поддерживаемый код.

PS Присоединяюсь к вашему вопросу: - |

yossico
источник
Просто чтобы уточнить, он не реализовал BIDE, который добывает частые закрытые последовательности. Он фактически реализовал PrefixSpan, который добывает все частые последовательности. PrefixSpan и BIDE используют одну и ту же структуру перечисления шаблонов, поэтому авторы цитируют статью BIDE.
Чуанконг Гао
То, что я сделал в конце, используется: philippe-fournier-viger.com/spmf - Это
библиотека
6

Я активно поддерживаю эффективную реализацию как PrefixSpan, так и BIDE в Python 3, поддерживая майнинг как частых, так и топ-к (закрытых) последовательных паттернов.

https://github.com/chuanconggao/PrefixSpan-py

Чуанконг Гао
источник
Я хотел бы реализовать их в JavaScript, но я не совсем понимаю, как работают эти алгоритмы. Можете ли вы объяснить это на простом английском?
inf3rno
Я предлагаю вам проверить мою оригинальную минимальную реализацию PrefixSpan. Его основная часть занимает всего 15 строк. gist.github.com/chuanconggao/4df9c1b06fa7f3ed854d5d96e2ae499f
Чуанконг Гао
Спасибо! Я постараюсь перевести его на js, но это будет нелегко. :-) Afaik PrefixSpan строит проектируемые базы данных на основе совпадения префикса. В настоящее время я читаю о BIDE, а теория - еще лучший алгоритм.
inf3rno
Слишком много различий между коллекциями js и python. Мне не удалось воспроизвести код в js. Я попробую это позже.
inf3rno
Не уверен, поможет ли это, но у меня есть другая версия Scala PrefixSpan. github.com/chuanconggao/PrefixSpan-scala Тем не менее, я настоятельно рекомендую вам полностью понять алгоритм перед его внедрением.
Чуанконг Гао
1

Я использовал FIM «s функцию fpgrowth в прошлом , и она работала хорошо. Однако это довольно сложно установить на Windows-машины. Кажется, это академический веб-сайт, поэтому я не уверен, что они со временем обновляют код ...

Джед
источник
1

Вы думали написать это самостоятельно? Потому что сейчас, вероятно, нет обновленной библиотеки.

Проверьте это, его основные шаблоны PrefixSpan и Closed / Maximal на самом деле не так сложны в реализации:

http://sequenceanalysis.github.io/

HonzaB
источник