У меня есть данные, которые эквивалентны:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Я хотел бы провести некоторый анализ этого набора данных, чтобы получить корреляционную матрицу, которая имела бы значение, аналогичное следующему: если вы купили x, вы, вероятно, купите y.
Используя python (или что-нибудь еще, кроме MATLAB), как я могу это сделать? Некоторые базовые рекомендации или указатели на то, куда мне следует обратиться, помогут.
Спасибо,
Изменить - Что я узнал:
Такие проблемы известны как обнаружение правил ассоциации. В Википедии есть хорошая статья, охватывающая некоторые распространенные алгоритмы для этого. Классический алгоритм для этого, кажется, Apriori, из-за Agrawal et. и др.
Это привело меня к оранжевому пакету интеллектуального анализа данных на Python. Для Linux лучший способ установить его, похоже, из исходного кода, используя прилагаемый файл setup.py
Orange по умолчанию считывает входные данные из файлов, отформатированных одним из нескольких поддерживаемых способов.
Наконец, простое изучение правил ассоциации Apriori просто в оранжевом.
источник
arules
стоит посмотреть. Может быть, «правила ассоциации» - это хороший поисковый терминОтветы:
В дополнение к ссылкам, которые были даны в комментариях, вот еще несколько указателей:
Что касается Python, я думаю, теперь у вас есть представление о том, что вы должны искать, но в пакете интеллектуального анализа данных Orange есть пакет по правилам ассоциации и наборам предметов (хотя для последнего я не могу найти никаких ссылок на веб-сайте).
Редактировать:
Я недавно сталкивался с Писуггест, который
источник