Как провести корреляционный анализ пива и подгузников

8

У меня есть данные, которые эквивалентны:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

Я хотел бы провести некоторый анализ этого набора данных, чтобы получить корреляционную матрицу, которая имела бы значение, аналогичное следующему: если вы купили x, вы, вероятно, купите y.

Используя python (или что-нибудь еще, кроме MATLAB), как я могу это сделать? Некоторые базовые рекомендации или указатели на то, куда мне следует обратиться, помогут.

Спасибо,

Изменить - Что я узнал:

  1. Такие проблемы известны как обнаружение правил ассоциации. В Википедии есть хорошая статья, охватывающая некоторые распространенные алгоритмы для этого. Классический алгоритм для этого, кажется, Apriori, из-за Agrawal et. и др.

  2. Это привело меня к оранжевому пакету интеллектуального анализа данных на Python. Для Linux лучший способ установить его, похоже, из исходного кода, используя прилагаемый файл setup.py

  3. Orange по умолчанию считывает входные данные из файлов, отформатированных одним из нескольких поддерживаемых способов.

  4. Наконец, простое изучение правил ассоциации Apriori просто в оранжевом.

Азариас Р
источник
3
Если вы ищете пакет R, arulesстоит посмотреть. Может быть, «правила ассоциации» - это хороший поисковый термин
Карстен В.
2
См. Также алгоритм Apriori для «стандартного» подхода к этой проблеме.
кардинал

Ответы:

7

В дополнение к ссылкам, которые были даны в комментариях, вот еще несколько указателей:

Что касается Python, я думаю, теперь у вас есть представление о том, что вы должны искать, но в пакете интеллектуального анализа данных Orange есть пакет по правилам ассоциации и наборам предметов (хотя для последнего я не могу найти никаких ссылок на веб-сайте).

Редактировать:

Я недавно сталкивался с Писуггест, который

механизм рекомендаций Top-N, который реализует множество алгоритмов рекомендаций. Рекомендательные системы Top-N, технология персонализированной фильтрации информации, используются для идентификации набора из N элементов, которые будут интересны определенному пользователю. В последние годы рекомендательные системы top-N использовались в ряде различных приложений, например, для рекомендации продуктов, которые покупатель, скорее всего, купит; рекомендовать фильмы, телепрограммы или музыку, которые пользователь сочтет приятными; определить веб-страницы, которые будут представлять интерес; или даже предложить альтернативные способы поиска информации.

хл
источник
Интересно, сколько продуктов нужно задействовать, прежде чем простая корреляционная матрица окажется недостаточной?
rolando2