В чем практическая разница между правилами ассоциации и деревьями решений в интеллектуальном анализе данных?

19

Есть ли действительно простое описание практических различий между этими двумя методами?

Похоже, что оба они используются для обучения под наблюдением (хотя правила ассоциации могут также обрабатывать без присмотра).
Оба могут быть использованы для прогнозирования

Самое близкое к «хорошему» описанию я нашел из учебника Statsoft . Они говорят, что Правила Ассоциации используются для:

... обнаруживать связи или ассоциации между конкретными значениями категориальных переменных в больших наборах данных.

Хотя классификаторы дерева решений описаны как используемые для:

... предсказать членство дел или объектов в классах категориальной зависимой переменной на основе их измерений по одной или нескольким переменным предикторам.

Однако в R Data Mining они приводят пример правил ассоциации, используемых с целевым полем .

Таким образом, оба могут использоваться для прогнозирования членства в группе. Является ли ключевое различие в том, что деревья решений могут обрабатывать некатегоричные входные данные, а правила ассоциации - нет? Или есть что-то более фундаментальное? Один сайт ( sqlserverdatamining.com ) говорит, что ключевое отличие:

Правила деревьев решений основаны на получении информации, в то время как правила ассоциации основаны на популярности и / или уверенности.

Таким образом (возможно, отвечая на мой собственный вопрос), означает ли это, что правила ассоциации оцениваются исключительно на основе того, как часто они появляются в наборе данных (и как часто они являются «истинными»), в то время как деревья решений фактически пытаются минимизировать дисперсию?

Если кто-нибудь знает хорошее описание, на которое он хотел бы указать мне, это было бы здорово.

data-mining association-rules Повалить
источник

14

$\mathcal{F} = {F_1 , \dots, F_m }$ $C$ $\mathcal{F}$ $C$ $F$

T_{1} знак равно {я_{1}, я_{2}} T_{2} знак равно {я_{1}, я_{3}, я_{4}, я_{5}} T_{3} знак равно {я_{2}, я_{3}, я_{4}, я_{5}} ⋮ T_{N} знак равно {я_{2}, я_{3}, я_{4}, я_{5}}

$t_1 = \{i_1,i_2 \} \\ t_2 = \{i_1, i_3, i_4, i_5 \} \\ t_3 = \{i_2, i_3, i_4, i_5 \} \\ \vdots \\ t_n = \{ i_2, i_3, i_4, i_5 \}$

{я_{3}, я_{5}} \to {я_{4}}

$\{ i_3, i_5 \} \rightarrow \{ i_4 \}$

Оказывается, вы можете использовать анализ ассоциации для некоторых конкретных задач классификации, например, когда все ваши функции являются категориальными. Вы просто должны видеть элементы как функции, но это не то, для чего был создан анализ ассоциаций.

Симона
источник

3

«Правила ассоциации стремятся найти все правила выше заданных порогов, включая перекрывающиеся подмножества записей, в то время как деревья решений находят области в пространстве, где большинство записей принадлежат одному и тому же классу. С другой стороны, деревья решений могут пропускать многие прогнозные правила, найденные правилами ассоциации потому что они последовательно разбиваются на более мелкие подмножества. Когда правило, найденное в дереве решений, не найдено правилами ассоциации, это либо потому, что ограничение сократило пространство поиска, либо потому, что поддержка или доверие были слишком высокими ».
«Алгоритмы правил ассоциации могут быть медленными, несмотря на множество оптимизаций, предложенных в литературе, потому что они работают в комбинаторном пространстве, тогда как деревья решений могут быть сравнительно намного быстрее, потому что каждое разбиение получает последовательно меньшие подмножества записей».
Другая проблема заключается в том, что деревья решений могут повторять один и тот же атрибут несколько раз для одного и того же правила, поскольку такой атрибут является хорошим распознавателем. Это не является большой проблемой, так как правила являются соединениями, и поэтому правило может быть упрощено до одного интервала для атрибута, но такой интервал будет, как правило, небольшим, а правило слишком конкретным ».

Выдержки из:

Ordonez, C. & Zhao, K. (2011). Оценка правил ассоциации и деревьев решений для прогнозирования нескольких целевых атрибутов. Интеллектуальный анализ данных, 15 (2), 173–192.

Хорошая статья на эту тему, безусловно, стоит прочитать.

Рой ван дер Валк
источник

2

Мы можем утверждать, что как правила ассоциации, так и деревья решений предлагают пользователю набор правил и, следовательно, оба они похожи, но мы должны понимать теоретическое различие между деревьями решений и правилами ассоциации, а также то, как правила, предложенные обоими, различаются по значению или в использовании.

Во-первых, дерево решений - это контролируемый подход, в котором алгоритм пытается предсказать «результат». Типичным примером «результата» в реальных ситуациях могут быть, например, отток, мошенничество, реакция на кампанию и т. Д. Таким образом, правила дерева решений используются для прогнозирования результата.

Изучение правил ассоциации - это неконтролируемый подход, при котором алгоритм пытается найти ассоциации между элементами, часто в больших коммерческих базах данных. Типичным примером большой коммерческой базы данных является та, которая содержит транзакции розничных продавцов, такие как история покупок клиентов на веб-сайте электронной коммерции. Предметами могут быть товары, приобретенные в магазинах, или фильмы, просмотренные на онлайн-платформе. Обучение правилам ассоциации - все о том, как покупка одного продукта побуждает покупку другого продукта.

Во-вторых, деревья решений строятся на основе некоторых показателей нечистоты / неопределенности, например, выигрыша информации, коэффициента Джини или энтропии, тогда как правила ассоциации выводятся на основе поддержки, доверия и подъема.

В-третьих, поскольку дерево решений является «контролируемым» подходом, его точность измерима, в то время как изучение правил ассоциации является «неконтролируемым» подходом, и поэтому его точность субъективна.

Jyotsna
источник

В чем практическая разница между правилами ассоциации и деревьями решений в интеллектуальном анализе данных?

Ответы: