Поднимите меру в интеллектуальном анализе данных

36

Я искал много сайтов, чтобы знать, что именно будет делать лифт? Все результаты, которые я обнаружил, касались его использования в приложениях, а не в самом себе.

Я знаю о функции поддержки и доверия. Из Википедии, в области интеллектуального анализа данных, лифт является мерой эффективности модели при прогнозировании или классификации случаев, сравнивая с моделью случайного выбора. Но как? Поддержка доверия * - это значение лифта. Я также искал другие формулы, но не могу понять, почему графики лифта важны для точности прогнозируемых значений. Я имею в виду, я хочу знать, какая политика и причина стоят за лифтом?

Nickool
источник
2
Нужен контекст здесь. В маркетинге это будет диаграмма, которая будет указывать процентное увеличение продаж, ожидаемое от различных маркетинговых мероприятий, но вы, вероятно, имеете в виду другой контекст.
zbicyclist

Ответы:

59

Я приведу пример того, как «лифт» полезен ...

Представьте, что вы проводите кампанию прямой почтовой рассылки, где вы отправляете клиентам предложение в надежде, что они ответят. Исторические данные показывают, что когда вы отправляете свою клиентскую базу полностью случайным образом, около 8% из них отвечают на рассылку (то есть приходят и делают покупки с предложением). Таким образом, если вы отправите 1000 клиентов по почте, вы можете ожидать 80 ответчиков.

Теперь вы решаете приспособить модель логистической регрессии к вашим историческим данным, чтобы найти шаблоны, которые предсказывают, будет ли клиент отвечать на почтовое сообщение. Используя модель логистической регрессии, каждому клиенту назначается вероятность ответа, и вы можете оценить точность, потому что вы знаете, ответили ли они на самом деле. Как только каждому клиенту назначена его вероятность, вы ранжируете его от самого высокого до самого низкого балла. Затем вы можете сгенерировать некоторую «лифтовую» графику, например:

введите описание изображения здесь

Игнорируйте верхнюю диаграмму на данный момент. Нижний график говорит о том, что после того, как мы отсортируем клиентов по вероятности ответа (от высокой к низкой), а затем разделим их на десять одинаковых корзин, отклик в корзине № 1 (первые 10% клиентов) будет равен 29 % против 8% случайных клиентов, при подъеме 29/8 = 3,63. К тому моменту, когда мы попали в 4-е место, набрав количество клиентов, мы собрали так много предыдущих трех, что коэффициент отклика ниже, чем мы ожидаем, рассылая людей случайным образом.

Теперь, глядя на верхнюю диаграмму, это говорит о том, что если мы используем оценки вероятности для клиентов, мы можем получить 60% от общего числа респондентов, которые мы будем получать по почте случайным образом, отправляя только 30% самых популярных клиентов. То есть, используя модель, мы можем получить 60% ожидаемой прибыли за 30% стоимости почты, отправив только 30% самых популярных клиентов по почте, и это то, к чему действительно относится лифт .

Джош Хеманн
источник
Хорошее объяснение, большое спасибо. Не могли бы вы сказать мне в таблице Lift, почему нам нужна случайная выборка? Я понял 8% от случайного, но зачем это нужно отслеживать случайным образом? Я видел другой график, который отслеживает среднее значение, и я не знаю причину существования среднего
Nickool
то, что я получил, это то, что подъем = 3,63 говорит о том, что до столбца 4 мы имеем лучшие показатели отклика, чем у 8%, тогда вы просто принимаете столбец 1 и, рассматривая 29% (30% в оценке), вы только что рассмотрели столбец 1 тогда какой лифт сделал с 3.63?
Nickool
1
Боже ты мой! Я понял свою ошибку: 30% не относятся к 29%, 30% означают 3/10 3 первых столбца данных! Теперь я полностью понял это: D Я так счастлив !!!!! спасибо>: D <
Nickool
1
1000мaяLяNгaLL1000сUsTомерsaNdвесееИкспесT8300)TчасеNвесееИкспесTTогеT601000-геT-80-сUsTомерsvsSпеNd-
1
@ user1700890 Верхняя диаграмма часто обозначается как диаграмма совокупного усиления, тогда как нижняя диаграмма не совпадает с диаграммой совокупного подъема (где подъем никогда не может быть ниже 1), но делит данные на десять отдельных корзин.
RobertF
3

Лифт-диаграммы представляют соотношение между откликом модели и ее отсутствием. Как правило, он представлен процентом случаев в X и количеством раз, когда ответ лучше по оси Y. Например, модель с лифтом = 2 в точке 10% означает:

  • Без какой-либо модели, принимающей 10% населения (без порядка, потому что нет модели), доля y = 1 составила бы 10% от общей численности населения с y = 1.

  • С помощью этой модели мы получаем в 2 раза больше этой пропорции, то есть мы ожидаем получить 20% от общей численности населения с y = 1. На этой метке X указываются данные, упорядоченные в соответствии с прогнозом. Первые 10% - это первые 10% прогнозов

anotheruser
источник
3

Лифт - это не что иное, как отношение уверенности к ожидаемой уверенности. В области правил ассоциации - «Коэффициент подъема, превышающий 1,0, подразумевает, что отношение между предшествующим и последующим является более значительным, чем можно было бы ожидать, если бы два набора были независимыми. Чем больше коэффициент подъема, тем значительнее связь. " Например-

если база данных супермаркета содержит 100 000 транзакций в точках продаж, из которых 2 000 включают в себя как товары A, так и B, а 800 из них включают товары C, правило ассоциации «Если A и B куплены, то C покупается по той же цене. «Поездка» имеет поддержку 800 транзакций (альтернативно 0,8% = 800/100 000) и уверенность в 40% (= 800/2000). Один из способов думать о поддержке состоит в том, что существует вероятность того, что случайно выбранная транзакция из базы данных будет содержать все элементы в антецеденте и последующем, тогда как уверенность - это условная вероятность того, что случайно выбранная транзакция будет включать все элементы в следовательно, учитывая, что транзакция включает в себя все элементы в антецеденте.

Используя приведенный выше пример, ожидаемое доверие в данном случае означает «доверие, если покупка A и B не увеличивает вероятность покупки C.» Это количество транзакций, которые включают последующие, деленные на общее количество транзакций. Предположим, что общее количество транзакций для C составляет 5000. Таким образом, ожидаемая достоверность составляет 5 000/1 000 000 = 5%. Для примера супермаркета Lift = Доверие / Ожидаемое доверие = 40% / 5% = 8. Следовательно, Lift - это значение, которое дает нам информацию об увеличении вероятности тогдашнего (последующего) данного элемента if (antecedent). вот ссылка на исходную статью

Арпит Сисодия
источник
2

Подъем - это просто мера, чтобы измерить важность правила

Это мера, чтобы проверить, есть ли это правило в списке случайно или мы ожидаем

Лифт = Доверие / Ожидаемое Доверие

Абдул Вахаб
источник
0

Скажем, мы используем пример продуктового магазина, который проверяет действительность правила ассоциации, которое имеет предшествующее и последующее (например: «Если клиент покупает хлеб, он также будет покупать масло»).

Если вы посмотрите на все транзакции и изучите одну наугад, вероятность того, что эта транзакция содержит последующее, равна «Ожидаемая достоверность». Если вы посмотрите на все транзакции, которые содержат антецедент, и выберете случайную транзакцию из них, вероятность того, что эта транзакция будет содержать последующее, равна «Доверие». «Лифт» - это, по сути, разница между этими двумя. С лифтом мы можем исследовать отношения между двумя предметами, которые имеют высокую достоверность (если достоверность низкая, то лифт по существу не имеет значения).

Если у них высокая достоверность и низкий лифт, то мы по-прежнему знаем, что предметы часто покупаются вместе, но мы не знаем, происходит ли последствие из- за антецедента или это просто совпадение (возможно, они оба часто покупаются вместе, потому что они оба очень популярны, но не имеют никакого отношения друг к другу).

Однако, если доверие и подъем высоки, то мы можем разумно предположить, что последствие происходит из- за антецедента. Чем выше подъем, тем ниже вероятность того, что отношения между двумя предметами - просто совпадение. В математическом плане:

Лифт = Доверие / Ожидаемое Доверие

В нашем примере, если доверие к нашему правилу было высоким, а подъем был низким, это означало бы, что многие клиенты покупают хлеб с маслом, но мы не знаем, связано ли это с какими-то особыми отношениями между хлебом и маслом или хлеб и масло - это просто популярные вещи в отдельности, и тот факт, что они часто появляются в продуктовых тележках вместе, является просто совпадением. Если доверие к нашему правилу велико, а лифт высок, это указывает на довольно сильную корреляцию между предшествующим и последующим, что означает, что мы можем разумно предположить, что клиенты покупают масло из- за того, что они покупают хлеб. Чем выше подъем, тем увереннее мы можем быть в этой ассоциации.

Эндрю
источник