Я пытаюсь определить, будут ли простые вероятности работать для моей проблемы или будет лучше использовать (и узнать о) более сложные методы, такие как логистическая регрессия.
Переменная ответа в этой задаче является двоичным ответом (0, 1). У меня есть несколько переменных предикторов, которые являются категориальными и неупорядоченными. Я пытаюсь определить, какие комбинации переменных-предикторов дают наибольшую долю единиц. Нужна ли логистическая регрессия? Как было бы полезно просто рассчитать пропорции в моем наборе выборок для каждой комбинации категориальных предикторов?
r
probability
logistic
Рейчел
источник
источник
Ответы:
Логистическая регрессия, вплоть до неточности, даст точно такие же соответствия, как и в табличных процентах. Следовательно, если ваши независимые переменные являются факторными объектами
factor1
и т. Д., А зависимые результаты (0 и 1) естьx
, то вы можете получить эффекты с помощью выражения, подобногоСравните это с
В качестве примера давайте сгенерируем случайные данные:
Резюме получается с
Его выход включает в себя
Для дальнейшего использования оценка для факторов на уровнях (1,2,0) в строке 6 выходных данных составляет 0,5.
Логистическая регрессия отдает свои коэффициенты следующим образом:
Для их использования нам понадобится логистическая функция:
Чтобы получить, например, оценку факторов на уровнях (1,2,0), вычислите
(Обратите внимание, как все взаимодействия должны быть включены в модель, и все соответствующие коэффициенты должны быть применены для получения правильной оценки.) Выходные данные
согласен с результатами
aggregate
. (Заголовок «(Перехват)» в выходных данных является остатком входных данных и фактически не имеет смысла для этого вычисления.)Та же информация в еще одной форме появляется в выводе
table
. Например, (длинный) выводвключает в себя эту панель:
Столбец для21/(21+21)=0.5 1
factor1
= 1 соответствует трем факторам на уровнях (1,2,0) и показывает, что из значений, равных , в соответствии с тем, что мы считали из и .x
aggregate
glm
Наконец, комбинация факторов, обеспечивающих наибольшую долю в наборе данных , удобно получить из следующих результатов
aggregate
:источник
Для быстрого взгляда на соотношение бинарных ответов в каждой категории и / или в зависимости от нескольких категорий могут пригодиться графические графики. В частности, чтобы одновременно визуализировать пропорции, обусловленные многими категориальными независимыми переменными, я бы предложил Мозаичные Графики .
Ниже приведен пример, взятый из поста в блоге, Понимание графиков на основе областей: мозаичные графики из Статистической графики и другие блоги. Этот пример визуализирует долю выживших на «Титанике» синим цветом, в зависимости от класса пассажира. Можно одновременно оценивать долю выживших, в то же время оценивая общее количество пассажиров в каждой из подгрупп (точная информация наверняка, особенно когда некоторые подгруппы малочисленны и мы ожидаем большего случайного отклонения).
(источник: theusrus.de )
Затем можно сделать последующие мозаичные графики условными для нескольких категориальных независимых переменных. Следующий пример из того же поста в блоге в краткой визуальной сводке демонстрирует, что все дети-пассажиры в первом и втором классах выжили, в то время как в третьем классе дети не жили так же хорошо. Это также ясно показывает, что у взрослых женщин была намного более высокая выживаемость по сравнению с мужчинами в каждом классе, хотя доля выживших женщин между классами заметно уменьшилась от первого до второго к третьему классам (а затем снова была относительно высокой для экипажа, хотя еще раз обратите внимание, что существует не так много женщин-членов экипажа, учитывая, насколько узкая планка).
(источник: theusrus.de )
Удивительно, сколько информации отображается, это пропорции в четырех измерениях (класс, взрослый / ребенок, пол и доля выживших)!
Я согласен, если вы заинтересованы в предсказании или более причинном объяснении в целом, вы захотите обратиться к более формальному моделированию. Графические графики могут быть очень быстрыми визуальными подсказками относительно природы данных, и могут предоставить другие идеи, которые часто упускаются при простой оценке регрессионных моделей (особенно при рассмотрении взаимодействий между различными категориальными переменными).
источник
Nb
? Я всегда говорю лучше с цифрами!В зависимости от ваших потребностей, вы можете обнаружить, что рекурсивное разделение обеспечивает простой для интерпретации метод прогнозирования выходной переменной. Для R внедрения этих методов, см Quick-R модели дерева на основе страница. Я в целом одобряю
ctree()
реализацию в пакете R для party, так как не нужно беспокоиться об обрезке, и по умолчанию он создает симпатичную графику.Это подпадает под категорию алгоритмов выбора признаков, предложенных в предыдущем ответе, и обычно дает такие же хорошие, если не лучшие прогнозы, как логистическая регрессия.
источник
Учитывая ваши пять категориальных предикторов, скажем, по 20 результатов каждый, тогда для решения с различным прогнозом для каждой конфигурации предикторов требуется параметров. Каждый из этих параметров требует много обучающих примеров для того, чтобы быть хорошо изученным. У вас есть как минимум десять миллионов обучающих примеров, разбросанных по всем конфигурациям? Если так, продолжайте и сделайте это таким образом.205
Если у вас меньше данных, вы хотите узнать меньше параметров. Вы можете уменьшить количество параметров, предположив, например, что конфигурации отдельных предикторов оказывают последовательное влияние на переменную ответа.
Если вы считаете, что ваши предикторы независимы друг от друга, то логистическая регрессия - это уникальный алгоритм, который делает правильные вещи. (Даже если они не независимы, это все равно может быть довольно хорошо.)
Таким образом, логистическая регрессия делает предположение о независимом влиянии предикторов, что уменьшает количество параметров модели и дает модель, которую легко изучить.
источник
Вы должны посмотреть на алгоритмы выбора функций. Одним из подходящих для вашего случая (бинарная классификация, категориальные переменные) является метод «минимальная избыточность, максимальная релевантность» (mRMR). Вы можете быстро попробовать это онлайн на http://penglab.janelia.org/proj/mRMR/
источник
response,predictor1,predictor2,predictor3 <line break here> 1,5,4,3 <line break here> 0,5,3,-1 <line break here> 1,1,2,3
Я работаю в области кредитного скоринга, где то, что здесь представляется странным случаем, является нормой.
Мы используем логистическую регрессию и преобразуем как категориальные, так и непрерывные переменные в вес доказательств (WOE), которые затем используются в качестве предикторов в регрессии. Много времени тратится на группировку категориальных переменных и дискретизацию (разбивку / классификацию) непрерывных переменных.
Вес доказательств является простой расчет. Это журнал шансов для класса, за вычетом журнала шансов для населения:
WOE = ln (Хорошо (Класс) / Плохо (Класс)) - ln (Хорошо (ВСЕ) / Плохо (ВСЕ)) Это стандартная методология преобразования почти для всех моделей кредитного скоринга, построенных с использованием логистической регрессии. Вы можете использовать те же числа в кусочном подходе.
Прелесть этого в том, что вы всегда будете знать, имеют ли смысл коэффициенты, назначаемые каждому WOE. Отрицательные коэффициенты противоречат закономерностям в данных и обычно являются результатом мультиколлинеарности; а коэффициенты выше 1,0 указывают на сверхкомпенсацию. Большинство коэффициентов получится где-то между нулем и единицей.
источник