Анализ коэффициентов логистической регрессии

12

Вот список коэффициентов логистической регрессии (первый - перехват)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

Я нахожу странным, как перехват настолько низок, и у меня есть коэффициент, который фактически равен 0. Я не совсем уверен, как бы я это интерпретировал. Означает ли 0, что конкретная переменная никак не влияет на модель? Но перехват, который делается путем ввода столбца, вдруг становится действительно важным? Или мои данные просто чушь, и модель не может правильно вписаться в нее.

shiu6rewgu
источник
2
Каков диапазон или стандартное отклонение ваших других переменных? Есть ли большая разница между стандартным отклонением переменной с нулевой оценкой по сравнению с другими? Вы можете ожидать нулевой коэффициент, если стандартное отклонение мало по сравнению с другими (числовая точность). Кроме того, перехват в основном означает, что у вас есть переменные, которые имеют большие средние (от нуля). Центрирование ваших переменных даст более интерпретируемый перехват и не изменит бета-версии для других переменных (за исключением ошибки итерационного алгоритма).
вероятностная
1
Если бы вы вычли 1027 из всех значений шестой переменной, ваш перехват был бы очень близок к 0. Это заставило бы вас чувствовать себя лучше? :-)
whuber
4
Отображение списка коэффициентов, подобных этому, без какого-либо контекста, скорее всего говорит: «У Джо 31, не правда ли?» не говоря 31 что . 31 авто? Много. 31 детей? Чертовски много! 31 доллар? Немного.
Питер Флом - Восстановить Монику
1
Что касается нулевого коэффициента: я мог бы видеть, что это происходит как артефакт помещения всех ваших коэффициентов в XL, прежде чем вставлять их здесь - что-то, что кажется совместимым с большим количеством десятичных знаков, которые мы обычно видим. Возможно, одна из этих ячеек XL была округлена до целых чисел, давая ноль. У меня были такие вещи, как это случилось.
rolando2
Спасибо всем за ваш вклад! Я действительно ценю каждого из вас! На многие мои вопросы ответили
shiu6rewgu

Ответы:

16

Вы получаете очень хорошую информацию в комментариях, по моему мнению. Интересно, помогут ли некоторые базовые факты о логистической регрессии сделать эти вещи более понятными, поэтому с учетом этого позвольте мне высказать несколько вещей. В логистической регрессии коэффициенты находятся в логистической шкале (отсюда и название ...). Если вы добавите ковариатные значения для наблюдения, умножите их на коэффициенты и суммируете, вы получите логит .
e 2.718281828 e 2 = 7,389056 7,389056

logit=β0+β1x1+β2x2+...+βkxk
Логит - это число, которое ни для кого не имеет интуитивного смысла, поэтому очень трудно понять, что делать с числом, выглядит забавно (например, очень высоко или очень низко). Лучший способ понять эти вещи - преобразовать их из их первоначального масштаба (логитов) в тот, который вы можете понять, в частности вероятности. Для этого вы берете свой логит и возводите его в степень. Это означает, что вы берете число e ( ) и поднимаете его до степени логита. Представьте, что ваш логит был 2: Это даст вам шансы. Вы можете преобразовать шансы в вероятность, разделив шансы на единицу плюс шансы: Люди обычно находят вероятность, с которой легче иметь дело. e2.718281828
e2=7.389056
7.3890561+7.389056=0.880797

Для вашей модели представьте, что у вас есть наблюдение, в котором значение всех ваших переменных равно 0, тогда все ваши коэффициенты выпадут, и у вас останется только ваше значение перехвата. Если мы возведем в степень ваше значение, мы получим 0 как шансы (если бы это было -700, шансы были бы , но я не могу заставить свой компьютер дать мне значение для -1060, это слишком мало, учитывая численные ограничения моего программного обеспечения). Преобразование этих шансов в вероятность, ( 0 / ( 1 + 0 )9.8×103050/(1+0)), снова дает нам 0. Таким образом, ваш вывод говорит о том, что ваше событие (каким бы оно ни было) просто не происходит, когда все ваши переменные равны 0. Конечно, это зависит от того, о чем мы говорим, но я не нахожу ничего слишком примечательного это. Стандартное уравнение логистической регрессии (скажем, без квадрата, например) обязательно предполагает, что связь между ковариатой и вероятностью успеха либо монотонно увеличивается, либо монотонно уменьшается, Это означает, что он всегда становится все больше и больше (или все меньше и меньше), и поэтому, если вы зайдете достаточно далеко в одном направлении, вы получите такие маленькие цифры, что мой компьютер не может отличить их от 0. Это просто природа зверя. Как это бывает, для вашей модели далеко идущий путь - это то, где ваши ковариатные значения равны 0.

Что касается коэффициента 0, это означает, что эта переменная не имеет никакого эффекта, как вы предлагаете. Теперь вполне разумно, что переменная не будет иметь эффекта, тем не менее, вы в принципе никогда не получите коэффициент равный 0. Я не знаю, почему это произошло в этом случае; комментарии предлагают некоторые возможные предложения. Я могу предложить другое, что в этой переменной не может быть никаких изменений. Например, если у вас была переменная, которая закодирована для пола, но только женщины в вашей выборке. Я не знаю, является ли это реальным ответом (R, например, возвращает NAв этом случае, но программное обеспечение отличается) - это просто еще одно предложение.

Gung - Восстановить Монику
источник
2
Обратите внимание, что вы можете получить шансы на основание десять, умножив шансы на натуральный логарифм на . Ответ вы получите примерно . и для малых коэффициентов вероятность равна коэффициентам. Таким образом, у нас есть примерно вероятность когда все ковариаты равны нулю. -46010-4603067003746010460
вероятностная
10

Интерпретация перехвата

Вы можете думать о логистической регрессии как о том, что она дает вам последующую вероятность быть «1». Перехват представляет собой априор для категорий, полученных из набора данных: в частности, это эмпирическая оценка log (p (Y = 1) / p (Y = 0), когда модель имеет только перехват, для случаев в «эталонные» классы, когда есть категориальные ковариаты, и для случаев, когда ковариаты имеют более 0 (в общем случае менее интерпретируемые). Таким образом, ваше строго отрицательное число, вероятно, говорит вам, что «1» редки среди случаев в вашей выборке, характеризуемых имея все ковариаты в 0. Опять же, там не может быть никаких наблюдений, поэтому не стоит беспокоиться о значении перехвата. Это обсуждение довольно ясно.

Из-за этого удобного разделения проблем между параметрами вы можете исправить дисбаланс категории, обучаясь на более сбалансированной выборке и только корректируя перехват . См. Кинг и Цзэн для подробного обсуждения.

conjugateprior
источник
Ссылка на «это обсуждение», кажется, умерла. Есть ли шанс восстановить эту ссылку?
Алексей Григорьев
1
@ alexey-grigorev Я обновил ссылку UCLA
конъюгирующая собственность
и получил пониженное голосование. Очень странный.
conjugateprior