Вот список коэффициентов логистической регрессии (первый - перехват)
-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
0
1.03152408392552
1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393
Я нахожу странным, как перехват настолько низок, и у меня есть коэффициент, который фактически равен 0. Я не совсем уверен, как бы я это интерпретировал. Означает ли 0, что конкретная переменная никак не влияет на модель? Но перехват, который делается путем ввода столбца, вдруг становится действительно важным? Или мои данные просто чушь, и модель не может правильно вписаться в нее.
regression
logistic
shiu6rewgu
источник
источник
Ответы:
Вы получаете очень хорошую информацию в комментариях, по моему мнению. Интересно, помогут ли некоторые базовые факты о логистической регрессии сделать эти вещи более понятными, поэтому с учетом этого позвольте мне высказать несколько вещей. В логистической регрессии коэффициенты находятся в логистической шкале (отсюда и название ...). Если вы добавите ковариатные значения для наблюдения, умножите их на коэффициенты и суммируете, вы получите логит .
e ≈ 2.718281828 e 2 = 7,389056 7,389056
Для вашей модели представьте, что у вас есть наблюдение, в котором значение всех ваших переменных равно 0, тогда все ваши коэффициенты выпадут, и у вас останется только ваше значение перехвата. Если мы возведем в степень ваше значение, мы получим 0 как шансы (если бы это было -700, шансы были бы , но я не могу заставить свой компьютер дать мне значение для -1060, это слишком мало, учитывая численные ограничения моего программного обеспечения). Преобразование этих шансов в вероятность, ( 0 / ( 1 + 0 )9,8 × 10- 305 0 / ( 1 + 0 ) ), снова дает нам 0. Таким образом, ваш вывод говорит о том, что ваше событие (каким бы оно ни было) просто не происходит, когда все ваши переменные равны 0. Конечно, это зависит от того, о чем мы говорим, но я не нахожу ничего слишком примечательного это. Стандартное уравнение логистической регрессии (скажем, без квадрата, например) обязательно предполагает, что связь между ковариатой и вероятностью успеха либо монотонно увеличивается, либо монотонно уменьшается, Это означает, что он всегда становится все больше и больше (или все меньше и меньше), и поэтому, если вы зайдете достаточно далеко в одном направлении, вы получите такие маленькие цифры, что мой компьютер не может отличить их от 0. Это просто природа зверя. Как это бывает, для вашей модели далеко идущий путь - это то, где ваши ковариатные значения равны 0.
Что касается коэффициента 0, это означает, что эта переменная не имеет никакого эффекта, как вы предлагаете. Теперь вполне разумно, что переменная не будет иметь эффекта, тем не менее, вы в принципе никогда не получите коэффициент равный 0. Я не знаю, почему это произошло в этом случае; комментарии предлагают некоторые возможные предложения. Я могу предложить другое, что в этой переменной не может быть никаких изменений. Например, если у вас была переменная, которая закодирована для пола, но только женщины в вашей выборке. Я не знаю, является ли это реальным ответом (R, например, возвращает
NA
в этом случае, но программное обеспечение отличается) - это просто еще одно предложение.источник
Интерпретация перехвата
Вы можете думать о логистической регрессии как о том, что она дает вам последующую вероятность быть «1». Перехват представляет собой априор для категорий, полученных из набора данных: в частности, это эмпирическая оценка log (p (Y = 1) / p (Y = 0), когда модель имеет только перехват, для случаев в «эталонные» классы, когда есть категориальные ковариаты, и для случаев, когда ковариаты имеют более 0 (в общем случае менее интерпретируемые). Таким образом, ваше строго отрицательное число, вероятно, говорит вам, что «1» редки среди случаев в вашей выборке, характеризуемых имея все ковариаты в 0. Опять же, там не может быть никаких наблюдений, поэтому не стоит беспокоиться о значении перехвата. Это обсуждение довольно ясно.
Из-за этого удобного разделения проблем между параметрами вы можете исправить дисбаланс категории, обучаясь на более сбалансированной выборке и только корректируя перехват . См. Кинг и Цзэн для подробного обсуждения.
источник