Я немного новичок в использовании логистической регрессии, и меня немного смущает расхождение между моими интерпретациями следующих значений, которые, по моему мнению, будут одинаковыми:
- возведенные в степень значения беты
- прогнозируемая вероятность результата с использованием бета-значений.
Вот упрощенная версия модели, которую я использую, где недоедание и страхование являются двоичными, а богатство непрерывным:
Under.Nutrition ~ insurance + wealth
Моя (фактическая) модель возвращает возведенное в степень бета-значение 0,8 для страхования, которое я бы интерпретировал как:
«Вероятность недоедания для застрахованного лица в 8 раз превышает вероятность недоедания для незастрахованного лица».
Тем не менее, когда я вычисляю разницу в вероятностях для отдельных лиц, вводя значения 0 и 1 в страховую переменную и среднее значение для богатства, разница в недоедании составляет всего 0,04. Это рассчитывается следующим образом:
Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
(1+exp(β0 + β1*Insurance + β2*wealth))
Я был бы очень признателен, если бы кто-то мог объяснить, почему эти значения отличаются, и какая может быть лучшая интерпретация (особенно для второго значения).
Дальнейшие разъяснения.
Как я понимаю, вероятность недоедания для незастрахованного лица (где B1 соответствует страховке):
Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
(1+exp(β0 + β1*0+ β2*wealth))
Пока вероятность недоедания для застрахованного лица составляет:
Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
(1+exp(β0 + β1*1+ β2*wealth))
Вероятность недоедания для незастрахованного лица по сравнению с застрахованным лицом:
exp(B1)
Есть ли способ перевести между этими значениями (математически)? Я все еще немного смущен этим уравнением (где у меня должно быть другое значение в RHS):
Prob(Ins) - Prob(Unins) != exp(B)
С точки зрения непрофессионала, вопрос заключается в том, почему страхование не меняет вероятность того, что его будут недоедать, настолько сильно, насколько это показывает отношение шансов? По моим данным, Prob (Ins) - Prob (Unins) = 0,04, где возведенное в степень значение бета составляет 0,8 (так почему же разница не равна .2?)
Ответы:
Дайте мне знать, если вам нужна дополнительная / другая информация.
Обновление:
я думаю, что это в основном проблема того, чтобы не знать вероятности и шансы, и как они связаны друг с другом. Ничто из этого не является очень интуитивным, вам нужно сесть и поработать с ним некоторое время и научиться мыслить в этих терминах; это никому не естественно
Проблема в том, что абсолютные числа очень трудно интерпретировать сами по себе. Допустим, я рассказывал вам о времени, когда у меня была монета, и я задавался вопросом, справедливо ли это. Так что я перевернул его и получил 6 голов. Что это значит? 6 много, мало, примерно так? Это ужасно сложно сказать. Для решения этой проблемы мы хотим дать номерам некоторый контекст. В таком случае есть два очевидных варианта предоставления необходимого контекста: я мог бы указать общее количество бросков или количество хвостов. В любом случае, у вас есть достаточная информация, чтобы разобраться в 6 головах, и вы могли бы вычислить другое значение, если бы я сказал вам, что вы не предпочитаете. Вероятность - это количество голов, деленное на общее количество событий. Шансы - это отношение количества голов к числу
wealth
(Хотя он был написан в контексте другого вопроса, мой ответ здесь содержит много информации о логистической регрессии, которая может быть полезна для вас для более полного понимания LR и связанных с этим вопросов.)
источник
Ответ прост, если вы хотите сохранить все переменные постоянными и изменить одну переменную. Однако это становится немного сложнее, когда меняется каждая переменная. Вы можете посмотреть следующий пост, он может помочь http://analyticspro.org/2016/03/02/r-tutorial-multiple-linear-regression/
источник
Отношение шансов OR = Exp (b) преобразуется в Вероятность A = SQRT (OR) / (SQRT (OR) +1), где Вероятность A - вероятность события A, а OR - отношение события A / не происходящего события A (или выставлено / не выставлено страховкой как в вопросе выше). Мне потребовалось много времени, чтобы решить; Я не уверен, почему это не известная формула.
Есть пример. Предположим, в университет поступило 10 человек; 7 из них мужчины. Таким образом, для каждого мужчины это 70% вероятности быть принятым. Коэффициенты, которые должны быть приняты для мужчин, составляют 7/3 = 2,33 и не должны быть приняты 3/7 = 0,43. Соотношение шансов (ИЛИ) составляет 2,33 / 0,43 = 5,44, что означает, что у мужчин в 5,44 раза больше шансов быть принятыми, чем у женщин. Давайте найдем вероятность быть принятым для человека из ИЛИ: P = SQRT (5.44) / (SQRT (5.44) +1) = 0.7
Обновление Это верно только в том случае, если количество принятых мужчин и женщин равно количеству заявителей. Другими словами, это не ИЛИ. Мы не можем найти выигрыш (или потерю) вероятности в зависимости от фактора, не зная дополнительной информации.
источник