У меня есть следующая функция вероятности:
где
Моя модель выглядит
Это визуализируется с помощью кривой вероятности, которая выглядит так, как показано ниже.
Я рассматриваю возможность добавления пары переменных к моему исходному уравнению регрессии. Допустим, я добавляю в модель пол (категориальный: F и M) и возраст (категориальный: <25 и> 26), и в итоге получаю:
В RI может генерировать аналогичную кривую вероятности, которая сообщит мне вероятность Y = 1 при учете всех трех предикторов. Там, где я потерян, я хочу найти вероятности для каждой возможной перестановки этих вариаций.
Итак, когда bid = 1, пол = M, а возраст> = 26, какова вероятность того, что Y = 1? Точно так же, когда bid = 2, пол = F, а возраст> = 26, какова вероятность того, что Y = 1?
Я хочу создать кривую вероятности, которая позволит мне визуализировать это.
Кто-нибудь может помочь? Возможно, я совершенно не понимаю, какую информацию можно почерпнуть из логит-модели, но, пожалуйста, скажите мне, не понимаю ли я и теорию.
источник
Predict()
иplot.Predict()
функции , чтобы получить ощущение того , что можно сделать (это включает в себя построение как функция , с набор на значения по умолчанию, или фиксированные значения по вашему выбору).Ответы:
К счастью для вас, у вас есть только один непрерывный ковариат. Таким образом, вы можете просто сделать четыре (т.е. 2 SEX x 2 AGE) графика, каждый из которых имеет отношение между BID и . В качестве альтернативы вы можете создать один график с четырьмя разными линиями (вы можете использовать разные стили линий, веса или цвета для их различения). Вы можете получить эти предсказанные линии, решив уравнение регрессии в каждой из четырех комбинаций для диапазона значений BID.p(Y=1)
Более сложная ситуация, когда у вас есть несколько непрерывных ковариат. В таком случае часто существует определенный ковариат, который в некотором смысле является «первичным». Этот ковариат может быть использован для оси X. Затем вы решаете для нескольких заранее заданных значений других ковариат, как правило, среднее значение и +/- 1SD. Другие варианты включают различные типы 3D-графиков, коплотов или интерактивных графиков.
Мой ответ на другой вопрос здесь содержит информацию о ряде графиков для исследования данных в более чем двух измерениях. Ваш случай по сути аналогичен, за исключением того, что вы заинтересованы в представлении прогнозных значений модели, а не необработанных значений.
Обновить:
Я написал несколько простых примеров кода на R для создания этих графиков. Позвольте мне отметить несколько вещей: поскольку «действие» происходит на ранней стадии, я запускал BID только через 700 (но не стесняйтесь расширять его до 2000). В этом примере я использую указанную вами функцию и беру первую категорию (то есть женскую и молодую) в качестве ссылочной категории (которая по умолчанию в R). Как отмечает @whuber в своем комментарииМодели LR являются линейными по логарифмическим коэффициентам, поэтому вы можете использовать первый блок прогнозируемых значений и строить график, как если бы вы выбрали регрессию OLS. Logit - это функция связи, которая позволяет вам связать модель с вероятностями; второй блок преобразует логарифмические шансы в вероятности с помощью обратной функции логита, то есть путем возведения в степень (превращения в шансы) и последующего деления шансов на 1 + шансы. (Я обсуждаю природу функций связи и этот тип модели здесь , если вам нужна дополнительная информация.)
Это приводит к следующему графику:
Эти функции достаточно похожи, так что изначально описанный мной метод четырех параллельных графиков не очень отличителен. Следующий код реализует мой «альтернативный» подход:
производя в свою очередь этот участок:
источник