Помогите мне понять скорректированное соотношение шансов в логистической регрессии

20

Мне было трудно понять, как использовать логистическую регрессию в статье. Доступный здесь документ использует логистическую регрессию для прогнозирования вероятности осложнений во время операции по удалению катаракты.

Что меня смущает, так это то, что в статье представлена ​​модель, которая присваивает отношение шансов 1 к базовой линии, описываемое следующим образом:

Пациент, профиль риска которого был в контрольной группе по всем показателям риска (т.е. скорректированный OR = 1,00 для всех в таблице 1), может рассматриваться как имеющий «базовый профиль риска», а модель логистической регрессии указывает «базовую прогнозируемую вероятность» для ПЦР или ВЛ или обоих = 0,736%.

Таким образом, вероятность 0,00736 представлена ​​с отношением шансов 1. На основании преобразования вероятностей в отношения шансов: , оно не может быть равно 1: . 0,00741=0,00736o=p1p0.00741=0.0073610.00736

Это становится еще более запутанным. Составные отношения шансов, которые представляют несколько ковариат, имеющих значения, отличные от базовой линии, используются для расчета прогнозируемого риска.

... составное ИЛИ из Таблицы 1 будет равно 1,28 X 1,58 X 2,99 X 2,46 X 1,45 X 1,60 = 34,5, и из графика на Рисунке 1 мы видим, что это OR соответствует прогнозируемой вероятности PCR или VL или обоих около 20%

Единственный способ получить значения, приведенные в документе в качестве примеров, - это умножить базовую вероятность на составные коэффициенты, например: .0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)

и так, что здесь происходит? Какова логика для присвоения отношения шансов 1 базовой вероятности, которая не равна 0,5? Приведенная выше формула обновления дает правильные вероятности для примеров в статье, но это не прямое умножение отношения шансов, которое я ожидаю. Что тогда?

mahonya
источник
8
У вас может возникнуть путаница в терминологии: - это соотношение шансов , а не шансов. Отношение шансов - это деление одного такого выражения на другое. п/(1-п)
whuber

Ответы:

35

Шансы - это способ выразить свои шансы. Коэффициенты шансов просто так: один коэффициент делится на другой. Это означает, что отношение шансов - это то, на что вы умножаете один коэффициент на другой. Давайте посмотрим, как они работают в этой общей ситуации.

Преобразование между шансами и вероятностью

Шансы бинарного ответа - это отношение вероятности того, что это происходит (закодировано с 1 ), записанное Pr ( Y = 1 ) , к вероятности того, что это не произойдет (закодировано с ), записанное :Y1Pr(Yзнак равно1)Pr ( Y = 0 )0Pr(Yзнак равно0)

шансы(Y)знак равноPr(Yзнак равно1)Pr(Yзнак равно0)знак равноPr(Yзнак равно1)1-Pr(Yзнак равно1),

Эквивалентное выражение справа показывает, что модели чтобы найти шансы. И наоборот, обратите внимание, что мы можем решитьPr(Yзнак равно1)

Pr(Yзнак равно1)знак равношансы(Y)1+шансы(Y)знак равно1-11+шансы(Y),

Логистическая регрессия

Логистическая регрессия моделирует логарифм шансов как линейную функцию объясняющих переменных. В целом, записывая эти переменные как x 1 , , x p и включая возможный постоянный член в линейную функцию, мы можем назвать коэффициенты (которые должны быть оценены по данным) как β 1 , , β p и β 0 . Формально это производит модельYИкс1,...,Икспβ1,...,βпβ0

журнал(шансы(Y))знак равноβ0+β1Икс1++βпИксп,

Сами шансы могут быть восстановлены путем удаления логарифма:

шансы(Y)знак равноехр(β0+β1Икс1++βпИксп),

Использование категориальных переменных

Категориальные переменные, такие как возрастная группа, пол, наличие глаукомы и т. Д. , Включаются посредством «фиктивного кодирования». Чтобы показать, что то, как кодируется переменная, не имеет значения, я приведу простой пример одной небольшой группы; его обобщение на несколько групп должно быть очевидным. В этом исследовании одной переменной является «размер зрачка» с тремя категориями: «Большой», «Средний» и «Маленький». (Исследование рассматривает их как чисто категориальные, по-видимому, не обращая внимания на их внутренний порядок.) Интуитивно, каждая категория имеет свои собственные шансы, скажем, для «Large», для «Medium» и для «Small» , Это означает, что при прочих равных условияхα M α SαLαMαS

шансы(Y)знак равноехр(αL+β0+β1Икс1++βпИксп)

для любого в категории «Большие»,

шансы(Y)знак равноехр(αM+β0+β1Икс1++βпИксп)

для любого в категории «Средний», и

шансы(Y)знак равноехр(αS+β0+β1Икс1++βпИксп)

для тех, кто в категории "Малый".

Создание идентифицируемых коэффициентов

Я выделил первые два коэффициента, чтобы выделить их, потому что я хочу, чтобы вы заметили, что они допускают простое изменение: мы можем выбрать любое число и, добавив его в и вычтя его из каждого из , и , мы не изменим прогнозируемые шансы. Это из-за очевидных эквивалентностей формыγβ0αLαMαS

αL+β0знак равно(αL-γ)+(γ+β0),

и т. д. Несмотря на то, что это не представляет проблем для модели - она ​​все же предсказывает точно такие же вещи - это показывает, что параметры сами по себе не интерпретируются. То, что остается неизменным, когда мы выполняем этот маневр сложения-вычитания, это различия между коэффициентами. Традиционно, чтобы решить проблему отсутствия идентифицируемости, люди (и по умолчанию программное обеспечение) выбирают одну из категорий в каждой переменной в качестве «базы» или «ссылки» и просто оговаривают, что ее коэффициент будет равен нулю. Это устраняет двусмысленность.

В документе сначала перечислены справочные категории; «Большой» в этом случае. Таким образом, вычитается из каждого из и и добавляется в для компенсации.αLαL,αM,αSβ0

Следовательно, логарифмические шансы для гипотетического индивида, попадающего во все базовые категории, равны плюс набор терминов, связанных со всеми другими "ковариатами" - переменными:β0

Odds(Base category)=exp(β0+β1X1++βpXp).

Нет термины , связанные с каким - либо категориальными переменными появляются здесь. (Я немного изменил обозначения на этом этапе: betas теперь являются коэффициентами только ковариат , в то время как полная модель включает alphas для различных категорий.)βiαj

Сравнение шансов

Давайте сравним шансы. Предположим, что гипотетический человек

пациент мужского пола в возрасте 80–89 лет с белой катарактой, без глазного дна и с небольшим зрачком, оперируемым специализированным регистратором, ...

С этим пациентом (давайте назовем его Чарли) связаны оценочные коэффициенты для каждой категории: для его возрастной группы, для мужчины и т. Д. Там , где его атрибут является базой для своей категории, коэффициент равен нулю по соглашению , как мы уже видели. Поскольку это линейная модель, коэффициенты добавляют. Таким образом, к базовым логарифмам, указанным выше, логарифмические шансы для этого пациента получаются путем добавления вα80-89αmale

α80-89+αmale+αno Glaucoma++αspecialist registrar.

Это как раз та сумма, на которую логарифмические шансы этого пациента отличаются от базового. Чтобы преобразовать из логарифмов, отмените логарифм и напомните, что это превращает сложение в умножение. Следовательно, базовые шансы должны быть умножены на

exp(α80-89)exp(αmale)exp(αno Glaucoma)exp(αspecialist registrar).

Это числа, указанные в таблице в разделе «Скорректированное ИЛИ» (скорректированное соотношение шансов). (Это называется «скорректированным», потому что в модель были включены ковариаты . Они не играют никакой роли ни в одном из наших вычислений, как вы увидите. Это называется «отношением», потому что именно какие базовые шансы нужно умножить, чтобы получить прогнозные шансы пациента: см. первый абзац этого поста.) В таблице по порядку они выглядят как , , и т. д. Согласно статье, их продукт отрабатывает до . Следовательноx1,,xpexp(α80-89)=1.58exp(αmale)=1.28exp(αno Glaucoma)=1.0034.5

Odds(Charlie)=34.5×Odds(Base).

1.00=exp(0)1

Восстановление результатов как вероятностей

0,736%знак равно0,00736

Коэффициенты (базовый)знак равно0,007361-0,00736знак равно0,00741.

Следовательно, шансы Чарли

Коэффициенты (Чарли)знак равно34,5×0,00741знак равно0,256.

Наконец, преобразование этого обратно в вероятности дает

Pr(Y(Чарли)знак равно1)знак равно1-11+0,256знак равно0,204.
Whuber
источник
3
whuber: оказаться перед моим компьютером после очень утомительного предыдущего дня и найти этот необыкновенный ответ от тебя просто великолепно. Вы мне очень помогли в очень сложной ситуации. Большое спасибо. (каким-то образом @ whuber не появится ...)
Махоня