Мне было трудно понять, как использовать логистическую регрессию в статье. Доступный здесь документ использует логистическую регрессию для прогнозирования вероятности осложнений во время операции по удалению катаракты.
Что меня смущает, так это то, что в статье представлена модель, которая присваивает отношение шансов 1 к базовой линии, описываемое следующим образом:
Пациент, профиль риска которого был в контрольной группе по всем показателям риска (т.е. скорректированный OR = 1,00 для всех в таблице 1), может рассматриваться как имеющий «базовый профиль риска», а модель логистической регрессии указывает «базовую прогнозируемую вероятность» для ПЦР или ВЛ или обоих = 0,736%.
Таким образом, вероятность 0,00736 представлена с отношением шансов 1. На основании преобразования вероятностей в отношения шансов: , оно не может быть равно 1: . 0,00741=0,00736
Это становится еще более запутанным. Составные отношения шансов, которые представляют несколько ковариат, имеющих значения, отличные от базовой линии, используются для расчета прогнозируемого риска.
... составное ИЛИ из Таблицы 1 будет равно 1,28 X 1,58 X 2,99 X 2,46 X 1,45 X 1,60 = 34,5, и из графика на Рисунке 1 мы видим, что это OR соответствует прогнозируемой вероятности PCR или VL или обоих около 20%
Единственный способ получить значения, приведенные в документе в качестве примеров, - это умножить базовую вероятность на составные коэффициенты, например: .
и так, что здесь происходит? Какова логика для присвоения отношения шансов 1 базовой вероятности, которая не равна 0,5? Приведенная выше формула обновления дает правильные вероятности для примеров в статье, но это не прямое умножение отношения шансов, которое я ожидаю. Что тогда?
источник
Ответы:
Шансы - это способ выразить свои шансы. Коэффициенты шансов просто так: один коэффициент делится на другой. Это означает, что отношение шансов - это то, на что вы умножаете один коэффициент на другой. Давайте посмотрим, как они работают в этой общей ситуации.
Преобразование между шансами и вероятностью
Шансы бинарного ответа - это отношение вероятности того, что это происходит (закодировано с 1 ), записанное Pr ( Y = 1 ) , к вероятности того, что это не произойдет (закодировано с ), записанное :Y 1 Pr ( Y= 1 ) Pr ( Y = 0 )0 Pr ( Y= 0 )
Эквивалентное выражение справа показывает, что модели чтобы найти шансы. И наоборот, обратите внимание, что мы можем решитьPr ( Y= 1 )
Логистическая регрессия
Логистическая регрессия моделирует логарифм шансов как линейную функцию объясняющих переменных. В целом, записывая эти переменные как x 1 , … , x p и включая возможный постоянный член в линейную функцию, мы можем назвать коэффициенты (которые должны быть оценены по данным) как β 1 , … , β p и β 0 . Формально это производит модельY Икс1, … , Хп β1, … , Βп β0
Сами шансы могут быть восстановлены путем удаления логарифма:
Использование категориальных переменных
Категориальные переменные, такие как возрастная группа, пол, наличие глаукомы и т. Д. , Включаются посредством «фиктивного кодирования». Чтобы показать, что то, как кодируется переменная, не имеет значения, я приведу простой пример одной небольшой группы; его обобщение на несколько групп должно быть очевидным. В этом исследовании одной переменной является «размер зрачка» с тремя категориями: «Большой», «Средний» и «Маленький». (Исследование рассматривает их как чисто категориальные, по-видимому, не обращая внимания на их внутренний порядок.) Интуитивно, каждая категория имеет свои собственные шансы, скажем, для «Large», для «Medium» и для «Small» , Это означает, что при прочих равных условияхα M α SαL αM αS
для любого в категории «Большие»,
для любого в категории «Средний», и
для тех, кто в категории "Малый".
Создание идентифицируемых коэффициентов
Я выделил первые два коэффициента, чтобы выделить их, потому что я хочу, чтобы вы заметили, что они допускают простое изменение: мы можем выбрать любое число и, добавив его в и вычтя его из каждого из , и , мы не изменим прогнозируемые шансы. Это из-за очевидных эквивалентностей формыγ β0 αL αM αS
и т. д. Несмотря на то, что это не представляет проблем для модели - она все же предсказывает точно такие же вещи - это показывает, что параметры сами по себе не интерпретируются. То, что остается неизменным, когда мы выполняем этот маневр сложения-вычитания, это различия между коэффициентами. Традиционно, чтобы решить проблему отсутствия идентифицируемости, люди (и по умолчанию программное обеспечение) выбирают одну из категорий в каждой переменной в качестве «базы» или «ссылки» и просто оговаривают, что ее коэффициент будет равен нулю. Это устраняет двусмысленность.
В документе сначала перечислены справочные категории; «Большой» в этом случае. Таким образом, вычитается из каждого из и и добавляется в для компенсации.αL αL, αM, αS β0
Следовательно, логарифмические шансы для гипотетического индивида, попадающего во все базовые категории, равны плюс набор терминов, связанных со всеми другими "ковариатами" - переменными:β0
Нет термины , связанные с каким - либо категориальными переменными появляются здесь. (Я немного изменил обозначения на этом этапе: betas теперь являются коэффициентами только ковариат , в то время как полная модель включает alphas для различных категорий.)βi αj
Сравнение шансов
Давайте сравним шансы. Предположим, что гипотетический человек
С этим пациентом (давайте назовем его Чарли) связаны оценочные коэффициенты для каждой категории: для его возрастной группы, для мужчины и т. Д. Там , где его атрибут является базой для своей категории, коэффициент равен нулю по соглашению , как мы уже видели. Поскольку это линейная модель, коэффициенты добавляют. Таким образом, к базовым логарифмам, указанным выше, логарифмические шансы для этого пациента получаются путем добавления вα80-89 αmale
Это как раз та сумма, на которую логарифмические шансы этого пациента отличаются от базового. Чтобы преобразовать из логарифмов, отмените логарифм и напомните, что это превращает сложение в умножение. Следовательно, базовые шансы должны быть умножены на
Это числа, указанные в таблице в разделе «Скорректированное ИЛИ» (скорректированное соотношение шансов). (Это называется «скорректированным», потому что в модель были включены ковариаты . Они не играют никакой роли ни в одном из наших вычислений, как вы увидите. Это называется «отношением», потому что именно какие базовые шансы нужно умножить, чтобы получить прогнозные шансы пациента: см. первый абзац этого поста.) В таблице по порядку они выглядят как , , и т. д. Согласно статье, их продукт отрабатывает до . Следовательноx1,…,xp exp(α80-89)=1.58 exp(αmale)=1.28 exp(αno Glaucoma)=1.00 34.5
Восстановление результатов как вероятностей
Следовательно, шансы Чарли
Наконец, преобразование этого обратно в вероятности дает
источник