Между этими двумя результатами почти нет различий (см. Paap & Franses 2000)
1
Когда-то у меня был обширный набор данных (биоанализа), в котором мы могли видеть, что пробит подходит немного лучше, но это не имело никакого значения для выводов.
kjetil b halvorsen
1
@Alyas Shah: и это объясняет, почему с моими данными пробит подходит (незначительно) лучше - потому что выше определенной дозы смертность составляет 100%, а ниже некоторого порога смертность составляет 0%, поэтому мы не видим медленного подхода из логита!
kjetil b halvorsen
3
Для реальных данных, в отличие от данных, сгенерированных либо из логита, либо из пробита, разумным подходом к этой проблеме будет проведение сравнения моделей. По моему опыту, данные редко склоняются к одной из двух моделей.
Сиань
2
Я слышал, что практическое использование логистического распределения происходит от его сходства с обычным CDF и его гораздо более простой интегральной функции распределения. Действительно, нормальный CDF содержит интеграл, который должен быть оценен - что, я думаю, было вычислительно дорого в те времена.
dv_bn
Ответы:
144
Они в основном отличаются по функции ссылки.
В Logit:
Pr(Y=1∣X)=[1+e−X′β]−1
В пробите:
Pr(Y=1∣X)=Φ(X′β) (кумулятивный нормальный pdf)
С другой стороны, у логистики есть немного более плоские хвосты. т.е. кривая пробита приближается к осям быстрее, чем кривая логита.
Логит имеет более простую интерпретацию, чем пробит. Логистическая регрессия может быть интерпретирована как логарифмические шансы (то есть те, кто курит> 25 сигарет в день, в 6 раз чаще умирают до 65 лет). Обычно люди начинают моделирование с логита. Вы можете использовать значение правдоподобия каждой модели, чтобы выбрать логит против пробита.
Спасибо за ваш ответ Vinux. Но я также хочу знать, когда использовать логит и пробит. Я знаю, что логит более популярен, чем пробит, и в большинстве случаев мы используем регрессию логита. Но в некоторых случаях модели Probit более полезны. Подскажите, пожалуйста, что это за дела. И как отличить эти случаи от обычных случаев.
бета
5
Когда вас интересует хвостовая часть кривой, иногда имеет значение выбор логита или пробита. Нет точного правила выбора пробита или логита. Вы можете выбрать модель, посмотрев на вероятность (или журнал вероятности) или AIC.
Vinux
12
Спасибо за совет! Можете ли вы уточнить, как выбрать между логит против пробит? В частности: (1) Как я могу сказать, когда вас интересует хвостовая часть кривой? (2) Как выбрать модель, глядя на вероятность, логарифмическую вероятность или AIC? Что конкретно я должен смотреть, и как это должно повлиять на мое решение о том, какую модель использовать?
DW
Ну, не могли бы вы привести примеры, в которых логит терпит неудачу по сравнению с пробитом? Я не могу найти те, которые вы имеете в виду.
Вок
1
@flies Здесь обозначает транспонирование матрицы X . X′X
Mathemanic
445
Стандартная линейная модель (например, простая модель регрессии) может рассматриваться как состоящая из двух «частей». Они называются структурным компонентом и случайным компонентом . Например:
Первые два слагаемых (то есть β 0 + β 1 X ) составляют структурный компонент, и ε
Y=β0+β1X+εwhere ε∼N(0,σ2)
β0+β1Xε (который указывает нормально распределенный член ошибки) является случайным компонентом. Когда переменная ответа обычно не распространяется (например, если ваша переменная ответа является двоичной), такой подход может быть недействительным. Обобщенная линейная модель(GLiM) был разработан для рассмотрения таких случаев, а логит и пробитные модели являются частными случаями GLiM, которые подходят для двоичных переменных (или переменных отклика нескольких категорий с некоторыми адаптациями к процессу). GLiM состоит из трех частей: структурного компонента , функции связи и распределения ответов . Например:
Здесь β 0 + β 1 X - снова структурный компонент, g ( ) - функция связи, и µ
g(μ)=β0+β1X
β0+ β1Иксграмм( )μявляется средним условным распределением отклика в данной точке в ковариатном пространстве. То, как мы думаем о структурном компоненте, здесь ничем не отличается от того, как мы думаем об этом в стандартных линейных моделях; на самом деле, это одно из больших преимуществ GLiM. Поскольку для многих распределений дисперсия является функцией среднего значения, имея подходящее условное среднее (и учитывая, что вы предусмотрели распределение ответов), вы автоматически учли аналог случайного компонента в линейной модели (NB: это может быть сложнее на практике).
Функция связывания является ключом к GLiM: поскольку распределение переменной отклика не является нормальным, это то, что позволяет нам соединить структурный компонент с откликом - он «связывает» их (отсюда и название). Это также ключ к вашему вопросу, так как logit и probit - это ссылки (как объяснил @vinux), а понимание функций ссылок позволит нам разумно выбирать, когда использовать какую из них. Хотя может быть много функций связи, которые могут быть приемлемыми, часто есть одна особенность. Не желая слишком углубляться в сорняки (это может стать очень техническим), прогнозируемое среднее значение не обязательно будет математически таким же, как параметр канонического местоположения распределения отклика . Преимущество этогоμ ; функция связи, которая приравнивает их, является канонической функцией связиβСуществует "( немецкий Родригес ). Каноническая ссылка для двоичных данных ответа (более конкретно, биномиальное распределение) является логитом. Однако, есть много функций, которые могут отобразить структурный компонент на интервал , и, таким образом, быть приемлемым, пробит также популярен, но есть и другие варианты, которые иногда используются (такие как дополнительный журнал регистрации, ln ( - ln ( 1 - μ )( 0 , 1 )пер( - ln( 1 - μ ) ), часто называемый «клоглог»). Таким образом, существует множество возможных функций связи, и выбор функции связи может быть очень важным. Выбор должен быть сделан на основе некоторой комбинации:
Знание распределения ответов,
Теоретические соображения и
Эмпирическое соответствие данным.
Охватив немного концептуального фона, необходимого для более ясного понимания этих идей (прости меня), я объясню, как эти соображения могут быть использованы для определения вашего выбора ссылки. (Позвольте мне отметить, что я думаю, что @ комментарий Дэвида точно отражает, почему разные ссылки выбраны на практике .) Для начала, если ваша переменная ответа является результатом испытания Бернулли (то есть или 1 ), ваше распределение ответов будет бином, и то, что вы на самом деле моделируете, - это вероятность того, что наблюдение будет 1 (то есть π ( Y = 1 ) ). В результате любая функция, которая отображает строку с действительным числом, (011π( Y= 1 ) , к интервалу ( 0 , 1 ) будет работать. ( - ∞ , + ∞ )( 0 , 1 )
С точки зрения вашей предметной теории, если вы думаете, что ваши ковариаты напрямую связаны с вероятностью успеха, то вы обычно выбираете логистическую регрессию, потому что это каноническая связь. Однако рассмотрим следующий пример: вас просят моделироватьhigh_Blood_Pressure как функцию некоторых ковариат. Само по себе артериальное давление обычно распределяется в популяции (я на самом деле не знаю, но это кажется разумным prima facie), тем не менее, клиницисты дихотомизировали его во время исследования (то есть, они регистрировали только «высокое АД» или «нормальное»). ). В этом случае пробит был бы предпочтительным априори по теоретическим причинам. Это то, что @Elvis подразумевает под "вашим двоичным результатом зависит от скрытой гауссовой переменной".симметричный , если вы считаете, что вероятность успеха медленно возрастает с нуля, но затем сужается быстрее по мере приближения к одному, вызывается клоглог и т. д.
Наконец, обратите внимание, что эмпирическое соответствие модели данным не поможет при выборе ссылки, если только формы рассматриваемых функций связи существенно не различаются (из которых логит и пробит не отличаются). Например, рассмотрим следующую симуляцию:
Даже когда мы знаем, что данные были сгенерированы с помощью пробитовой модели, и у нас есть 1000 точек данных, пробитная модель дает лучшее соответствие только в 70% случаев, и даже тогда, зачастую только на тривиальную величину. Рассмотрим последнюю итерацию:
Причина этого заключается просто в том, что функции logit и probit link дают очень похожие выходы, когда дают одинаковые входные данные.
Функции logit и probit практически идентичны, за исключением того, что logit находится немного дальше от границ, когда они «поворачивают за угол», как сказал @vinux. (Обратите внимание , что для получения логита и пробито выравнивать оптимально, логит в должен быть ≈ 1,7 раза соответствующего значения наклона для пробит. Кроме того, я мог бы сместил cloglog над немного так , чтобы они лежали на вершине больше друг друга, но я оставил это в стороне, чтобы сделать рисунок более читабельным.) Обратите внимание, что клоглог асимметричен, а остальные нет; он начинает отходить от 0 раньше, но медленнее и приближается к 1, а затем резко поворачивает. β1≈ 1,7
Еще пара вещей можно сказать о ссылочных функциях. Во-первых, рассмотрение тождественной функции ( ) в качестве функции связи позволяет нам понять стандартную линейную модель как частный случай обобщенной линейной модели (то есть распределение отклика нормальное, а связь - это тождественная функция). Также важно признать, что любое преобразование, которое создает ссылка, правильно применяется к параметру, управляющему распределением ответа (то есть μ ), а не к фактическим данным ответаграмм( η) = ημ, Наконец, поскольку на практике у нас никогда не было базового параметра для преобразования, при обсуждении этих моделей часто то, что считается фактической связью, остается неявным, и модель вместо этого представляет обратную функцию связи, применяемую к структурному компоненту. , То есть:
Например, логистическая регрессия обычно представляется:
π ( Y ) = exp ( β 0 + β 1 X )
μ = г- 1( β0+ β1Икс)
вместо:
ln(π(Y)
π( Y) = exp( β0+ β1Икс)1 + опыт( β0+ β1Икс)
пер( π( Y)1 - π( Y)) = β0+ β1Икс
Быстрый и ясный, но надежный обзор обобщенной линейной модели см. В главе 10 Fitzmaurice, Laird & Ware (2004) (на которую я опирался в некоторых частях этого ответа, хотя, поскольку это моя собственная адаптация этого - и другое - материальное, любые ошибки будут моими собственными). Чтобы узнать, как разместить эти модели в R, ознакомьтесь с документацией по функции ? Glm в базовом пакете.
Икс1β1ехр( β1)β1ZZ вероятностиZ
(+1 к @vinux и @Elvis. Здесь я попытался предоставить более широкую среду, в которой можно обдумать эти вещи, а затем использовать ее для решения вопроса выбора между logit и probit.)
Спасибо, парни. Я рад, что все сложилось хорошо; на самом деле это хороший пример того, как вы можете узнать что-то о CV, отвечая на вопросы, а также спрашивая и читая ответы других: я знал эту информацию заранее, но не настолько хорошо, чтобы просто написать ее в холодном виде. Так что я потратил некоторое время на просмотр моих старых текстов, чтобы выяснить, как организовать материал и четко изложить его, и в процессе я закрепил эти идеи для себя.
gung
6
@gung Спасибо за это объяснение, это одно из самых ясных описаний GLM в целом, с которыми я сталкивался.
Fmark
X
7
@landroni, вы можете задать новый вопрос для этого. Короче говоря, если ваш ответ является двоичным, условное распределение Y с учетом X = xi не может приблизиться к нормальности; это всегда будет биномиальным. Распределение необработанных остатков также никогда не приблизится к норме. Они всегда будут пи & (1-пи). Распределение выборки условного среднего Y с учетом X = xi (т. Е. Pi) будет, однако, приближаться к нормальному.
gung
2
Я разделяю некоторую озабоченность Ландрони: в конце концов, нормально распределенные результаты, не нормально распределенные остатки, и не нормально распределенные результаты, могут иметь нормально распределенные остатки. Проблема с результатом , кажется, меньше о его распространении в себе , чем ее диапазон.
Алексис
47
В дополнение к ответу Vinux, который уже говорит самое важное:
β
Z= X'β+ ϵε ~ N( 0 , 1 )Y= 1Z> 0
1Z0= X'β0+ ϵ0сε ~ N( 0 , σ2)Z0Z= 1σ( Z0- в )Z0YZ0 превышает некоторый «патологический порог».
Стоит также отметить, что использование пробитных и логитных моделей сильно зависит от дисциплинарной традиции. Например, экономисты, кажется, гораздо более привыкли к анализу пробитов, в то время как исследователи психометрии полагаются в основном на логит-модели.
Дэвид
Какая модель стоит за подбрасыванием монеты?
Скан
32
По поводу вашего заявления
Мне больше интересно знать, когда использовать логистическую регрессию, а когда использовать пробит
Здесь уже есть много ответов, которые поднимают вопросы, которые следует учитывать при выборе между этими двумя, но есть одно важное соображение, которое еще не было сформулировано: когда вы заинтересованы в рассмотрении внутрикластерных ассоциаций в двоичных данных с использованием логистики смешанных эффектов или Для пробных моделей существует теоретическое обоснование предпочтения пробитной модели. Это, конечно, предполагает, что нет априорной причины для предпочтения логистической модели (например, если вы выполняете симуляцию и знаете, что это истинная модель).
яJ
Y⋆я ж= μ + ηJ+εя ж
ηJ~ N( 0 , σ2)Jεя ж
Yя жзнак равно ⎧⎩⎨⎪⎪10если у⋆я ж≥ 0если у⋆я ж< 0
εя ж
Пирсон (1900) показал, что, если многофакторные нормальные данные были сгенерированы и порогово определены, чтобы быть категоричными, корреляции между базовыми переменными все еще были статистически идентифицированы - эти корреляции называются полихорическими корреляциями и, в конкретном случае для двоичного случая, они называются тетрахорическими корреляциями . Это означает, что в пробитной модели коэффициент внутриклассовой корреляции основных нормально распределенных переменных:
I C C = σ^2σ^2+ 1
идентифицируется, что означает, что в пробитном случае вы можете полностью охарактеризовать совместное распределение лежащих в основе скрытых переменных .
В логистической модели случайная дисперсия эффекта в логистической модели все еще идентифицируется, но она не полностью характеризует структуру зависимости (и, следовательно, совместного распределения), поскольку она представляет собой смесь между нормальной и логистической случайной величиной , которая не имеет свойство в том, что оно полностью определяется его средним значением и ковариационной матрицей. Принимая во внимание это странное параметрическое допущение для скрытых скрытых переменных, интерпретация случайных эффектов в логистической модели становится менее понятной для интерпретации в целом.
Существуют и другие ситуации, в которых вы бы предпочли пробит. Эконометрические модели отбора (то есть Хекмана) доказаны только с использованием пробитной модели. Я менее уверен в этом, но я также полагаю, что некоторые модели SEM, где двоичные переменные являются эндогенными, также используют пробитную модель из-за предположения о многомерной нормальности, необходимой для оценки максимального правдоподобия.
Энди W
1
@ AndyW, вы правы насчет бинарных СЭМ - и это тесно связано с тем, что я здесь сделал - оценка (и последующая интерпретация) подтверждается тем фактом, что основные корреляции определены и полностью характеризуют совместное распределение ,
Макро
29
Важным моментом, который не был рассмотрен в предыдущих (превосходных) ответах, является фактический шаг оценки. В полиномиальных логит-моделях имеется PDF-файл, который легко интегрировать, что приводит к замкнутому выражению вероятности выбора. Функция плотности нормального распределения не так легко интегрируется, поэтому пробные модели обычно требуют моделирования. Таким образом, хотя обе модели являются абстракциями реальных ситуаций, logit обычно быстрее использовать для более крупных задач (несколько альтернатив или большие наборы данных).
Вот почему мультиномиальные логит-функции классически используются для оценки пространственных задач дискретного выбора, даже если фактическое явление лучше моделируется пробитом.
Fmark
Как бы вы включили пространственные элементы в модель DC? Я очень заинтересован.
gregmacfarlane
2
Но в ситуации выбора пробит более гибок, так что Мур используется сегодня! Полиномиальный логит подразумевает предположение о несущественности нерелевантных альтернатив, что не всегда является эмпирически обоснованным.
kjetil b halvorsen
1
Вы правы в том, что IIA не всегда оправдан, и вы также правы в том, что с помощью современных оценок пробитные модели можно оценить достаточно быстро. Но модели GEV решают проблему IIA и могут лучше представлять структуру выбора в определенных ситуациях. Я также не уверен, что пробит "более используется сегодня"; в моей области (моделирование транспортировки) пробные модели остаются новинкой.
gregmacfarlane
13
То, что я собираюсь сказать, никоим образом не опровергает сказанного до сих пор. Я просто хочу отметить, что пробитные модели не страдают от предположений IIA (Независимость от несоответствующих альтернатив), и модель логита делает.
Использовать пример из превосходной книги Поезда. Если у меня есть логит, который предсказывает, собираюсь ли я ездить на синем автобусе или ездить на своей машине, добавление красного автобуса будет пропорционально вытягивать и из машины, и из синего автобуса. Но, используя пробитную модель, вы можете избежать этой проблемы. В сущности, вместо того, чтобы рисовать из обоих пропорционально, вы можете рисовать больше из синей шины, поскольку они являются более близкими заменителями.
Жертва, которую вы приносите, заключается в том, что нет решений в замкнутой форме, как указано выше. Пробит имеет тенденцию быть моим переходом, когда я беспокоюсь о проблемах МИС. Это не значит, что нет способов обойти IIA в рамках logit (дистрибутивы GEV). Но я всегда рассматривал такие модели как неуклюжий способ решения проблемы. С вычислительными скоростями, которые вы можете получить, я бы сказал, с пробитом.
Не могли бы вы объяснить «Независимость несоответствующих альтернатив», пожалуйста?
Скан
3
Обратите внимание, что все еще возможно оценить полиномиальную пробитную модель, которая реализует вариант предположения IIA (как в команде mprobit в Stata). Чтобы покончить с IIA в полиномиальном пробите, вы должны смоделировать матрицу дисперсии-ковариации ошибок скрытой переменной для каждой альтернативы в переменной отклика.
Кэндзи
8
Одним из наиболее известных различий между логитом и пробитом является (теоретическое) распределение остатков регрессии: нормальное для пробита, логистическое для логита (см. Koop G. Введение в эконометрику Chichester, Wiley: 2008: 280).
но как мы узнаем, должны ли наши данные иметь теоретическое нормальное или логистическое остаточное распределение? Например, когда я подбрасываю монету.
Скан
8
Я предлагаю практический ответ на вопрос, который фокусируется только на том, «когда использовать логистическую регрессию, а когда использовать пробит», не вдаваясь в статистические детали, а скорее на решения, основанные на статистике. Ответ зависит от двух основных вещей: есть ли у вас дисциплинарные предпочтения, и вас интересует только то, какая модель лучше соответствует вашим данным?
Основная разница
Как логит, так и пробитные модели предоставляют статистические модели, которые дают вероятность того, что переменная зависимого отклика будет 0 или 1. Они очень похожи и часто дают практически идентичные результаты, но поскольку они используют разные функции для вычисления вероятностей, их результаты иногда немного разные.
Дисциплинарные предпочтения
Некоторые академические дисциплины обычно предпочитают одну или другую. Если вы собираетесь публиковать или представлять свои результаты в академической дисциплине с особым традиционным предпочтением, то пусть это диктует ваш выбор, чтобы ваши выводы были более приемлемыми. Например (от Methods Consultants ),
Логит - также известный как логистическая регрессия - более популярен в таких областях здравоохранения, как эпидемиология, отчасти потому, что коэффициенты можно интерпретировать с точки зрения отношения шансов. Пробитные модели могут быть обобщены для учета непостоянных дисперсий ошибок в более сложных эконометрических условиях (известных как гетероскедастические пробитные модели) и, следовательно, используются в некоторых контекстах экономистами и политологами.
Дело в том, что различия в результатах настолько незначительны, что способность вашей общей аудитории понять ваши результаты перевешивает незначительные различия между двумя подходами.
Если все, о чем вы заботитесь, лучше подойдет ...
Если ваше исследование относится к дисциплине, которая не предпочитает одно или другое, то мое изучение этого вопроса (что лучше, логит или пробит) привело меня к выводу, что в целом лучше использовать пробит , поскольку он почти всегда будет дать статистическое соответствие данным, которые равны или превосходят данные модели логита. Наиболее заметным исключением, когда модели логита лучше подходят, является случай «крайних независимых переменных» (которые я объясню ниже).
Мой вывод основан почти полностью (после поиска многочисленных других источников) на Hahn, ED & Soyer, R., 2005. Модели Probit и Logit: Различия в многомерной области. Доступно по адресу: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Вот мое краткое изложение выводов практического решения из этой статьи относительно того, обеспечивают ли модели многомерного логита и пробита лучшее соответствие данным (эти выводы также применимы к одномерным моделям, но они моделируют эффекты только для двух независимых переменных):
В большинстве сценариев модели логита и пробита в равной степени соответствуют данным, за исключением следующих двух исключений.
Logit определенно лучше в случае «крайних независимых переменных» . Это независимые переменные, где одно особенно большое или маленькое значение в подавляющем большинстве случаев будет определять, является ли зависимая переменная 0 или 1, перекрывая влияние большинства других переменных. Хан и Сойер формально определяют это так (с. 4):
Чрезвычайно независимый уровень переменной включает в себя три события. Во-первых, экстремальный уровень независимой переменной возникает в верхнем или нижнем экстремуме независимой переменной. Например, скажем, независимая переменная x должна принимать значения 1, 2 и 3.2. Уровень экстремальной независимой переменной будет включать значения при х = 3,2 (или х = 1). Во-вторых, значительная часть (например, 60%) от общего n должна быть на этом уровне. В-третьих, вероятность успеха на этом уровне сама по себе должна быть экстремальной (например, более 99%).
Пробит лучше в случае «моделей случайных эффектов» с умеренным или большим размером выборки (он равен logit для небольших размеров выборки). Для моделей с фиксированными эффектами одинаково хороши пробит и логит. Я не очень понимаю, что Хан и Сойер подразумевают под «моделями случайных эффектов» в своей статье. Хотя предлагается много определений ( как в этом вопросе об обмене стека ), определение этого термина на самом деле неоднозначно и непоследовательно . Но так как logit никогда не превосходит пробит в этом отношении, вопрос становится спорным, если просто выбрать пробит.
Основываясь на анализе Хана и Сойера, я пришел к выводу, что всегда следует использовать пробитные модели, за исключением случая экстремальных независимых переменных, в этом случае следует выбрать logit . Экстремально независимые переменные не так уж часто встречаются, и их должно быть довольно легко распознать. При использовании этого практического правила не имеет значения, является ли модель моделью случайных эффектов или нет. В тех случаях, когда модель представляет собой модель случайных эффектов (где предпочтительным является пробит), но существуют экстремальные независимые переменные (где предпочтительным является логит), хотя Хан и Сойер не комментировали это, мое впечатление от их статьи состоит в том, что эффект экстремальные независимые переменные являются более доминирующими, и поэтому логит будет предпочтительнее.
Дисперсия не важна, поскольку она автоматически компенсируется умножением β на константу. Среднее значение также неважно, если вы используете перехват.
Е= βИкс- SИкс- S добавленным как в линейной регрессии, и мы получаем результат 0/1, говоря:
Е> 0Y= 1
Е< 0Y= 0
Различия между логистикой и пробитом заключаются в разнице между логистическим и нормальным распределением. Там не так много. После настройки они выглядят так:
У логистики более тяжелый хвост. Это может немного повлиять на то, как подходят события с малой (<1%) или высокой (> 99%) вероятностью. Практически, в большинстве ситуаций разница даже не заметна: логит и пробит предсказывают одно и то же. Видеть Http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article
С точки зрения расчета: логистика проще, поскольку совокупное распределение логистического распределения имеет закрытую формулу в отличие от нормального распределения. Но нормальные распределения обладают хорошими свойствами, когда вы переходите в многомерность, поэтому пробит часто предпочтительнее в сложных случаях.
Ответы:
Они в основном отличаются по функции ссылки.
В Logit:Pr(Y=1∣X)=[1+e−X′β]−1
В пробите:Pr(Y=1∣X)=Φ(X′β) (кумулятивный нормальный pdf)
С другой стороны, у логистики есть немного более плоские хвосты. т.е. кривая пробита приближается к осям быстрее, чем кривая логита.
Логит имеет более простую интерпретацию, чем пробит. Логистическая регрессия может быть интерпретирована как логарифмические шансы (то есть те, кто курит> 25 сигарет в день, в 6 раз чаще умирают до 65 лет). Обычно люди начинают моделирование с логита. Вы можете использовать значение правдоподобия каждой модели, чтобы выбрать логит против пробита.
источник
Стандартная линейная модель (например, простая модель регрессии) может рассматриваться как состоящая из двух «частей». Они называются структурным компонентом и случайным компонентом . Например:
Первые два слагаемых (то есть β 0 + β 1 X ) составляют структурный компонент, и ε
Здесь β 0 + β 1 X - снова структурный компонент, g ( ) - функция связи, и µ
Функция связывания является ключом к GLiM: поскольку распределение переменной отклика не является нормальным, это то, что позволяет нам соединить структурный компонент с откликом - он «связывает» их (отсюда и название). Это также ключ к вашему вопросу, так как logit и probit - это ссылки (как объяснил @vinux), а понимание функций ссылок позволит нам разумно выбирать, когда использовать какую из них. Хотя может быть много функций связи, которые могут быть приемлемыми, часто есть одна особенность. Не желая слишком углубляться в сорняки (это может стать очень техническим), прогнозируемое среднее значение не обязательно будет математически таким же, как параметр канонического местоположения распределения отклика . Преимущество этогоμ ; функция связи, которая приравнивает их, является канонической функцией связиβ Существует "( немецкий Родригес ). Каноническая ссылка для двоичных данных ответа (более конкретно, биномиальное распределение) является логитом. Однако, есть много функций, которые могут отобразить структурный компонент на интервал , и, таким образом, быть приемлемым, пробит также популярен, но есть и другие варианты, которые иногда используются (такие как дополнительный журнал регистрации, ln ( - ln ( 1 - μ )( 0 , 1 ) пер( - ln( 1 - μ ) ) , часто называемый «клоглог»). Таким образом, существует множество возможных функций связи, и выбор функции связи может быть очень важным. Выбор должен быть сделан на основе некоторой комбинации:
Охватив немного концептуального фона, необходимого для более ясного понимания этих идей (прости меня), я объясню, как эти соображения могут быть использованы для определения вашего выбора ссылки. (Позвольте мне отметить, что я думаю, что @ комментарий Дэвида точно отражает, почему разные ссылки выбраны на практике .) Для начала, если ваша переменная ответа является результатом испытания Бернулли (то есть или 1 ), ваше распределение ответов будет бином, и то, что вы на самом деле моделируете, - это вероятность того, что наблюдение будет 1 (то есть π ( Y = 1 ) ). В результате любая функция, которая отображает строку с действительным числом, (0 1 1 π( Y= 1 ) , к интервалу ( 0 , 1 ) будет работать. ( - ∞ , + ∞ ) ( 0 , 1 )
С точки зрения вашей предметной теории, если вы думаете, что ваши ковариаты напрямую связаны с вероятностью успеха, то вы обычно выбираете логистическую регрессию, потому что это каноническая связь. Однако рассмотрим следующий пример: вас просят моделировать
high_Blood_Pressure
как функцию некоторых ковариат. Само по себе артериальное давление обычно распределяется в популяции (я на самом деле не знаю, но это кажется разумным prima facie), тем не менее, клиницисты дихотомизировали его во время исследования (то есть, они регистрировали только «высокое АД» или «нормальное»). ). В этом случае пробит был бы предпочтительным априори по теоретическим причинам. Это то, что @Elvis подразумевает под "вашим двоичным результатом зависит от скрытой гауссовой переменной".симметричный , если вы считаете, что вероятность успеха медленно возрастает с нуля, но затем сужается быстрее по мере приближения к одному, вызывается клоглог и т. д.Наконец, обратите внимание, что эмпирическое соответствие модели данным не поможет при выборе ссылки, если только формы рассматриваемых функций связи существенно не различаются (из которых логит и пробит не отличаются). Например, рассмотрим следующую симуляцию:
Даже когда мы знаем, что данные были сгенерированы с помощью пробитовой модели, и у нас есть 1000 точек данных, пробитная модель дает лучшее соответствие только в 70% случаев, и даже тогда, зачастую только на тривиальную величину. Рассмотрим последнюю итерацию:
Причина этого заключается просто в том, что функции logit и probit link дают очень похожие выходы, когда дают одинаковые входные данные.
Функции logit и probit практически идентичны, за исключением того, что logit находится немного дальше от границ, когда они «поворачивают за угол», как сказал @vinux. (Обратите внимание , что для получения логита и пробито выравнивать оптимально, логит в должен быть ≈ 1,7 раза соответствующего значения наклона для пробит. Кроме того, я мог бы сместил cloglog над немного так , чтобы они лежали на вершине больше друг друга, но я оставил это в стороне, чтобы сделать рисунок более читабельным.) Обратите внимание, что клоглог асимметричен, а остальные нет; он начинает отходить от 0 раньше, но медленнее и приближается к 1, а затем резко поворачивает.β1 ≈ 1,7
Еще пара вещей можно сказать о ссылочных функциях. Во-первых, рассмотрение тождественной функции ( ) в качестве функции связи позволяет нам понять стандартную линейную модель как частный случай обобщенной линейной модели (то есть распределение отклика нормальное, а связь - это тождественная функция). Также важно признать, что любое преобразование, которое создает ссылка, правильно применяется к параметру, управляющему распределением ответа (то есть μ ), а не к фактическим данным ответаграмм( η) = η μ , Наконец, поскольку на практике у нас никогда не было базового параметра для преобразования, при обсуждении этих моделей часто то, что считается фактической связью, остается неявным, и модель вместо этого представляет обратную функцию связи, применяемую к структурному компоненту. , То есть:
Например, логистическая регрессия обычно представляется: π ( Y ) = exp ( β 0 + β 1 X )
Быстрый и ясный, но надежный обзор обобщенной линейной модели см. В главе 10 Fitzmaurice, Laird & Ware (2004) (на которую я опирался в некоторых частях этого ответа, хотя, поскольку это моя собственная адаптация этого - и другое - материальное, любые ошибки будут моими собственными). Чтобы узнать, как разместить эти модели в R, ознакомьтесь с документацией по функции ? Glm в базовом пакете.
(+1 к @vinux и @Elvis. Здесь я попытался предоставить более широкую среду, в которой можно обдумать эти вещи, а затем использовать ее для решения вопроса выбора между logit и probit.)
источник
В дополнение к ответу Vinux, который уже говорит самое важное:
источник
По поводу вашего заявления
Мне больше интересно знать, когда использовать логистическую регрессию, а когда использовать пробит
Здесь уже есть много ответов, которые поднимают вопросы, которые следует учитывать при выборе между этими двумя, но есть одно важное соображение, которое еще не было сформулировано: когда вы заинтересованы в рассмотрении внутрикластерных ассоциаций в двоичных данных с использованием логистики смешанных эффектов или Для пробных моделей существует теоретическое обоснование предпочтения пробитной модели. Это, конечно, предполагает, что нет априорной причины для предпочтения логистической модели (например, если вы выполняете симуляцию и знаете, что это истинная модель).
Пирсон (1900) показал, что, если многофакторные нормальные данные были сгенерированы и порогово определены, чтобы быть категоричными, корреляции между базовыми переменными все еще были статистически идентифицированы - эти корреляции называются полихорическими корреляциями и, в конкретном случае для двоичного случая, они называются тетрахорическими корреляциями . Это означает, что в пробитной модели коэффициент внутриклассовой корреляции основных нормально распределенных переменных:
идентифицируется, что означает, что в пробитном случае вы можете полностью охарактеризовать совместное распределение лежащих в основе скрытых переменных .
В логистической модели случайная дисперсия эффекта в логистической модели все еще идентифицируется, но она не полностью характеризует структуру зависимости (и, следовательно, совместного распределения), поскольку она представляет собой смесь между нормальной и логистической случайной величиной , которая не имеет свойство в том, что оно полностью определяется его средним значением и ковариационной матрицей. Принимая во внимание это странное параметрическое допущение для скрытых скрытых переменных, интерпретация случайных эффектов в логистической модели становится менее понятной для интерпретации в целом.
источник
Важным моментом, который не был рассмотрен в предыдущих (превосходных) ответах, является фактический шаг оценки. В полиномиальных логит-моделях имеется PDF-файл, который легко интегрировать, что приводит к замкнутому выражению вероятности выбора. Функция плотности нормального распределения не так легко интегрируется, поэтому пробные модели обычно требуют моделирования. Таким образом, хотя обе модели являются абстракциями реальных ситуаций, logit обычно быстрее использовать для более крупных задач (несколько альтернатив или большие наборы данных).
Для пробных моделей такой удобной формы не существует.
источник
То, что я собираюсь сказать, никоим образом не опровергает сказанного до сих пор. Я просто хочу отметить, что пробитные модели не страдают от предположений IIA (Независимость от несоответствующих альтернатив), и модель логита делает.
Использовать пример из превосходной книги Поезда. Если у меня есть логит, который предсказывает, собираюсь ли я ездить на синем автобусе или ездить на своей машине, добавление красного автобуса будет пропорционально вытягивать и из машины, и из синего автобуса. Но, используя пробитную модель, вы можете избежать этой проблемы. В сущности, вместо того, чтобы рисовать из обоих пропорционально, вы можете рисовать больше из синей шины, поскольку они являются более близкими заменителями.
Жертва, которую вы приносите, заключается в том, что нет решений в замкнутой форме, как указано выше. Пробит имеет тенденцию быть моим переходом, когда я беспокоюсь о проблемах МИС. Это не значит, что нет способов обойти IIA в рамках logit (дистрибутивы GEV). Но я всегда рассматривал такие модели как неуклюжий способ решения проблемы. С вычислительными скоростями, которые вы можете получить, я бы сказал, с пробитом.
источник
Одним из наиболее известных различий между логитом и пробитом является (теоретическое) распределение остатков регрессии: нормальное для пробита, логистическое для логита (см. Koop G. Введение в эконометрику Chichester, Wiley: 2008: 280).
источник
Я предлагаю практический ответ на вопрос, который фокусируется только на том, «когда использовать логистическую регрессию, а когда использовать пробит», не вдаваясь в статистические детали, а скорее на решения, основанные на статистике. Ответ зависит от двух основных вещей: есть ли у вас дисциплинарные предпочтения, и вас интересует только то, какая модель лучше соответствует вашим данным?
Основная разница
Как логит, так и пробитные модели предоставляют статистические модели, которые дают вероятность того, что переменная зависимого отклика будет 0 или 1. Они очень похожи и часто дают практически идентичные результаты, но поскольку они используют разные функции для вычисления вероятностей, их результаты иногда немного разные.
Дисциплинарные предпочтения
Некоторые академические дисциплины обычно предпочитают одну или другую. Если вы собираетесь публиковать или представлять свои результаты в академической дисциплине с особым традиционным предпочтением, то пусть это диктует ваш выбор, чтобы ваши выводы были более приемлемыми. Например (от Methods Consultants ),
Дело в том, что различия в результатах настолько незначительны, что способность вашей общей аудитории понять ваши результаты перевешивает незначительные различия между двумя подходами.
Если все, о чем вы заботитесь, лучше подойдет ...
Если ваше исследование относится к дисциплине, которая не предпочитает одно или другое, то мое изучение этого вопроса (что лучше, логит или пробит) привело меня к выводу, что в целом лучше использовать пробит , поскольку он почти всегда будет дать статистическое соответствие данным, которые равны или превосходят данные модели логита. Наиболее заметным исключением, когда модели логита лучше подходят, является случай «крайних независимых переменных» (которые я объясню ниже).
Мой вывод основан почти полностью (после поиска многочисленных других источников) на Hahn, ED & Soyer, R., 2005. Модели Probit и Logit: Различия в многомерной области. Доступно по адресу: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Вот мое краткое изложение выводов практического решения из этой статьи относительно того, обеспечивают ли модели многомерного логита и пробита лучшее соответствие данным (эти выводы также применимы к одномерным моделям, но они моделируют эффекты только для двух независимых переменных):
В большинстве сценариев модели логита и пробита в равной степени соответствуют данным, за исключением следующих двух исключений.
Logit определенно лучше в случае «крайних независимых переменных» . Это независимые переменные, где одно особенно большое или маленькое значение в подавляющем большинстве случаев будет определять, является ли зависимая переменная 0 или 1, перекрывая влияние большинства других переменных. Хан и Сойер формально определяют это так (с. 4):
Основываясь на анализе Хана и Сойера, я пришел к выводу, что всегда следует использовать пробитные модели, за исключением случая экстремальных независимых переменных, в этом случае следует выбрать logit . Экстремально независимые переменные не так уж часто встречаются, и их должно быть довольно легко распознать. При использовании этого практического правила не имеет значения, является ли модель моделью случайных эффектов или нет. В тех случаях, когда модель представляет собой модель случайных эффектов (где предпочтительным является пробит), но существуют экстремальные независимые переменные (где предпочтительным является логит), хотя Хан и Сойер не комментировали это, мое впечатление от их статьи состоит в том, что эффект экстремальные независимые переменные являются более доминирующими, и поэтому логит будет предпочтительнее.
источник
Ниже я объясняю оценщик, который вкладывает пробит и логит как особые случаи и где можно проверить, что более уместно.
И пробит, и логит могут быть вложены в модель скрытой переменной,
где наблюдаемый компонент
В Klein & Spady, критериальная функция вместо
источник
Они очень похожи.
Или эквивалентно:
Дисперсия не важна, поскольку она автоматически компенсируется умножениемβ на константу. Среднее значение также неважно, если вы используете перехват.
Различия между логистикой и пробитом заключаются в разнице между логистическим и нормальным распределением. Там не так много. После настройки они выглядят так:
У логистики более тяжелый хвост. Это может немного повлиять на то, как подходят события с малой (<1%) или высокой (> 99%) вероятностью. Практически, в большинстве ситуаций разница даже не заметна: логит и пробит предсказывают одно и то же. Видеть Http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article
«Философски», логистическая регрессия может быть оправдана, будучи эквивалентной принципу максимальной энтропии: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -энтропии-модели /
С точки зрения расчета: логистика проще, поскольку совокупное распределение логистического распределения имеет закрытую формулу в отличие от нормального распределения. Но нормальные распределения обладают хорошими свойствами, когда вы переходите в многомерность, поэтому пробит часто предпочтительнее в сложных случаях.
источник