Есть ли предположение о логистической регрессии?

18

Есть ли предположение о переменной ответа логистической регрессии?

Например, предположим, у нас есть точек данных. Похоже, что ответ исходит из дистрибутива Бернулли с . Следовательно, мы должны иметь распределений Бернулли с другим параметром .Y i p i = логит ( β 0 + β 1 x i ) 1000 р1000Yipi=logit(β0+β1xi)1000p

Таким образом, они «независимы», но не «идентичны».

Я прав?


PS. Я изучил логистическую регрессию из литературы по «машинному обучению», где мы оптимизируем целевую функцию и проверяем, хороша ли она при тестировании данных, не говоря слишком много о допущениях.

Мой вопрос начался с этого поста « Понять функцию связи в обобщенной линейной модели», где я пытаюсь узнать больше о статистических предположениях.

Haitao Du
источник
1
«Предположение» - это то, что может иметь теорема. Линейная регрессия имеет «предположение» об ошибках iid (это не , «предполагаемые» как iid в линейной регрессии! Это ошибки) в том смысле, что теорема Гаусса-Маркова имеет это предположение. Теперь, есть ли теорема о том, что у человека есть разум для логистической регрессии? Если нет, то нет никаких «предположений». y
говорит амеба, восстанови Монику
7
@ Amoeba, hxd правильно, отметив, что распределения не идентичны: «iid» не применяется. Если кто-то использует логистическую регрессию только для ее соответствия, то (как вы пишете), возможно, понадобится несколько предположений; но как только кто-то использует оценочную ковариационную матрицу коэффициентов или желает построить интервалы прогнозирования (или, в этом отношении, перекрестную проверку прогнозируемых значений), тогда это требует вероятностных допущений. Обычным является то, что ответы независимы.
whuber
4
@amoeba, как только вы захотите выполнить вывод (тесты гипотез, доверительные интервалы и т. д.), а не просто рассчитать оценки параметров, вы сделаете множество предположений (некоторые более критичные, чем другие), чтобы иметь возможность получить соответствующее нулевое распределение проверить статистику или необходимые расчеты за интервал с желаемым охватом. Даже в процедурах с относительно низким уровнем допущений все же существуют допущения, и если мы заботимся о наших выводах, мы позаботимся о том, чтобы они, вероятно, имели что-то близкое к их номинальным свойствам.
Glen_b
1
@amoeba, мне нравится теорема, которая показывает асимптотическую нормальность MLE. Мне также нравится тест отношения правдоподобия.
gammer
2
Их предельные распределения не идентичны, если только они не имеют одно и то же значение предиктора, и в этом случае у вас просто испытания IID Бернулли. Их условные распределения (с учетом предиктора) одинаковы, но я не думаю, что вы обычно говорите, что в этом случае - IID. Yi
gammer

Ответы:

11

Из вашего предыдущего вопроса вы узнали, что GLM описывается в терминах распределения вероятностей, линейного предиктора и функции связи и описывается какгηg

η=XβE(Y|X)=μ=g1(η)

где - функция логит-линка, а как предполагается, следует распределению БернуллиYgY

YiB(μi)

каждый следует распределение Бернулли с его собственным средним , что обусловливается . Мы не предполагаем, что каждый происходит из одного и того же распределения с одинаковым средним значением (это будет модель только для перехвата ), но все они имеют разные средства. Мы предполагаем , что «s является независимым , то есть мы не должны беспокоиться о таких вещах, как автокорреляции между последовательными значениями и т.д.μ i X Y i Y i = g - 1 ( μ ) Y i YYi μiXYiYi=g1(μ)YiYi

Н.о.р. предположение связано с ошибками в линейной регрессии (т.е. Gaussian GLM), где модель

yi=β0+β1xi+εi=μi+εi

где , так что мы IID шум вокруг . Вот почему интересуются диагностикой остатков и обращают внимание на соответствие остатков и построенный участок . Теперь, в случае с GLM-подобной логистической регрессией, это не так просто, так как не существует аддитивного термина шума, как в модели Гаусса (см. Здесь , здесь и здесь ). Мы по-прежнему хотим, чтобы остатки были «случайными» вокруг нуля, и мы не хотим видеть в них каких-либо тенденций, поскольку они предполагают, что есть некоторые эффекты, которые не учитываются в модели, но мы не предполагаем, что они нормальный и / илиμ iεiN(0,σ2)μiн.о.р. . См. Также о важности предположения iid в статистической цепочке обучения .

Заметьте, что мы можем даже отбросить предположение, что каждый происходит из одного и того же вида распределения. Существуют (не GLM) модели, которые предполагают, что разные могут иметь разные распределения с разными параметрами, то есть что ваши данные поступают из смеси разных распределений . В таком случае мы также предположили бы, что значения являются независимыми , поскольку зависимые значения, поступающие из разных распределений с разными параметрами (то есть типичные данные реального мира), являются чем-то, что в большинстве случаев было бы слишком сложно моделировать (часто невозможно).Y i Y яYiYiYi

Тим
источник
6

Как уже говорилось, хотя мы часто рассматриваем случай ошибок IID в линейной регрессии, это не имеет прямого эквивалента в большинстве обобщенных линейных моделей (включая логистическую регрессию). В логистической регрессии мы обычно используем допущение независимости результатов, которые все имеют очень строгое отношение (т. Е. Линейное влияние на логарифмические вероятности). Но это приводит к случайным переменным, которые не являются идентичными, и при этом они не могут быть разложены в постоянный член плюс ошибка iid, как в случае с линейной регрессией.

Если вы действительно хотите показать, что ответы имеют какое-то отношение к iid, следуйте за мной в следующем абзаце. Просто знайте, что эта идея немного в глуши; Вы не можете получить полную оценку этого ответа в финале, если вашему профессору не хватает терпения.

Возможно, вы знакомы с методом обратного cdf для генерации случайных величин. Если нет, вот переподготовка: если имеет кумулятивную функцию распределения , то я могу производить случайные отрисовки из , сначала взяв случайные отрисовки затем вычислив . Как это связано с логистической регрессией? Ну, мы могли бы подумать, что процесс генерации наших ответов состоит из двух частей; фиксированная часть, связывающая ковариаты с вероятностями успеха, и случайная часть, которая определяет значение условной случайной величины на фиксированной части. Фиксированная часть определяется функцией связи логистической регрессии, т.е.F X X q равномерное (0,1) X = F - 1 X ( q ) p = выход ( β o + β 1 x )XFXXquniform(0,1)X=FX1(q)p=expit(βo+β1x)FY(y|p)pYi

pi=expit(βo+β1xi)

qiuniform(0,1)

Yi=F1(qi|pi)

qi

Клифф AB
источник
1
qiYiB(pi)p i q iYipiqi
@Tim: да, вторая часть ответа представляет собой скорее интересную заметку, чем краткий ответ. Но это может быть полезным способом посмотреть на это; в конце концов, именно так ваш компьютер моделирует данные этих моделей!
Клифф А.Б.