Есть ли предположение о переменной ответа логистической регрессии?
Например, предположим, у нас есть точек данных. Похоже, что ответ исходит из дистрибутива Бернулли с . Следовательно, мы должны иметь распределений Бернулли с другим параметром .Y i p i = логит ( β 0 + β 1 x i ) 1000 р
Таким образом, они «независимы», но не «идентичны».
Я прав?
PS. Я изучил логистическую регрессию из литературы по «машинному обучению», где мы оптимизируем целевую функцию и проверяем, хороша ли она при тестировании данных, не говоря слишком много о допущениях.
Мой вопрос начался с этого поста « Понять функцию связи в обобщенной линейной модели», где я пытаюсь узнать больше о статистических предположениях.
regression
logistic
assumptions
iid
Haitao Du
источник
источник
Ответы:
Из вашего предыдущего вопроса вы узнали, что GLM описывается в терминах распределения вероятностей, линейного предиктора и функции связи и описывается какгη g
где - функция логит-линка, а как предполагается, следует распределению БернуллиYграмм Y
каждый следует распределение Бернулли с его собственным средним , что обусловливается . Мы не предполагаем, что каждый происходит из одного и того же распределения с одинаковым средним значением (это будет модель только для перехвата ), но все они имеют разные средства. Мы предполагаем , что «s является независимым , то есть мы не должны беспокоиться о таких вещах, как автокорреляции между последовательными значениями и т.д.μ i X Y i Y i = g - 1 ( μ ) Y i YYя μя Икс Yi Yi=g−1(μ) Yi Yi
Н.о.р. предположение связано с ошибками в линейной регрессии (т.е. Gaussian GLM), где модель
где , так что мы IID шум вокруг . Вот почему интересуются диагностикой остатков и обращают внимание на соответствие остатков и построенный участок . Теперь, в случае с GLM-подобной логистической регрессией, это не так просто, так как не существует аддитивного термина шума, как в модели Гаусса (см. Здесь , здесь и здесь ). Мы по-прежнему хотим, чтобы остатки были «случайными» вокруг нуля, и мы не хотим видеть в них каких-либо тенденций, поскольку они предполагают, что есть некоторые эффекты, которые не учитываются в модели, но мы не предполагаем, что они нормальный и / илиμ iεi∼N(0,σ2) μi н.о.р. . См. Также о важности предположения iid в статистической цепочке обучения .
Заметьте, что мы можем даже отбросить предположение, что каждый происходит из одного и того же вида распределения. Существуют (не GLM) модели, которые предполагают, что разные могут иметь разные распределения с разными параметрами, то есть что ваши данные поступают из смеси разных распределений . В таком случае мы также предположили бы, что значения являются независимыми , поскольку зависимые значения, поступающие из разных распределений с разными параметрами (то есть типичные данные реального мира), являются чем-то, что в большинстве случаев было бы слишком сложно моделировать (часто невозможно).Y i Y яYi Yi Yi
источник
Как уже говорилось, хотя мы часто рассматриваем случай ошибок IID в линейной регрессии, это не имеет прямого эквивалента в большинстве обобщенных линейных моделей (включая логистическую регрессию). В логистической регрессии мы обычно используем допущение независимости результатов, которые все имеют очень строгое отношение (т. Е. Линейное влияние на логарифмические вероятности). Но это приводит к случайным переменным, которые не являются идентичными, и при этом они не могут быть разложены в постоянный член плюс ошибка iid, как в случае с линейной регрессией.
Если вы действительно хотите показать, что ответы имеют какое-то отношение к iid, следуйте за мной в следующем абзаце. Просто знайте, что эта идея немного в глуши; Вы не можете получить полную оценку этого ответа в финале, если вашему профессору не хватает терпения.
Возможно, вы знакомы с методом обратного cdf для генерации случайных величин. Если нет, вот переподготовка: если имеет кумулятивную функцию распределения , то я могу производить случайные отрисовки из , сначала взяв случайные отрисовки затем вычислив . Как это связано с логистической регрессией? Ну, мы могли бы подумать, что процесс генерации наших ответов состоит из двух частей; фиксированная часть, связывающая ковариаты с вероятностями успеха, и случайная часть, которая определяет значение условной случайной величины на фиксированной части. Фиксированная часть определяется функцией связи логистической регрессии, т.е.F X X q ∼ равномерное (0,1) X = F - 1 X ( q ) p = выход ( β o + β 1 x )X FX X q∼uniform(0,1) X=F−1X(q) p=expit(βo+β1x) FY(y|p) p Yi
источник