Распределение ошибок для линейной и логистической регрессии

9

При непрерывных данных линейная регрессия Yзнак равноβ1+β2Икс2+U предполагает, что член ошибки распределен N (0, σ2 )

1) Предполагаем ли мы, что Var (Y | x) также ~ N (0, σ2 )?

2) Что это за распределение ошибок в логистической регрессии? Когда данные представлены в виде 1 записи на случай, где «Y» равен 1 или 0, это термин ошибки, распределенный Бернулли (т. Е. Дисперсия равна p (1-p))), и когда данные находятся в форме # Успех из # испытаний, считается ли он биномиальным (т. е. дисперсия np (1-p)), где p - вероятность того, что Y равно 1?

B_Miner
источник
2
Вы не точны. Предположение модели состоит в том, что члены ошибки независимы и одинаково распределены с распределением, которое равно N (0, σ 2 ) и не связано с КОВАРНЫМ. Что такое Var (Y | x)? Вы кондиционируете на X 2 = x? Предполагает ли модель, что ковариата каким-то образом случайна, или мы предполагаем, что ковариата фиксирована в соответствии с расчетной матрицей? Я думаю, что это последнее, и, следовательно, Var (Y | X 2 = x) подразумевается предположениями и не нуждается в допущении. 222
Майкл Р. Черник
@MichaelChernick Почему модель предполагает, что является фиксированным? Это, конечно, может быть случай, когда он исправлен, но он также может быть случайным. Ничто в этом вопросе не подразумевает ни того, ни другого. X2
Питер Флом
@PeterFlom Я прочитал в вопросе, что линейная регрессия с этим предполагаемым распределением ошибок означает OLS, который требует, чтобы X 2 был фиксированным и известным. Если у кого-то есть регрессия Деминга (т.е. ошибка в регрессии переменных), это будет указано в вопросе. Глядя на ответ, который дал Стат, указывает на то, что он тоже так понял. 2
Майкл Р. Черник
@ Майкл, я предполагал фиксированный X.
B_Miner

Ответы:

10

1) Если имеет нормальное распределение, т.е. N ( 0 , σ 2 ), то V a r ( Y | X 2 ) = V a r ( β 1 + β 2 X 2 ) + V a r ( u ) = 0 + σ 2 = σ 2 , так как β 1 + β 2 X 2UN(0,σ2)Var(Y|X2)=Var(β1+β2X2)+Var(u)знак равно0+σ2знак равноσ2β1+β2Икс2 не случайная величина

2) В логистической регрессии предполагается, что ошибки следуют биномиальному распределению, как упомянуто здесь . Лучше записать это как , поскольку эти вероятности зависят от X j , как указаноздесьили вПрикладной логистической регрессии.Вaр(YJ|ИксJ)знак равномJ,Е[YJ|ИксJ],(1-Е[YJ|ИксJ])знак равномJπ(ИксJ),(1-π(ИксJ))ИксJ

Stat
источник
Итак, правильно сказать, что дисперсия для i-й индивидуальной ошибки, , равна p i (1- p i ), что эквивалентно тому, что вы показали, предполагая, что в данных с более чем 1 наблюдением один и тот же ковариатический шаблон (т. е. иначе m j = 1 для всех j)? еяпяпямJ
B_Miner
2
Да, это правильно. Если с P ( Y i = 1 ) = 1 - P ( Y i = 0 ) = p i , то e i = 1 - p i с вероятностью p i или e i = - p i с вероятностью 1 - p i . Отсюда еYязнак равнопя+еяп(Yязнак равно1)знак равно1-п(Yязнак равно0)знак равнопяеязнак равно1-пяпяеязнак равно-пя1-пяеяимеет распределение со средним и дисперсией, равной p i ( 1 - p i ) . 0пя(1-пя)
Стат
Еще один важный момент, Stat, мы ДОЛЖНЫ предположить, что X являются фиксированными, неслучайными для Var (Y | X) = Var (e) для обоих случаев линейной и логистической регрессии правильно?
B_Miner
NB с вероятностью р я или е я = - р я с вероятностью 1 - р я это не биномиальное распределение для е я . еязнак равно1-пяпяеязнак равно-пя1-пяея
Scortchi - Восстановить Монику
B_Miner: означает дисперсию Y, обусловленную случайной величиной X , принимающей наблюдаемое значение x . Поэтому неважно, зафиксированы ли ваши предикторы экспериментом или наблюдаются в выборке: что говорит @ Stat, так это то, что они больше не рассматриваются как случайные переменные для целей регрессии. Var(Y|Икс)знак равноVar(Y|Иксзнак равноИкс)YИксИкс
Scortchi - Восстановить Монику