Почему необходимо сделать предположение о распределении ошибок, т.е.
ϵ i ∼ N ( 0 , σ 2 ) , с .
Почему бы не написать
у я ~ Н ( Х β , сг 2 ) , с ,
где в любом случае . Я видел, как подчеркивалось, что предположения о распределении делаются на ошибках, а не на данных, но без объяснения причин.
Я не совсем понимаю разницу между этими двумя формулировками. В некоторых местах я вижу, что на данные помещаются предположения о распределении (Байесовское освещение. В основном это кажется), но в большинстве случаев предположения делаются на ошибки.
При моделировании, почему / следует выбрать, чтобы начать с предположений о том или ином?
Ответы:
В условиях линейной регрессии обычно проводят анализ и выводят результаты, зависящие от , то есть от «данных». Таким образом, вам нужно, чтобы был нормальным, то есть вам нужно чтобы быть нормальным. Как показывает пример Питера Флома, можно иметь нормальность не имея нормальности , и, следовательно, так как вам нужна нормальность , это разумное предположение.y ∣ X ϵ ϵ y ϵX y∣X ϵ ϵ y ϵ
источник
Я бы написал второе определение как
или (как Карл Оскар предлагает +1)
то есть предположение моделирования состоит в том, что переменная отклика обычно распределена вокруг линии регрессии (которая является оценкой условного среднего) с постоянной дисперсией . Это не то же самое, что предположить, что обычно распределены, потому что среднее значение распределения зависит от .у я х яσ2 yi Xi
Я думаю, что видел подобные формулировки в литературе по машинному обучению; насколько я вижу, это эквивалентно первому определению, все, что я сделал, это перефразировал вторую формулировку немного по-другому, чтобы исключить 's и .уϵi y^
источник
Разницу проще всего проиллюстрировать на примере. Вот простой:
Предположим, что Y бимодально, причем модальность учитывается независимой переменной. Например, предположим, что Y - рост, а ваш образец (по любой причине) состоит из жокеев и баскетболистов. например, в
R
первая плотность очень ненормальная. Но остатки от модели очень близки к нормальным.
Относительно того, почему ограничения установлены таким образом - я позволю кому-то еще ответить на этот вопрос.
источник
Вам нужно добавить подозрительный i к вашей второй формулировке: потому что должна иметь возможность изменяться вместе с .
у х я
Что было отмечено, что такое ? Это . Это приводит к формулировке @DikranMarsupial: Стоит признать, что это точно так же, как ваш первый формулировка, потому что оба предусматривают нормальные распределения и ожидаемые значения равны. То есть: (И, очевидно, различия равны.) Другими словами, этохяy^i xiβ^
Таким образом, возникает вопрос, есть ли причина предпочитать представлять идею, используя первую формулировку?
Я думаю, что ответ " да" по двум причинам:
Я полагаю, что эти путаницы, скорее всего, используют вторую формулировку, чем первую.
источник