Если я не ошибаюсь, предполагается, что в линейной модели распределение отклика имеет систематический компонент и случайный компонент. Термин ошибки фиксирует случайную составляющую. Следовательно, если мы предположим, что термин ошибки нормально распределен, не означает ли это, что ответ также нормально распределен? Я думаю, что это так, но тогда утверждения, подобные приведенному ниже, кажутся довольно запутанными:
И вы можете ясно видеть, что единственное предположение о «нормальности» в этой модели состоит в том, что остатки (или «ошибки» ) должны быть нормально распределены. Не существует предположения о распределении предиктора или переменной ответа .й я
Источник: Предикторы, ответы и остатки: Что действительно должно быть нормально распределено?
источник
Ответы:
Стандартная модель OLS - с для фиксированного .ε ∼ N ( → 0 , σ 2 I n ) X ∈ R n × pY= Хβ+ ε ε ∼ N( 0⃗ , σ2яN) Икс∈ Rn × p
Это действительно означает, что , хотя это является следствием нашего предположения о распределении , а не на самом деле предположение. Кроме того, имейте в виду , что я говорю об условном распределении , а не маргинальное распределение . Я сосредотачиваюсь на условном распределении, потому что я думаю, что это то, о чем вы действительно спрашиваете.ε Y YY| {X, β, σ2} ∼ N( Хβ, σ2яN) ε Y Y
Я думаю, что смущает то, что это не означает, что гистограмма будет выглядеть нормально. Мы говорим, что весь вектор представляет собой одно изображение из многомерного нормального распределения, где каждый элемент имеет потенциально различное среднее значение . Это не то же самое, что обычный образец iid. Ошибки самом деле являются образцом iid, поэтому их гистограмма будет выглядеть нормально (и именно поэтому мы делаем график QQ остатков, а не отклика).Y E ( Y i | X i ) = X T i β εY Y E(Yi|Xi)=XTiβ ε
Вот пример: предположим, что мы измеряем высоту для выборки 6-х и 12-х классов. Наша модель - с . Если мы посмотрим на гистограмму мы, вероятно, увидим бимодальное распределение, с одним пиком для 6-х классов и одним пиком для 12-х классов, но это не является нарушением наших предположений.H i = β 0 + β 1 I ( 12-й класс ) + ε i ε i ∼ iid N ( 0 , σ 2 ) H iH Hi=β0+β1I(12th grader)+εi εi∼ iid N(0,σ2) Hi
источник
Даже отдаленно. Насколько я помню, это то, что невязки обычно зависят от детерминированной части модели . Вот демонстрация того, как это выглядит на практике.
Я начинаю с случайного генерирования некоторых данных. Затем я определяю результат, который является линейной функцией предикторов, и оцениваю модель.
Давайте посмотрим, как выглядят эти остатки. Я подозреваю, что они должны быть нормально распределены, так как в результате
y
был добавлен нормальный шум. И это действительно так.Однако, проверяя распределение y, мы видим, что это определенно не нормально! Я наложил функцию плотности с тем же средним и дисперсией
y
, но это, очевидно, ужасное соответствие!Причина, по которой это произошло в этом случае, заключается в том, что входные данные даже не являются нормальными. Ничто в этой регрессионной модели не требует нормальности, кроме остатков - ни в независимой переменной, ни в зависимой переменной.
источник
Нет, это не так. Например, предположим, у нас есть модель, предсказывающая вес олимпийских спортсменов. Хотя вес вполне может быть нормально распределен между спортсменами в каждом виде спорта, он не будет среди всех спортсменов - он может даже не быть унимодальным.
источник