При подборе регрессионной модели, что произойдет, если предположения о выходных данных не будут выполнены, а именно
- Что произойдет, если остатки не будут гомоскедастичными? Если остатки показывают растущий или убывающий паттерн на графике Остатки против Приспособленного.
- Что произойдет, если остатки не распределены нормально и не пройдут тест Шапиро-Уилка? Критерий нормальности по Шапиро-Уилку является очень строгим, и иногда, даже если график Normal-QQ выглядит несколько разумным, данные не проходят тест.
- Что произойдет, если один или несколько предикторов обычно не распределены, не выглядят правильно на графике Normal-QQ или если данные не проходят тест Шапиро-Уилка?
Я понимаю, что нет жесткого черно-белого деления, что 0,94 верно, а 0,95 неправильно, и в этом вопросе я хочу знать:
- Что означает нарушение нормальности для модели, которая хорошо подходит в соответствии со значением R-Squared. Это становится менее надежным или совершенно бесполезным?
- В какой степени отклонение является приемлемым или вообще приемлемым?
- Применяя преобразования к данным для соответствия критериям нормальности, улучшается ли модель, если данные более нормальные (более высокое значение P в тесте Шапиро-Уилка, лучше выглядит на нормальном графике QQ), или это бесполезно (одинаково хорошо или плохо по сравнению с оригиналом) пока данные не пройдут нормальный тест?
regression
multiple-regression
error
assumptions
normality-assumption
SpeedBirdNine
источник
источник
Ответы:
Если член ошибки не гомоскедастичен (мы используем остатки в качестве прокси для ненаблюдаемого члена ошибки), оценщик OLS все еще непротиворечив и беспристрастен, но больше не является наиболее эффективным в классе линейных оценок. Именно оценщик GLS теперь обладает этим свойством.
Нормальность не требуется по теореме Гаусса-Маркова. Оценщик OLS по-прежнему СИНИЙ, но без нормальности у вас будут трудности с выводом, т. Е. Проверкой гипотез и доверительными интервалами, по крайней мере для конечных размеров выборки. Однако, есть еще бутстрап.
Асимптотически это меньше проблем, так как оценщик OLS имеет предельное нормальное распределение в условиях умеренной регулярности.
Насколько я знаю, предикторы либо считаются фиксированными, либо регрессия зависит от них. Это ограничивает эффект ненормальности.
R-квадрат - это доля дисперсии, которая объясняется моделью. Это не требует предположения о нормальности, и в любом случае это мера хорошего соответствия. Если вы хотите использовать его для частичного F-теста, это совсем другая история.
Вы имеете в виду отклонение от нормы, верно? Это действительно зависит от ваших целей, потому что, как я уже сказал, умозаключение становится сложным в отсутствие нормальности, но не является невозможным (начальная загрузка!).
Короче говоря, если у вас есть все допущения Гаусса-Маркова плюс нормальность, тогда оценщик OLS является лучшим несмещенным (BUE), т.е. наиболее эффективным из всех классах оценок - достигается нижняя граница Крамера-Рао. Конечно, это желательно, но это не конец света, если этого не произойдет. Приведенные выше замечания применяются.
Что касается преобразований, имейте в виду, что, хотя распределение ответа может быть приближено к нормальному, интерпретация может не быть прямой после этого.
Это лишь несколько коротких ответов на ваши вопросы. Вы, кажется, особенно обеспокоены последствиями ненормальности. В целом, я бы сказал, что это не так катастрофично, как думают люди (были?), И есть обходные пути. Две ссылки, которые я включил, являются хорошей отправной точкой для дальнейшего чтения, первая из которых носит теоретический характер.
Рекомендации :
источник