Почему некоторые люди проверяют допущения регрессионных моделей на своих необработанных данных, а другие проверяют их на остаточных данных?

Я аспирант в области экспериментальной психологии, и я стараюсь улучшить свои навыки и знания о том, как анализировать мои данные.

До пятого курса психологии я думал, что регрессионные модели (например, ANOVA) предполагают следующее:

нормальность данных
однородность дисперсии для данных и так далее

Мои курсы бакалавриата заставляют меня полагать, что предположения были о данных. Однако на пятом курсе некоторые из моих инструкторов подчеркнули тот факт, что предположения касаются ошибки (оцененной остатками), а не необработанных данных.

Недавно я обсуждал вопрос о допущениях с некоторыми из моих коллег, которые также восхищались тем, что они обнаружили важность проверки допущений на остаток только в последние годы обучения в университете.

Если я хорошо понимаю, регрессионные модели делают предположения об ошибке. Таким образом, имеет смысл проверить предположения об остатках. Если так, то почему некоторые люди проверяют предположения на необработанных данных? Это потому, что такая процедура проверки приближается к тому, что мы получили бы, проверяя остаток?

Я был бы очень заинтересован в обсуждении этой проблемы с некоторыми людьми, которые имеют более точные знания, чем мои коллеги и я. Я заранее благодарю вас за ваши ответы.

regression dataset residuals assumptions Psychokwak
источник

Ответы:

По сути, вы на правильном пути. Вы найдете обсуждение аспекта нормальности в нормальности зависимой переменной = нормальность невязок?

Некоторые предположения классической линейной модели действительно касаются ошибок (с использованием остатков в качестве их реализации):

Они некоррелированы? (Актуально для вывода и оптимальности OLS-оценок)
Они имеют одинаковую дисперсию? (Актуально для вывода и оптимальности OLS-оценок)
Они сосредоточены вокруг 0? (Ключевое предположение, чтобы получить объективные оценки и прогнозы)
Если выборка очень мала: они нормальны или хотя бы симметрично распределены? (Актуально для вывода)

Другие условия о «необработанных данных»:

Нет ли грубых выбросов в регрессорах? (Наблюдения с высоким кредитным плечом могут разрушить всю модель)
Нет идеальной мультиколлинеарности? (Может вызвать вычислительные проблемы, по крайней мере, в некоторых программных пакетах)

Теперь ваш учитель старшекурсник тоже может быть прав:

Возможно, вы сосредоточились на одномерных тестах, таких как t-тест с одним образцом. Там предположения о необработанных данных.
$R^2$
Как бы вы проверили гомоскедастичность и т. Д. На основе необработанных данных? Может быть, вы неправильно поняли его или ее.

Майкл М
источник

Хорошо, большое спасибо за ваш ответ и за ссылку, которая очень полезна. Некоторые из моих коллег и я до недавнего времени верили, что исходные данные должны иметь одинаковые отклонения. Как вы сказали, мы, возможно, что-то пропустили на наших курсах. В какой-то книге мы можем прочитать следующее:

Psychokwak

«Наиболее распространенные статистические процедуры делают два предположения, которые имеют отношение к этой теме: (а) предположение о том, что переменные (или их термины ошибок, более технически) нормально распределены, и (б) предположение о равенстве дисперсии (гомоскедастичность или однородность) дисперсии), что означает, что дисперсия переменной остается постоянной в наблюдаемом диапазоне некоторой другой переменной. " Означает ли это, что когда кто-то говорит о «переменной», он или она систематически говорит о «их условиях ошибки»? Если так, то я согласен с этим, но без явного упоминания это далеко не очевидно (по крайней мере, для меня).

Psychokwak

Наконец, у меня последний вопрос о ваших ответах. Если t-тест и ANOVA являются частными случаями регрессии, почему предположения касаются данных в t-тесте с одной выборкой? Еще раз спасибо за ваш полезный ответ.

Psychokwak

Чтобы ответить на ваш последний комментарий: t-критерий с одной выборкой также можно рассматривать как частный случай регрессии. Модель просто состоит из точки пересечения (= среднее) и члена ошибки, т.е. ответ является сдвинутой ошибкой. Поскольку сдвиги не имеют значения для любого предположения, это эквивалентно говорить о данных или остатках.

Майкл М

Я считаю, что различие между остатками и необработанными данными бесполезно, так как они больше относятся к вашей фактической выборке, а не к основному распределению населения. Лучше думать о том, что некоторые требования являются «внутригрупповыми требованиями», а другие «между групповыми предположениями».

Например, дисперсионная однородность - это «предположение между группами», поскольку оно говорит, что дисперсия внутри группы одинакова для всех групп.

Нормальность - это предположение «внутри группы», которое требует, чтобы внутри каждой группы y распределялся нормально.

Обратите внимание, что наличие нормальности по всему вашему сырому обычно означает, что у вас нет эффекта - посмотрите на распределение по полу, не делая различий между женщинами и мужчинами. Это не будет нормально распространяться из-за сильного гендерного эффекта. Но внутри каждого пола это держится довольно хорошо.

Erik
источник

Спасибо за ваш ответ тоже. Это интересный способ увидеть вопрос. Я никогда не думал о нормальности таким образом (т. Е. «То, что нормальность по всему необработанному y обычно означает, что мы не имеем никакого эффекта»).

Psychokwak