Я немного запутался в предположениях о линейной регрессии.
До сих пор я проверял:
- все объясняющие переменные линейно коррелировали с переменной отклика. (Это было так)
- была какая-то коллинеарность среди объясняющих переменных. (была небольшая коллинеарность).
- расстояния Кука точек данных моей модели ниже 1 (в этом случае все расстояния ниже 0,4, поэтому нет точек влияния).
- остатки обычно распределяются. (это может быть не так)
Но тогда я прочитал следующее:
Нарушения нормальности часто возникают либо потому, что (а) распределения зависимых и / или независимых переменных сами по себе существенно ненормальны, и / или (б) предположение о линейности нарушается.
Вопрос 1 Это звучит так, как будто независимые и зависимые переменные должны быть нормально распределены, но, насколько я знаю, это не так. Моя зависимая переменная, а также одна из моих независимых переменных обычно не распределены. Должны ли они быть?
Вопрос 2 Мой QQнормальный график остатков выглядит следующим образом:
Это немного отличается от нормального распределения и shapiro.test
также отвергает нулевую гипотезу, что остатки от нормального распределения:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Остатки от подгоночных значений выглядят так:
Что я могу сделать, если мои остатки не распределяются нормально? Значит ли это, что линейная модель совершенно бесполезна?
Ответы:
Прежде всего, я бы взял себе копию этой классической и доступной статьи и прочел ее: Anscombe FJ. (1973) Графики в статистическом анализе . Американский статистик . 27: 17-21.
На ваши вопросы:
Ответ 1: ни зависимая, ни независимая переменная не должны быть нормально распределены. На самом деле они могут иметь все виды циклических распределений. Нормальность предположение относится к распределению ошибок (Yi−Y^i ).
Ответ 2: Вы на самом деле спрашиваете о двух отдельных допущениях регрессии обычных наименьших квадратов (OLS):
Другим является предположение о нормально распределенных остатках. Иногда можно сойти с рук с ненормальными остатками в контексте OLS; см., например, Lumley T, Emerson S. (2002) Значение допущения нормальности в больших наборах данных общественного здравоохранения . Ежегодный обзор общественного здравоохранения . 23: 151-69. Иногда это невозможно (опять же, см. Статью Anscombe).
Тем не менее, я бы рекомендовал думать о допущениях в OLS не столько как о желательных свойствах ваших данных, сколько об интересных отправных точках для описания природы. В конце концов, большая часть того, что нас волнует в мире, более интересна, чемy
источник
log
и простые преобразования власти распространены.Ваши первые проблемы
несмотря на ваши заверения, остаточный график показывает, что условный ожидаемый отклик не является линейным по подобранным значениям; модель для среднего неверна.
у вас нет постоянной дисперсии. Модель для отклонения неверна.
Вы даже не можете оценить нормальность с этими проблемами там.
источник
Я бы не сказал, что линейная модель совершенно бесполезна. Однако это означает, что ваша модель не правильно / полностью не объясняет ваши данные. Есть часть, где вы должны решить, является ли модель «достаточно хорошей» или нет.
Что касается вашего первого вопроса, я не думаю, что модель линейной регрессии предполагает, что ваши зависимые и независимые переменные должны быть нормальными. Тем не менее, есть предположение о нормальности остатков.
Для вашего второго вопроса, есть две разные вещи, которые вы могли бы рассмотреть:
В дополнение к вашему вопросу, я вижу, что ваш QQPlot не "нормализован". Обычно легче посмотреть на график, когда ваши остатки стандартизированы, см. Stdres .
Я надеюсь, что это поможет вам, может быть, кто-то еще объяснит это лучше меня.
источник
В дополнение к предыдущему ответу я хотел бы добавить несколько моментов для улучшения вашей модели:
Иногда ненормальность остатков указывает на наличие выбросов. Если это так, сначала обработайте выбросы.
Может быть, с помощью некоторых преобразований решить цель.
Кроме того, чтобы справиться с мультиколинейностью, вы можете обратиться к https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution
источник
На ваш второй вопрос
Что-то, что случилось со мной на практике, было то, что я перефразировал свой ответ многими независимыми переменными. В переоборудованной модели у меня были ненормальные остатки. Несмотря на то, что результаты подтвердили, что не было доказательств того, что некоторые коэффициенты были равны нулю (при значениях р больше 0,2). Таким образом, во второй модели, отбрасывая переменные, следуя процедуре обратного выбора, я получил нормальные остатки, которые были проверены как графически с помощью qqplot, так и путем проверки гипотезы с помощью теста Шапиро-Уилка. Проверьте, может ли это быть вашим случаем.
источник