У меня есть вопрос, касающийся обобщенных линейных моделей (GLM). Моя зависимая переменная (DV) непрерывна и не является нормальной. Таким образом, я лог преобразовал это (все еще не нормальный, но улучшил это).
Я хочу связать DV с двумя категориальными переменными и одной непрерывной ковариабельной. Для этого я хочу провести GLM (я использую SPSS), но я не уверен, как выбрать распределение и функцию для выбора.
Я провел непараметрический тест Левена, и у меня однородность отклонений, поэтому я склонен использовать нормальное распределение. Я читал, что для линейной регрессии данные не должны быть нормальными, а остатки - нормальными. Итак, я напечатал стандартизированные остатки Пирсона и предсказанные значения для линейного предиктора для каждого GLM в отдельности (нормальная тождественная функция GLM и нормальная логарифмическая функция). Я провел тесты нормальности (гистограмма и Шапиро-Уилк) и построил графики остатков по отношению к прогнозным значениям (чтобы проверить случайность и дисперсию) для обоих по отдельности. Остатки от функции тождества не являются нормальными, но остатки от функции логарифма являются нормальными. Я склонен выбирать нормальное с функцией лог-линка, потому что остатки Пирсона обычно распределяются.
Итак, мои вопросы:
- Могу ли я использовать нормальное распределение GLM с функцией связи LOG на DV, который уже был преобразован в журнал?
- Является ли тест однородности дисперсии достаточным, чтобы оправдать использование нормального распределения?
- Правильна ли процедура остаточной проверки для обоснования выбора модели функции связи?
Изображение распределения DV слева и остатки от нормального GLM с функцией логарифмической связи справа.
Ответы:
Да; если предположения выполнены в этом масштабе
Почему равенство отклонений подразумевает нормальность?
Вам следует остерегаться использовать как гистограммы, так и тесты на пригодность, чтобы проверить соответствие ваших предположений:
1) Остерегайтесь использования гистограммы для оценки нормальности. (Также см. Здесь )
Короче говоря, в зависимости от чего-то простого, например, небольшого изменения в выбранной вами ширине бина или даже от расположения границы бина, можно получить совершенно разные впечатления от формы данных:
Это две гистограммы одного и того же набора данных. Использование нескольких разных значений ширины бин может быть полезным для определения того, чувствительно ли к этому впечатление.
2) Остерегайтесь использования критериев соответствия, чтобы сделать вывод о том, что допущение нормальности является разумным. Формальные проверки гипотезы не дают правильного ответа.
например, см. ссылки в пункте 2. здесь
При нормальных обстоятельствах вопрос не в том, являются ли мои ошибки (или условные распределения) нормальными? - они не будут, нам даже не нужно проверять. Более актуальный вопрос: «насколько сильно степень ненормальности, которая присутствует, влияет на мои выводы?»
Я предлагаю оценку плотности ядра или нормальный QQplot (график остатков против нормальных показателей). Если распределение выглядит нормально, вам не о чем беспокоиться. На самом деле, даже если это явно ненормально, это все равно может не иметь большого значения, в зависимости от того, что вы хотите сделать (например, нормальные интервалы прогнозирования действительно будут зависеть от нормальности, но многие другие вещи будут работать при больших размерах выборки). )
Как ни странно, в больших выборках нормальность становится, как правило, все менее и менее критичной (кроме ПИ, как было упомянуто выше), но ваша способность отклонять нормальность становится все больше и больше.
Изменить: вопрос о равенстве дисперсии заключается в том, что действительно может повлиять на ваши выводы, даже при больших размерах выборки. Но вы, вероятно, не должны оценивать это с помощью проверок гипотез. Неправильное предположение о дисперсии является проблемой, независимо от предполагаемого распределения.
Когда вы подходите к нормальной модели, у нее есть параметр масштаба, и в этом случае ваше масштабированное отклонение будет около Np, даже если ваше распределение не является нормальным.
В условиях постоянного отсутствия информации о том, что вы измеряете или для чего вы используете вывод, я все еще не могу судить, предлагать ли другой дистрибутив для GLM, и насколько важна нормальность для ваших выводов.
Однако, если другие ваши предположения также являются разумными (следует по крайней мере проверить линейность и равенство отклонений и рассмотреть потенциальные источники зависимости), то в большинстве случаев мне было бы очень удобно делать такие вещи, как использование КИ и выполнение тестов на коэффициенты или контрасты - у этих остатков очень слабое впечатление асимметрии, которое, даже если это реальный эффект, не должно оказывать существенного влияния на подобные выводы.
Короче, у тебя должно быть все в порядке.
(Хотя другая функция распределения и ссылки могла бы быть немного лучше с точки зрения соответствия, только в ограниченных обстоятельствах они также могли бы иметь больше смысла.)
источник