У меня странный вопрос. Предположим, что у вас есть небольшая выборка, в которой зависимая переменная, которую вы собираетесь анализировать с помощью простой линейной модели, сильно искажена. Таким образом, вы предполагаете, что не является нормально распределенным, потому что это приведет к нормально распределенному . Но когда вы вычисляете график QQ-Normal, есть доказательства того, что остатки обычно распределяются. Таким образом, любой может предположить, что термин ошибки обычно распределен, хотя нет. Так что же это значит, когда термин ошибки кажется нормально распределенным, а нет?
источник
Конечно, @DikranMarsupial совершенно прав, но мне пришло в голову, что было бы неплохо проиллюстрировать его точку зрения, тем более что эта проблема, кажется, часто возникает. В частности, остатки регрессионной модели должны быть нормально распределены, чтобы значения p были правильными. Однако, даже если остатки нормально распределены, это не гарантирует, что будет (не то, что это имеет значение ...); это зависит от распределения .Y Икс
Давайте рассмотрим простой пример (который я составляю). Допустим, мы тестируем препарат для изолированной систолической гипертонии (т. Е. Верхнее значение артериального давления слишком высокое). Далее давайте укажем, что систолический bp обычно распределяется в нашей популяции пациентов со средним значением 160 & SD, равным 3, и что для каждого мг препарата, который пациенты принимают каждый день, систолический bp снижается на 1 мм рт. Другими словами, истинное значение равно 160, а равно -1, а истинная функция генерирования данных: β 1 B P s y s = 160 - 1 × суточная доза препарата + εβ0 β1 X
(Я встряхнул дозировки, чтобы точки не перекрывались настолько сильно, что их было трудно различить.) Теперь давайте проверим распределения (то есть, это предельное / исходное распределение) и остатки:Y
Диаграммы qq показывают нам, что не является дистанционно нормальным, но что остатки достаточно нормальны. Графики плотности ядра дают нам более интуитивно понятную картину распределений. Ясно, что является тримодальным , тогда как остатки выглядят так, как будто должно выглядеть нормальное распределение. YY Y
Эти результаты показывают, что все работает хорошо.
источник
источник