Достоверно авторитетные источники утверждают, что зависимая переменная должна быть нормально распределена:
Предположения модели: нормально распределен, ошибки нормально распределены, и независимы, фиксирован и постоянная дисперсия .e i ∼ N ( 0 , σ 2 ) X σ 2
Во-вторых, линейный регрессионный анализ требует, чтобы все переменные были многомерными нормальными.
Это подходит, когда переменная ответа имеет нормальное распределение
Есть хорошее объяснение тому, как или почему распространено это заблуждение? Известно ли его происхождение?
X <- runif(n=100)
затемY <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)
поиграйте с гистограммами, чтобы убедиться, что ни X, ни Y нормально не распределены. Затемsummary(lm(Y ~ X))
и обратите очень пристальное внимание на то, насколько близко перехват до 3, а наклон X равен 0,5. Предполагается, что ошибки обычно распределяются.Ответы:
«Y должен быть нормально распределен»
должен?
В тех случаях, когда вы упоминаете, что это неаккуратный язык (сокращенно «ошибка в Y должна быть нормально распределена» ), но на самом деле (сильно) не говорится, что ответ должен быть нормально распределен, или, по крайней мере, это не кажется мне, что их слова были предназначены так.
Материалы курса Penn State
говорит о «непрерывной переменной »Y , но также и о « », как в где мы можем рассматривать , то есть амебу, называемую в комментариях «условно», нормально распределенную,Yi E(Yi)=β0+β1xi Yi
В статье используются и взаимозаменяемо. На протяжении всей статьи говорится о «распределении Y», например:Y Yi
при объяснении некоторого варианта GLM (бинарная логистическая регрессия),
в каком-то определении
однако в какой-то другой момент они также ссылаются на вместо :Yi Y
Веб-страница со статистикой решений
очень краткое, упрощенное, стилизованное описание. Я не уверен, что вы должны относиться к этому серьезно. Например, это говорит о
так что это не просто переменная ответа,
а также «многомерный» дескриптор является расплывчатым. Я не уверен, как это интерпретировать.
Статья в википедии
имеет дополнительный контекст, объясненный в скобках:
Это «не фиксированное нулевое значение», похоже, указывает на случай, когда линейная комбинация когда имеет бесконечную область (от минус бесконечности до плюс бесконечности), тогда как часто многие переменные имеют некоторые конечное значение отсечения (например, отсчеты, не допускающие отрицательных значений).y+ϵ ϵ∼N(0,σ)
Конкретная строка была добавлена 8 марта 2012 года , но обратите внимание, что первая строка статьи Википедии все еще гласит «гибкое обобщение обычной линейной регрессии, которая допускает переменные ответа, которые имеют модели распределения ошибок, отличные от нормального распределения» и не так много (не везде) неправильно.
Заключение
Итак, основываясь на этих трех примерах (которые действительно могут порождать неправильные представления или, по крайней мере, могут быть неправильно поняты), я бы не сказал, что «это неправильное представление распространилось» . Или, по крайней мере, мне не кажется, что цель этих трех примеров состоит в том, чтобы утверждать, что Y должен нормально распределяться (хотя я действительно помню, что эта проблема уже возникала здесь, на stackexchange, обмене между нормально распределенными ошибками и нормально распределенной переменной ответа это легко сделать).
Таким образом, предположение о том, что «Y должен быть нормально распределен», мне кажется не похожим на широко распространенное заблуждение / заблуждение (как в чем-то, что распространяется как красная сельдь), но больше похоже на общую ошибку (которая не распространяется, но каждый раз делается независимо) ).
Дополнительный комментарий
Пример ошибки на этом сайте в следующем вопросе
Что если остатки нормально распределены, а у нет?
Я бы посчитал это вопросом для начинающих. Его нет в таких материалах, как материалы курса Penn State, веб-сайт Wikipedia, и недавно он отметил в комментариях книгу «Расширение линейной регрессии с помощью R».
Авторы этих работ правильно понимают материал. Действительно, они используют такие фразы, как «Y должен быть нормально распределен», но на основании контекста и используемых формул вы можете видеть, что все они означают «Y, условно для X, должны быть нормально распределены», а не «маргинальный Y должен быть нормально распределенным ». Они не ошибаются в самой идее, и, по крайней мере, идея не широко распространена среди статистиков и людей, которые пишут книги и другие материалы курса. Но неправильное прочтение их двусмысленных слов действительно может привести к неправильному пониманию.
источник
Мы обычно преподаем магистрантам «упрощенную» версию статистики во многих дисциплинах. Я занимаюсь психологией, и когда я пытаюсь сказать студентам, что p-значения являются «вероятностью данных - или более экстремальных данных - учитывая, что нулевая гипотеза верна», коллеги говорят мне, что я раскрываю больше деталей, чем мне нужно покрывать. Что я делаю это более трудным, чем это должно быть, и т. Д. Так как учащиеся в классах имеют такой широкий диапазон комфорта (или его отсутствия) со статистикой, преподаватели обычно делают это простым: «Мы считаем, что это надежный вывод, если p <.05, "например, вместо того, чтобы давать им фактическое определение p- значения.
Я думаю, что именно здесь объясняется, почему распространено неправильное представление. Например, вы можете написать модель как:
Это может быть переписано как:
Это означает, что «Y, условный для X, обычно распределяется со средним значением прогнозируемых значений и некоторой дисперсией».
Это трудно объяснить, так как люди могут просто сказать: «Y должен быть нормально распределен». Или когда им первоначально объяснили, люди неправильно поняли условную часть, поскольку это, честно говоря, сбивает с толку.
Поэтому, чтобы не делать вещи ужасно сложными, преподаватели просто упрощают то, что они говорят, чтобы не слишком запутывать большинство учеников. И затем люди продолжают свое статистическое образование или статистическую практику с этим заблуждением. Я сам не до конца понимал концепцию, пока не начал заниматься байесовским моделированием в Stan, что требует от вас написать свои предположения следующим образом:
Кроме того, во многих статистических пакетах с графическим интерфейсом (глядя на вас, SPSS) легче проверить, нормально ли распределено предельное распределение (простая гистограмма), чем проверить, нормально ли распределены остатки (запустить регрессию, сохранить остатки, запустить гистограмму этих остатков).
Таким образом, я думаю, что неправильное представление в основном связано с тем, что преподаватели пытаются сбрить детали, чтобы не дать учащимся запутаться, стать подлинными и понятными, чтобы люди не выучили правильный путь, и оба эти фактора подкреплены простотой проверки предельной нормальности в самые удобные статистические пакеты.
источник
Регрессионный анализ труден для начинающих, потому что есть разные результаты, которые подразумеваются разными исходными предположениями. Более слабые исходные предположения могут оправдать некоторые результаты, но вы можете получить более сильные результаты, если добавите более строгие предположения. Люди, которые не знакомы с полным математическим выводом результатов, часто могут неправильно понять необходимые предположения для результата, либо слишком слабо излагая свою модель, чтобы получить требуемый результат, либо выдвигая некоторые ненужные предположения, полагая, что они необходимы для результата ,
Хотя можно получить более сильные допущения для получения дополнительных результатов, регрессионный анализ связан с условным распределением вектора ответа. Если модель выходит за рамки этого, то она входит в территорию многомерного анализа и не является строго (просто) регрессионной моделью. Ситуация еще более усложняется тем фактом, что в регрессии принято ссылаться на результаты распределения, не всегда тщательно указывая, что они являются условными распределениями (учитывая объясняющие переменные в матрице плана). В случаях, когда модели выходят за рамки условных распределений (предполагая предельное распределение для поясняющих векторов), пользователь должен быть осторожным, чтобы указать это различие; к сожалению, люди не всегда осторожны с этим.
Модель линейной регрессии гомоскедаста. Самая ранняя отправная точка, которая обычно используется, состоит в том, чтобы принять форму модели и первые два момента ошибки без какого-либо предположения о нормальности вообще:
Эта настройка достаточна для того, чтобы вы могли получить оценку OLS для коэффициентов, несмещенную оценку для дисперсии ошибок, остатки и моменты всех этих случайных величин (в зависимости от объясняющих переменных в матрице плана). Он не позволяет вам получить полное условное распределение этих величин, но он допускает обращение к асимптотическим распределениям, если велико, и некоторые дополнительные предположения сделаны для ограничивающего поведения . Чтобы пойти дальше, принято предполагать конкретную форму распределения для вектора ошибок.n x
Нормальные ошибки: Большинство обработок гомоскедастической модели линейной регрессии предполагают, что вектор ошибок нормально распределен, что в сочетании с предположениями момента дает:
Это дополнительное допущение является достаточным, чтобы гарантировать, что оценщик OLS для коэффициентов является MLE для модели, и это также означает, что оценщик коэффициента и остатки нормально распределены, а оценщик для дисперсии ошибки имеет масштабированное распределение хи-квадрат (все условные объяснительные переменные в матрице проектирования). Это также гарантирует, что вектор ответа условно нормально распределен. Это дает результаты распределения, зависящие от объясняющих переменных в анализе, что позволяет строить доверительные интервалы и проверки гипотез. Если аналитик хочет сделать выводы о предельном распределении ответа, он должен пойти дальше и предположить распределение для объясняющих переменных в модели.
Совместно-нормальные объяснительные переменные. Некоторые методы лечения модели гомоскедастической линейной регрессии выходят за рамки стандартных методов лечения и не требуют фиксированных объясняющих переменных. (Возможно, это переход от регрессионного моделирования к многомерному анализу.) Наиболее распространенная модель такого рода предполагает, что поясняющие векторы являются случайными векторами, сочетающимися с нормальным IID. Пусть будет м пояснительным вектором ( й строкой матрицы дизайна), который мы имеем:X(i) i i
Это дополнительное допущение является достаточным для обеспечения того, чтобы вектор ответа был незначительно нормально распределен. Это сильное предположение, и оно обычно не навязывается в большинстве проблем. Как уже говорилось, это выводит модель за пределы регрессионного моделирования и превращает ее в многомерный анализ.
источник