Здесь обсуждается неправильное толкование предположения о нормальности в линейной регрессии (что «нормальность» относится к X и / или Y, а не к остаткам), и автор спрашивает, возможно ли иметь ненормально распределенные X и Y и все еще имеют нормально распределенные остатки.
Мой вопрос: нормально ли распределены X и Y с большей вероятностью приводят к нормально распределенным остаткам? Было много похожих постов, но я не верю никому, кто задавал этот вопрос специально.
Я понимаю, что, возможно, это тривиальный вопрос, если нужно выполнить только одну регрессию, но не так, если есть несколько тестов. Скажем, у меня есть 100 переменных X, которые имеют одинаковый перекос, и я хочу проверить их все. Если бы я преобразовал их все в нормальное распределение, было бы вероятно, что у меня было бы меньше переменных X, нуждающихся в повторном рассмотрении (с различными / без преобразования) из-за ненормально распределенных остатков, или преобразование до регрессии было бы совершенно произвольным?
Ответы:
Нет . Остатки являются значения условной на X (минус предсказанное среднее Y в каждой точке X ). Вы можете изменить X так , как вы хотите ( X + 10 , X - +1 / +5 , X / π ) и Y значения , которые соответствуют X значений в заданной точке в X не изменится. Таким образом, условное распределение Y (т. Е. Y | XY Икс Y Икс Икс Икс+ 10 Икс- 1 / 5 Икс/ π Y Икс Икс Y Y| Икс ) будет так же. То есть будет нормально или нет, как и раньше. (Чтобы понять эту тему более полно, это может помочь вам прочитать мой ответ здесь: что делать, если остатки нормально распределены, а Y нет? )
Что меняется может сделать ( в зависимости от характера преобразования данных вы используете) является изменение функциональной зависимости между X и Y . При нелинейном изменении X (например, для устранения перекоса) модель, которая была правильно задана ранее, станет неправильно заданной. Нелинейные преобразования X часто используются для линеаризации отношений между X и Y , чтобы сделать отношения более понятными или для решения другого теоретического вопроса.Икс Икс Y Икс Икс Икс Y
Для получения дополнительной информации о том, как нелинейные преобразования могут изменить модель, а также о вопросах, на которые отвечает модель (с акцентом на преобразование журналов), она может помочь вам прочитать эти прекрасные темы резюме:
R
На графиках мы видим, что оба маргинала выглядят достаточно нормальными, а совместное распределение выглядит достаточно двумерно нормальным. Тем не менее, однородность остатков проявляется в их qq-графике; оба хвоста отпадают слишком быстро относительно нормального распределения (как и должно быть).
источник
Краткий ответ - в классической теории простой регрессии, X фиксирован и считается известным (см., Например, http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ), даже без каких-либо ошибок измерения, в противном случае ваша бета наименьших квадратов может быть смещенной и даже непоследовательной (см. https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu / mrg217 / public / measure_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA ).
Что касается превращения X в переменную, то в Википедии по теореме Гаусса-Маркова очень кратко сказано:
«В большинстве случаев МНК данные X предполагаются фиксированными. Это предположение считается неуместным для преимущественно неэкспериментальной науки, такой как эконометрика. [2] Вместо этого предположения теоремы Гаусса – Маркова сформулированы условно для X »
которую я читаю как серьезное нелестное превращение науки в искусство или искусства / науки.
источник