Я прочитал, что это условия для использования модели множественной регрессии:
- остатки модели почти нормальные,
- изменчивость остатков почти постоянна
- остатки независимы, и
- каждая переменная линейно связана с результатом.
Чем отличаются 1 и 2?
Вы можете увидеть один здесь прямо:
Таким образом, вышеприведенный график говорит, что остаток, составляющий 2 стандартных отклонения, находится на расстоянии 10 от оси Y. Это означает, что остатки следуют нормальному распределению. Вы не можете сделать вывод 2 из этого? Что изменчивость остатков почти постоянна?
Ответы:
1. Нормальное распределение остатков :
Этот график пытается проиллюстрировать распределение точек в популяции синим цветом (с линией регрессии населения в виде сплошной голубой линии), наложенной на набор данных образца большими желтыми точками (с оценочной линией регрессии, нанесенной в виде пунктирной желтой линии). Очевидно, это только для концептуального потребления, так как для каждого значения будут точки бесконечности - так что это графическая иконографическая дискретизация концепции регрессии как непрерывного распределения значений вокруг среднего значения (соответствует прогнозируемому значению). «независимой» переменной) при каждом заданном значении регрессора или объясняющей переменной.Икс= х
Если мы запустим диагностические R-графики на смоделированных данных о населении, мы получим ...
Дисперсия остатков постоянна по всем значениямИкс,
Типичный сюжет будет:
Концептуально, введение нескольких регрессоров или объясняющих переменных не меняет идею. Я считаю, что практическое руководство по пакету
swirl()
чрезвычайно полезно для понимания того, как множественная регрессия на самом деле представляет собой процесс регрессии зависимых переменных друг против друга, продвигая остаточное, необъяснимое изменение в модели; или, проще говоря, векторная форма простой линейной регрессии :2. Изменчивость остатков практически постоянна (гомоскедастичность) :
Проблема с нарушением этого условия является:
На этом графике дисперсия увеличивается со значениями регрессора (объясняющей переменной), а не остается постоянной. В этом случае остатки обычно распределяются, но дисперсия этого нормального распределения изменяется (увеличивается) с пояснительной переменной.
Обратите внимание, что «истинная» (популяционная) регрессионная линия не изменяется по отношению к регрессионной линии популяции при гомоскедастичности на первом графике (сплошной темно-синий), но интуитивно ясно, что оценки будут более неопределенными.
Диагностические графики на наборе данных ...
которые соответствуют распределению с «тяжелыми хвостами» , что имеет смысл в том смысле, что мы должны были объединить все «бок о бок» вертикальные гауссовские графики в один, который бы сохранял форму колокола, но имел очень длинные хвосты.
Остатки сильно искажены, и дисперсия увеличивается со значениями объясняющей переменной.
Это были бы диагностические участки ...
соответствует отмеченному правому перекосу.
Чтобы замкнуть петлю, мы также увидели бы перекос в гомоскедастической модели с негауссовым распределением ошибок:
с диагностическими участками как ...
источник
Это не вина ОП, но я начинаю уставать читать такую дезинформацию.
«Модель множественной регрессии» - это просто метка, заявляющая, что одна переменная может быть выражена как функция других переменных.
Ни истинный член ошибки, ни остатки модели не должны быть чем-то конкретным - если остатки выглядят нормально, это хорошо для последующего статистического вывода.
Изменчивость (дисперсия) члена ошибки не обязательно должна быть почти постоянной - если это не так, у нас есть модель с гетероскедастичностью, которая в настоящее время довольно легко обрабатывается.
Остатки не являются независимыми в любом случае, так как каждый является функцией всей выборки. В настоящие условия ошибки не должны быть независимыми -если они не у нас есть модель с автокорреляции, которые, хотя и более сложным , чем гетероскедастичности, могут быть решены до такой степени.
Каждая переменная не должна быть линейно связана с результатом. На самом деле, различие между «линейной» и «нелинейной» регрессией не имеет ничего общего с отношением между переменными - но с тем, как неизвестные коэффициенты входят в отношение.
Что можно сказать, так это то, что если первые три верны, а четвертый правильно задан, то мы получаем «Классическую модель нормальной линейной регрессии», которая является лишь одним (хотя и исторически первым) вариантом моделей множественной регрессии.
источник
У Антони Пареллада был отличный ответ с хорошей графической иллюстрацией.
Я просто хочу добавить один комментарий, чтобы обобщить разницу между двумя утверждениями
источник
Не существует единственного уникального набора регрессионных допущений, но есть несколько вариантов. Некоторые из этих наборов допущений являются более строгими, т.е. более узкими, чем другие. Кроме того, в большинстве случаев вам это не нужно, а во многих случаях вы не можете предположить, что распределение нормальное.
Предположения, которые вы цитировали, являются более строгими, чем большинство, но они сформулированы на излишне свободном языке. Например, что именно почти ? Кроме того , это не то остатки , на которых мы налагаем предположения, это ошибка . Остатки являются оценками ошибок, которые не наблюдаемы. Это говорит мне, что вы цитируете из плохого источника. Выброси это.
Краткий ответ на ваш вопрос состоит в том, что если вы рассмотрите какое-либо распределение, например распределение Student t, за ваши ошибки (я собираюсь использовать правильный термин в своем ответе), то вы сможете увидеть, как ошибки могут иметь «почти постоянное» изменение без учета нормального распределения и того, что наличие «почти постоянной» дисперсии не требует нормального распределения. Другими словами, нет, вы не можете придумать одно предположение из другого без дополнительного требования.
Таким образом, когда мы объединяем все предположения таким образом в одно или два уравнения, может показаться, что все они зависят друг от друга, что не соответствует действительности. Я собираюсь продемонстрировать это дальше.
Пример 1
Пример 2
источник
Я попытался добавить новое измерение в обсуждение и сделать его более общим. Пожалуйста, извините, если был слишком элементарен.
Модель регрессии является формальным средством выражения двух основных компонентов статистического отношения:
Постулируя это:
Источник: Прикладные линейные статистические модели, КННЛ.
Подойдя к вопросу
Первое и второе предположения, изложенные вами, являются двумя частями одного и того же предположения о нормальности с нулевым средним и постоянной дисперсией. Я думаю, что вопрос должен быть сформулирован как последствия двух допущений для нормальной модели регрессии ошибок, а не как разница между двумя допущениями. Я говорю это потому, что похоже на сравнение яблок с апельсинами, потому что вы пытаетесь найти разницу между предположениями о распределении разброса точек и предположениями о его изменчивости. Изменчивость является свойством распределения. Поэтому я постараюсь ответить на более актуальный вопрос о последствиях двух допущений.
В предположении нормальности оценки максимального правдоподобия (MLE) такие же, как оценки наименьших квадратов, а MLE обладают свойством UMVUE, что означает, что они имеют минимальную дисперсию среди всех оценок.
источник