Я не очень понимаю гетероскедастичность. Я хотел бы знать, подходит ли моя модель в соответствии с этим сюжетом.
17
Я не очень понимаю гетероскедастичность. Я хотел бы знать, подходит ли моя модель в соответствии с этим сюжетом.
Ответы:
Как прокомментировал @IrishStat, вам нужно сравнить наблюдаемые значения с ошибками, чтобы увидеть, есть ли проблемы с изменчивостью. Я вернусь к этому ближе к концу.
Точно так же вы получите представление о том, что мы подразумеваем под гетероскедастичностью: когда вы подгоняете линейную модель к переменной вы, по сути, говорите, что делаете предположение, что ваш y ∼ N ( X β , σ 2 ) или с точки зрения непрофессионала, что ваш Ожидается, что y будет равняться X β плюс некоторые ошибки, которые имеют дисперсию σ 2 . Это практически ваша линейная модель y = X β + ϵ , где погрешности ϵ ∼ N ( 0 , σ 2 )Y Y∼ N( Xβ, σ2) Y Иксβ σ2 Yзнак равно Xβ+ ϵ ϵ ∼ N( 0 , σ2) , Хорошо, пока что, давайте посмотрим, что в коде:
так правильно, как ведет себя моя модель:
что должно дать вам что-то вроде этого: это означает, что ваши остатки, кажется, не имеют явной тенденции, основанной на вашем произвольном индексе (1-й график - наименее информативный на самом деле), кажется, не имеют реальной корреляции между ними (2-й график - довольно важный вероятно, более важно, чем гомоскедастичность), и что установленные значения не имеют явной тенденции к провалу, т.е. ваши установленные значения против ваших остатков кажутся довольно случайными. Исходя из этого, мы бы сказали, что у нас нет проблем гетероскедастичности, поскольку наши остатки, по-видимому, имеют одинаковую дисперсию везде.
Хорошо, вы хотите гетероскедастичность, хотя. Учитывая те же предположения о линейности и аддитивности, давайте определим еще одну порождающую модель с «очевидными» проблемами гетероскедастичности. А именно после некоторых значений наше наблюдение будет намного более шумным.
где простые диагностические участки модели:
должен дать что-то вроде: здесь первый сюжет кажется немного «странным»; похоже, у нас есть несколько остатков, которые сгруппированы в небольших величинах, но это не всегда проблема ... Второй график в порядке, означает, что у нас нет корреляции между вашими остатками в разных лагах, поэтому мы могли бы дышать на мгновение. И третий сюжет проливает бобы: совершенно ясно, что, когда мы достигли более высоких значений, наши остатки взрываются. У нас определенно есть гетероскедастичность в остатках этой модели, и нам нужно что-то предпринять (например, IRLS , регрессия Тейла -Сен и т. Д.)
Здесь проблема была действительно очевидной, но в других случаях мы могли бы пропустить; чтобы уменьшить наши шансы пропустить его, еще один проницательный сюжет был упомянут IrishStat: «Остаточные значения в сравнении с наблюдаемыми значениями» или для нашей проблемы с игрушкой:
который должен дать что-то вроде:
Справедливости ради вашей ситуации, ваш график вычетов по сравнению с подгонкой значений выглядит относительно нормально. Проверка ваших остатков по сравнению с вашими наблюдаемыми значениями, вероятно, была бы полезна, чтобы убедиться, что вы в безопасности. (Я не упомянул QQ-графики или что-то в этом роде, чтобы не сбивать с толку вещи, но вы также можете кратко их проверить.) Я надеюсь, что это поможет вам понять гетероскедастичность и то, на что вам следует обратить внимание.
источник
Ваш вопрос, кажется, о гетероскедастичности (потому что вы упомянули это по имени и добавили тег), но ваш явный вопрос (например, в заголовке и), заканчивающий ваш пост, носит более общий характер: «Подходит ли моя модель в соответствии с этим? участок". Определить, является ли модель неподходящей, - это не только оценка гетероскедастичности.
Я удалил ваши данные с помощью этого сайта (ht @Alexis). Обратите внимание, что данные отсортированы в порядке возрастания
fitted
. Основываясь на регрессии и верхнем левом графике, это кажется достаточно точным:Я не вижу здесь никаких признаков гетероскедастичности. Сверху справа (qq-plot), похоже, нет никаких проблем с предположением о нормальности.
С другой стороны, кривая «S» в красной подгонке под низ (в верхнем левом графике) и графики acf и pacf (внизу) действительно проблематичны. Крайне слева большая часть остатков находится выше серой линии 0. При перемещении вправо основная масса остатков падает ниже 0, затем выше, а затем снова ниже. Результатом этого является то, что, если я скажу вам, что я смотрю на определенный остаток, и что он имеет отрицательное значение (но я не сказал вам, какой именно я смотрю), вы могли бы с большой точностью догадаться, что остатки поблизости были также отрицательно оценены. Другими словами, остатки не являются независимыми - знание чего-либо об одном дает вам информацию о других.
В дополнение к участкам, это можно проверить. Простой подход заключается в использовании теста прогонов :
Чтобы ответить на ваши явные вопросы: ваш график показывает последовательные автокорреляции / не независимость ваших остатков. Это означает, что ваша модель не соответствует текущей форме.
источник