Диагональные прямые в графике остатков и подгоночных значений для множественной регрессии

11

Я наблюдаю странные закономерности в остатках для моих данных: введите описание изображения здесь

[EDIT] Вот графики частичной регрессии для двух переменных:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] Добавлен график PP http://i.imgur.com/pCKFA.png

Распределение, кажется, работает хорошо (см. Ниже), но я понятия не имею, откуда может идти эта прямая линия. Любые идеи? введите описание изображения здесь

[ОБНОВЛЕНИЕ 31.07]

Оказывается, вы были абсолютно правы, у меня были случаи, когда количество ретвитов было действительно 0, и эти ~ 15 случаев приводили к этим странным остаточным моделям.

Остатки теперь выглядят намного лучше: http://i.imgur.com/XGas9.png

Я также включил частичные регрессии в линию лесса. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png

plotti
источник
Не могли бы вы также добавить подогнанную линию, нанесенную на исходные данные?
MånsT
Кроме того, в подзаголовках рисунков говорится «сообщество: аниме» и «сообщество: астрология», что, по-видимому, подразумевает, что эти сюжеты взяты из разных наборов данных ...
MånsT
Я помню, как видел этот тип паттернов в моих остатках, когда мои зависимые переменные являются категориальными или «недостаточно непрерывными».
король
Я добавил правильный график PP и частичные графики двух IV
plotti

Ответы:

23

Кажется, что в некотором поддиапазоне ваша зависимая переменная является постоянной или точно линейно зависимой от предиктора (ей). Давайте иметь две коррелированные переменные, X и Y (Y зависит). Диаграмма рассеяния находится слева.

введите описание изображения здесь

Вернемся, как пример, к первой («постоянной») возможности. Перекодируйте все значения Y от минимального значения до -0,5 до одного значения -1 (см. Рисунок в центре). Регрессируйте Y на X и постройте разброс остатков, то есть поверните центральное изображение так, чтобы линия прогнозирования теперь была горизонтальной. Это похоже на вашу картину?

ttnphns
источник
6
Это криминалистическая статистика в лучшем виде! Большой +1.
Майкл Р. Черник
Оказывается, вы были абсолютно правы, у меня были случаи, когда количество ретвитов было действительно 0, и эти ~ 15 случаев приводили к этим странным остаточным моделям. i.imgur.com/XGas9.png
plotti
4

Неудивительно, что вы не видите паттерн в гистограмме, нечетный паттерн охватывает значительную часть диапазона гистограммы и представляет только несколько точек данных в каждом бине. Вам действительно нужно выяснить, что это за точки данных, и посмотреть на них. Вы можете использовать предсказанные значения и остатки, чтобы найти их достаточно легко. Как только вы найдете значения, начните исследовать, почему они могут быть особенными.

Сказав это, этот конкретный образец является только особенным, потому что он длинный. Если вы внимательно посмотрите на график остатков и график квантиля, вы увидите, что он повторяется, но это меньшие последовательности. Возможно, это действительно просто аномалия. Или, возможно, это действительно шаблон, который повторяется. Но вам нужно будет найти, где они находятся в необработанных данных, и изучить их, чтобы иметь хоть какую-то надежду на их понимание.

Чтобы немного помочь вам, график квантиль-квантиль предполагает, что у вас есть куча одинаковых остатков. Возможно, это может быть ошибка кодирования. Я могу создать что-то похожее в R с ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Обратите внимание на плоские два плоских пятна на линии. Тем не менее, это кажется более сложным, чем это, потому что есть смысл, что идентичные остатки встречаются с рядом предикторов.

Джон
источник
3

Похоже, вы используете R. Если это так, обратите внимание , что вы можете определить точки на диаграмме рассеяния с использованием ? Идентифицировать . Я думаю, что здесь происходит несколько вещей. Во-первых, у вас есть очень влиятельная точка на графике LN_RT_vol_in ~ LN_AT_vol_in(выделенная) около (.2, 1,5). Скорее всего, это будет стандартизированный остаток около -3,7. Эффект этой точки будет состоять в том, чтобы сгладить линию регрессии, наклонив ее более горизонтально, чем резко восходящая линия, которую вы в противном случае получили бы. Результатом этого является то, что все ваши остатки будут повернуты против часовой стрелки относительно того места, где они в противном случае находились бы в пределах residual ~ predictedграфика (по крайней мере, если думать в терминах этого ковариата и игнорировать другой).

Тем не менее, видимая прямая линия остатков, которую вы видите, все равно будет там, поскольку они существуют где-то в трехмерном облаке ваших исходных данных. Их может быть трудно найти на любом из краевых участков. Вы можете использовать функцию Identif (), чтобы помочь, и вы также можете использовать пакет rgl для создания динамической трехмерной диаграммы рассеяния, которую вы можете свободно вращать с помощью мыши. Тем не менее, обратите внимание, что все остатки по прямой линии ниже 0 в их прогнозируемом значении и имеют остатки ниже 0 (т.е. они находятся ниже подогнанной линии регрессии); это дает вам подсказку, где искать. Снова глядя на ваш сюжетLN_RT_vol_in ~ LN_AT_vol_inДумаю, я их увижу. Существует довольно прямое скопление точек, идущих по диагонали вниз и влево от (-.01, -1.00) у нижнего края облака точек в этом регионе. Я подозреваю, что это те вопросы, о которых идет речь.

Другими словами, остатки выглядят именно так, потому что они уже где-то в пространстве данных. По сути, это то, что предлагает @ttnphns, но я не думаю, что оно является постоянной величиной в любом из исходных измерений - это постоянная в измерении под углом к ​​вашим исходным осям. Я также согласен с @MichaelChernick, что эта очевидная прямолинейность в остаточном графике, вероятно, безвредна, но ваши данные на самом деле не очень нормальны. Однако они несколько нормальны, и у вас, кажется, имеется приличное количество данных, так что CLT может охватить вас, но вы можете захотеть запустить его на всякий случай. Наконец, я бы волновался, что этот «выброс» влияет на ваши результаты; надежный подход , вероятно , заслуживает.

Gung - Восстановить Монику
источник
1
Может ли это ваше утверждение it's a constant in a dimension at an angle to your original axesбыть сопоставимым с моим is exactly linearly dependent on the predictor(s), или вы имеете в виду что-то другое?
ttnphns
@ttnphns, я пропустил эту часть твоего ответа, когда просмотрел ее; Я видел «константу» и видел точки на вашем графике, и это то, что я забрал. Да, «это константа в измерении ...» логически синоним w / «точно линейно зависимая ...». Теперь я понимаю, что моя ключевая точка в значительной степени совпадает с вашей (+1), хотя я думаю, что некоторые из моих других моментов (о том, какие данные являются вероятными виновниками, стратегии R, надежные подходы и т. Д.) Все еще вносят свой вклад в обсуждение.
gung - Восстановить Монику
Конечно, ваш ответ очень помог мне.
ttnphns
1

Я бы не сказал, что с гистограммой все в порядке. Визуальное наложение наиболее подходящего нормального значения на гистограмму может быть обманчивым, и ваша гистограмма может быть чувствительной к выбору ширины бина. График нормальной вероятности, по-видимому, указывает на большое отклонение от нормы, и даже глядя на гистограмму, мне кажется, что наблюдается небольшая асимметрия (более высокая частота в бине [0, + 0,5] по сравнению с бином [-0,5,0]) и тяжелый эксцесс (слишком большая частота в интервалах [-4, -3.5] и [2.5, 3]).

Что касается паттерна, который вы видите, он может исходить от выборочного исследования через график рассеяния. Похоже, что если вы продолжите охоту, вы можете найти еще две или три линии, почти параллельные той, которую вы выбрали. Я думаю, вы слишком много читаете об этом. Но ненормальность - это реальная проблема. У вас есть один очень большой выброс с остатком почти -4. Эти остатки приходят из наименьших квадратов? Я согласен, что было бы поучительно взглянуть на подобранную линию на диаграмме разброса данных.

Майкл Р. Черник
источник
Я добавил частичные сюжеты двух IV, чтобы пролить больше света на это
plotti
1
Я хотел бы видеть самую основную вещь, подогнанную линию, пробегающую график рассеяния данных.
Майкл Р. Черник