Я наблюдаю странные закономерности в остатках для моих данных:
[EDIT] Вот графики частичной регрессии для двух переменных:
[EDIT2] Добавлен график PP
Распределение, кажется, работает хорошо (см. Ниже), но я понятия не имею, откуда может идти эта прямая линия. Любые идеи?
[ОБНОВЛЕНИЕ 31.07]
Оказывается, вы были абсолютно правы, у меня были случаи, когда количество ретвитов было действительно 0, и эти ~ 15 случаев приводили к этим странным остаточным моделям.
Остатки теперь выглядят намного лучше:
Я также включил частичные регрессии в линию лесса.
Ответы:
Кажется, что в некотором поддиапазоне ваша зависимая переменная является постоянной или точно линейно зависимой от предиктора (ей). Давайте иметь две коррелированные переменные, X и Y (Y зависит). Диаграмма рассеяния находится слева.
Вернемся, как пример, к первой («постоянной») возможности. Перекодируйте все значения Y от минимального значения до -0,5 до одного значения -1 (см. Рисунок в центре). Регрессируйте Y на X и постройте разброс остатков, то есть поверните центральное изображение так, чтобы линия прогнозирования теперь была горизонтальной. Это похоже на вашу картину?
источник
Неудивительно, что вы не видите паттерн в гистограмме, нечетный паттерн охватывает значительную часть диапазона гистограммы и представляет только несколько точек данных в каждом бине. Вам действительно нужно выяснить, что это за точки данных, и посмотреть на них. Вы можете использовать предсказанные значения и остатки, чтобы найти их достаточно легко. Как только вы найдете значения, начните исследовать, почему они могут быть особенными.
Сказав это, этот конкретный образец является только особенным, потому что он длинный. Если вы внимательно посмотрите на график остатков и график квантиля, вы увидите, что он повторяется, но это меньшие последовательности. Возможно, это действительно просто аномалия. Или, возможно, это действительно шаблон, который повторяется. Но вам нужно будет найти, где они находятся в необработанных данных, и изучить их, чтобы иметь хоть какую-то надежду на их понимание.
Чтобы немного помочь вам, график квантиль-квантиль предполагает, что у вас есть куча одинаковых остатков. Возможно, это может быть ошибка кодирования. Я могу создать что-то похожее в R с ...
Обратите внимание на плоские два плоских пятна на линии. Тем не менее, это кажется более сложным, чем это, потому что есть смысл, что идентичные остатки встречаются с рядом предикторов.
источник
Похоже, вы используете
R
. Если это так, обратите внимание , что вы можете определить точки на диаграмме рассеяния с использованием ? Идентифицировать . Я думаю, что здесь происходит несколько вещей. Во-первых, у вас есть очень влиятельная точка на графикеLN_RT_vol_in ~ LN_AT_vol_in
(выделенная) около (.2, 1,5). Скорее всего, это будет стандартизированный остаток около -3,7. Эффект этой точки будет состоять в том, чтобы сгладить линию регрессии, наклонив ее более горизонтально, чем резко восходящая линия, которую вы в противном случае получили бы. Результатом этого является то, что все ваши остатки будут повернуты против часовой стрелки относительно того места, где они в противном случае находились бы в пределахresidual ~ predicted
графика (по крайней мере, если думать в терминах этого ковариата и игнорировать другой).Тем не менее, видимая прямая линия остатков, которую вы видите, все равно будет там, поскольку они существуют где-то в трехмерном облаке ваших исходных данных. Их может быть трудно найти на любом из краевых участков. Вы можете использовать функцию Identif (), чтобы помочь, и вы также можете использовать пакет rgl для создания динамической трехмерной диаграммы рассеяния, которую вы можете свободно вращать с помощью мыши. Тем не менее, обратите внимание, что все остатки по прямой линии ниже 0 в их прогнозируемом значении и имеют остатки ниже 0 (т.е. они находятся ниже подогнанной линии регрессии); это дает вам подсказку, где искать. Снова глядя на ваш сюжет
LN_RT_vol_in ~ LN_AT_vol_in
Думаю, я их увижу. Существует довольно прямое скопление точек, идущих по диагонали вниз и влево от (-.01, -1.00) у нижнего края облака точек в этом регионе. Я подозреваю, что это те вопросы, о которых идет речь.Другими словами, остатки выглядят именно так, потому что они уже где-то в пространстве данных. По сути, это то, что предлагает @ttnphns, но я не думаю, что оно является постоянной величиной в любом из исходных измерений - это постоянная в измерении под углом к вашим исходным осям. Я также согласен с @MichaelChernick, что эта очевидная прямолинейность в остаточном графике, вероятно, безвредна, но ваши данные на самом деле не очень нормальны. Однако они несколько нормальны, и у вас, кажется, имеется приличное количество данных, так что CLT может охватить вас, но вы можете захотеть запустить его на всякий случай. Наконец, я бы волновался, что этот «выброс» влияет на ваши результаты; надежный подход , вероятно , заслуживает.
источник
it's a constant in a dimension at an angle to your original axes
быть сопоставимым с моимis exactly linearly dependent on the predictor(s)
, или вы имеете в виду что-то другое?Я бы не сказал, что с гистограммой все в порядке. Визуальное наложение наиболее подходящего нормального значения на гистограмму может быть обманчивым, и ваша гистограмма может быть чувствительной к выбору ширины бина. График нормальной вероятности, по-видимому, указывает на большое отклонение от нормы, и даже глядя на гистограмму, мне кажется, что наблюдается небольшая асимметрия (более высокая частота в бине [0, + 0,5] по сравнению с бином [-0,5,0]) и тяжелый эксцесс (слишком большая частота в интервалах [-4, -3.5] и [2.5, 3]).
Что касается паттерна, который вы видите, он может исходить от выборочного исследования через график рассеяния. Похоже, что если вы продолжите охоту, вы можете найти еще две или три линии, почти параллельные той, которую вы выбрали. Я думаю, вы слишком много читаете об этом. Но ненормальность - это реальная проблема. У вас есть один очень большой выброс с остатком почти -4. Эти остатки приходят из наименьших квадратов? Я согласен, что было бы поучительно взглянуть на подобранную линию на диаграмме разброса данных.
источник