Это то, что я вижу в качестве специального метода, и это мне кажется очень подозрительным, но, возможно, я что-то упустил. Я видел, как это делалось в множественной регрессии, но давайте просто сделаем это просто:
Теперь возьмите остатки от установленной модели
и расслаивать выборку по размеру остатков. Например, скажем, первая выборка - это нижние 90% остатков, а вторая выборка - верхние 10%, а затем приступим к выполнению двух выборочных сравнений - я видел, что это было сделано как для предиктора в модели, , и на переменные не в модели. Неофициальная логика заключается в том, что, возможно, точки, значения которых намного превышают ожидаемые в модели (то есть большой остаток), в некотором роде различаются, и это различие исследуется таким образом.
Мои мысли на эту тему:
- Если вы видите разницу в 2 выборки для предиктора в модели, то существуют эффекты предиктора, не учитываемые моделью в ее текущем состоянии (то есть нелинейные эффекты).
- Если вы видите разницу в 2 выборки для переменной, которой нет в модели, то, возможно, она должна была быть в модели в первую очередь.
Одна вещь , которую я нашел эмпирически ( с помощью моделирования) является то , что, если вы сравниваете среднее предсказатель в модели и стратифицировать таким образом , чтобы произвести два примера средства, ¯ х 1 и ¯ х 2 , они положительно коррелирует друг с другом. Это имеет смысл , так как оба образца зависит от ¯ г , ¯ х , σ х , σ у и ρ х у, Эта корреляция увеличивается по мере того, как вы смещаете отсечку (т. Е.%, Который вы используете для деления выборки). Поэтому, по крайней мере, если вы собираетесь провести сравнение с двумя выборками, стандартная ошибка в знаменателе -статистики должна быть скорректирована с учетом корреляции (хотя я не получил явную формулу для ковариация).
Во всяком случае, мой основной вопрос: есть ли для этого обоснование? Если да, то в каких ситуациях это может быть полезно? Очевидно, я не думаю, что есть, но может быть что-то, о чем я не думаю в правильном направлении.
источник
IV
и те же значения ? Если так, я не вижу смысла в этом, потому что остаточное разделение уже использует эту информацию. Можете ли вы привести пример, где вы видели это, это ново для меня?Ответы:
Сравнение средств слишком слабое: вместо этого сравните распределения.
Существует также вопрос относительно того, является ли более желательным сравнение размеров остатков (как указано) или сравнение самих остатков. Поэтому я оцениваю оба.
Чтобы быть точным в том, что имеется в виду, вот некоторый(x,y) y x q0 Q1> д0 Икс
R
код для сравнения данных (заданных в параллельных массивах и ) путем регрессии y на x , деления остатков на три группы путем их разрезания ниже квантиля q 0 и выше квантиля q 1 > q 0 и (посредством графика qq) сравнивают распределения значений x, связанных с этими двумя группами.x
y
Пятый аргумент этой функции,
abs0
по умолчанию использует размеры (абсолютные значения) остатков для формирования групп. Позже мы можем заменить это функцией, которая использует сами остатки.Остатки используются для обнаружения многих вещей: выбросов, возможных корреляций с экзогенными переменными, качества соответствия и гомоскедастичности. Выбросы по своей природе должны быть немногочисленными и изолированными, и, следовательно, здесь не будут играть значимой роли. Чтобы сделать этот анализ простым, давайте рассмотрим последние два: соответствие качества (то есть линейность отношения - y ) и гомоскедастичность (то есть постоянство размера невязок). Мы можем сделать это с помощью симуляции:Икс Y
sd
abs0
n.trials
n
n
, бета, с иsd
). Примеры этих графиков приведены ниже.Давайте теперь используем эти инструменты, чтобы исследовать некоторые реалистичные комбинации нелинейности и гетероскедастичности, используя абсолютные значения невязок:
Давайте сделаем то же самое, используя точно такие же данные , но проанализировав сами остатки. Для этого предыдущий блок кода был перезапущен после внесения этой модификации:
Возможно объединение этих двух методов будет работать. Эти симуляции (и их разновидности, которые заинтересованный читатель может запустить на досуге) демонстрируют, что эти методы не лишены достоинств.
источник
Я согласен с обоими вашими соображениями. Если модель неадекватна, остатки могут не быть приблизительно независимыми и одинаково распределенными. Важные переменные могли быть пропущены, или функциональная форма переменных регрессора могла быть неправильной. Если это так, я бы использовал стандартную регрессионную диагностику, чтобы определить проблему, а не эту. Также вы можете иметь правильные переменные в модели с правильной функциональной формой, но при этом иметь непостоянную дисперсию. Это может быть очевидным, только еслиея против Икся , Я вижу смысл говорить о желании найти выбросы в модели через некоторую форму невязки, но тогда я бы порекомендовал подход функции влияния для их обнаружения. Я не вижу, что выполняет эта процедура.
Другие отметили, что это может быть просто исследовательским инструментом, чтобы увидеть, должны ли два набора данных моделироваться отдельно. Если это так, то этот и, возможно, другие исследовательские подходы могут быть в порядке. Но тогда возникает вопрос: что вы будете делать дальше? Если вы собираетесь провести две отдельные регрессии и сделать выводы о выборках, я думаю, вам нужно каким-то образом учитывать способ разделения выборки.
источник
Я полагаю, что для этого может быть несколько причин, например, если предположить, что невязки согласованы, то метод, который вы упомянули, может помочь идентифицировать отдаленные наблюдения, поэтому на втором этапе предусмотрены «исправленные» оценки. Но есть более строгие методы, которые выполняют обнаружение посторонних или которые обеспечивают оценки, которые являются устойчивыми к присутствию таких наблюдений, таких как квантильные регрессии, LMS (наименьшее среднее квадратов) или M-оценки и т. Д., Где все эти методы хорошо определены и известные статистические свойства. (Это было добавлено @Michael Chernik)
Другой мотивацией может быть идентификация кластера, но это примитивно по сравнению с доступными методами обнаружения кластеров, которые также хорошо определены и широко применяются.
В обоих случаях использование остатков кажется неформальным и примитивным, но все же может рассматриваться как исследовательский инструмент. Это также зависит от области читателей. Я считаю это приемлемым для некоторых социальных наук, где количественные инструменты могут быть менее популярными.
источник