Когда квантильная регрессия хуже, чем OLS?

22

Помимо некоторых уникальных обстоятельств, когда мы абсолютно должны понимать условные средние отношения, в каких ситуациях исследователь должен выбрать OLS вместо квантильной регрессии?

Я не хочу, чтобы ответ был «если нет смысла в понимании отношений хвоста», так как мы могли бы просто использовать медианную регрессию в качестве замены OLS.

Фрэнк Харрелл
источник
4
Я думаю, что большинство исследователей будут развлекать как МЖС, так и квантильную регрессию; Различия между методами проливают свет на то, что вы пытаетесь смоделировать. Что касается OLS, если вы отбросите предположения о нормальности, вы получите довольно хорошо документированную и тщательную методологию тестирования, доступную в большинстве статистических пакетов.
Джонатан Лисич

Ответы:

18

Если вас интересует среднее значение, используйте OLS, если в медиане, используйте квантиль.

Одно большое отличие состоит в том, что среднее значение больше зависит от выбросов и других экстремальных данных. Иногда это то, что вы хотите. Одним из примеров является то, что вашей зависимой переменной является социальный капитал по соседству. Присутствие одного человека с большим социальным капиталом может быть очень важным для всего района.

Питер Флом - Восстановить Монику
источник
6
Позвольте мне оспорить ваше первое предложение. И OLS, и квантильная регрессия (QR) оценивают для процесса генерации данных y = X β + ε . Если распределение ошибок имеет тяжелые хвосты, β Q R является более эффективным , чем β O L S . Независимо от того, какого момента условного распределения Р ( у | X ) мы заинтересованы в том , что мы должны использовать один из беты O L S и & beta ; Q Rβy=Xβ+εβ^QRβ^OLSP(y|X)β^OLSβ^Qрэто более эффективно.
Ричард Харди
Следуя критике @RichardHardy этого ответа, медиана является лишь одним из квантилей, которые можно оценить. В этом документе Хиндмана представлен подход, который он называет « усиление аддитивной квантильной регрессии», который исследует полный спектр квантилей, « Прогнозирование неопределенности в данных интеллектуального счетчика электроэнергии» путем усиления аддитивной квантильной регрессии ( ieeexplore.ieee.org/document/7423794 ).
Майк Хантер
15

Кажется, в предпосылке вопроса есть путаница. Во втором абзаце говорится, что «мы могли бы просто использовать медианную регрессию в качестве заменителя МНК». Обратите внимание, что регрессия условной медианы на X является (формой) квантильной регрессии.

Если ошибка в базовом процессе генерирования данных нормально распределена (что можно оценить, проверив, являются ли остатки нормальными), тогда условное среднее равно условной медиане. Более того, любой квантиль, который вас может заинтересовать (например, 95-й или 37-й процентиль), может быть определен для данной точки в измерении X стандартными методами OLS. Основная привлекательность квантильной регрессии заключается в том, что она более устойчива, чем OLS. Недостатком является то, что если все предположения будут выполнены, это будет менее эффективно (то есть вам потребуется больший размер выборки для достижения той же мощности / ваши оценки будут менее точными).

Gung - Восстановить Монику
источник
12

И OLS, и квантильная регрессия (QR) являются методами оценки для оценки вектора коэффициента в модели линейной регрессии y = X β + ε (для случая QR см. Koenker (1978), с. 33, второй абзац).β

y=Xβ+ε

Для некоторых распределений ошибок (например , те с тяжелыми хвостами), то оценка QR - β Q R является более эффективным , чем МНК - оценка β O L S ; напомним , что β O L S является эффективным только в классе линейных несмещенных оценок. Это основной мотив для Koenker (1978), который предлагает использовать QR вместо OLS в различных условиях. Я думаю , что на любой момент условного распределения P Y ( у | X ) мы должны использовать один из беты O L S иβ^QRβ^OLSβ^OLSPY(y|X)β^OLSβ^QR

β^OLSβ^QRβ^OLSβ^QR

Ссылки:

  • Кенкер, Роджер и Гилберт Бассетт-младший "Квантили регрессии". Эконометрика: журнал Эконометрического общества (1978): 33-50.
Ричард Харди
источник
3

У Питера Флома был отличный и лаконичный ответ, я просто хочу его расширить. Самая важная часть вопроса - как определить «хуже».

Чтобы определить худшее, нам нужно иметь некоторые метрики и функцию для расчета того, насколько хорошими или плохими являются фитинги, которые называются функциями потерь.

У нас могут быть разные определения функции потерь, и нет правильного или неправильного в каждом определении, но разные определения удовлетворяют разные потребности. Двумя хорошо известными функциями потерь являются квадратные потери и абсолютные значения потерь.

LsQ(Y,Y^)знак равноΣя(Yя-Y^я)2
Laбs(Y,Y^)знак равноΣя|Yя-Y^я|

Если мы используем квадратичные потери в качестве меры успеха, квантильная регрессия будет хуже, чем OLS. С другой стороны, если мы используем потерю абсолютного значения, квантильная регрессия будет лучше.

Вот что ответит Питер Фольм:

Если вас интересует среднее значение, используйте OLS, если в медиане, используйте квантиль.

Haitao Du
источник
Я думаю, что ваш пример может вводить в заблуждение, поскольку он касается подбора в выборке (что малоинтересно, поскольку мы уже знаем нашу выборку совершенно), а не ожидаемой потери для новых наблюдений (когда целью является прогноз) или потери оценки вектора параметра ( когда целью является объяснение). См. Комментарий под ответом Питера Флома и мой ответ для более подробной информации.
Ричард Харди
3

Чтобы сказать то, что сказали некоторые из превосходных ответов выше, но немного по-другому, квантильная регрессия делает меньше предположений. С правой стороны модели допущения такие же, как и с OLS, но с левой стороны единственным допущением является непрерывность распределенияY (few ties). One could say that OLS provides an estimate of the median if the distribution of residuals is symmetric (hence median=mean), and under symmetry and not-too-heavy tails (especially under normality), OLS is superior to quantile regression for estimating the median, because of much better precision. If there is only an intercept in the model, the quantile regression estimate is exactly the sample median, which has efficiency of 2π when compared to the mean, under normality. Given a good estimate of the root mean squared error (residual SD) you can use OLS parametrically to estimate any quantile. But quantile estimates from OLS are assumption-laden, which is why we often use quantile regression.

If you want to estimate the mean, you can't get that from quantile regression.

If you want to estimate the mean and quantiles with minimal assumptions (but more assumptions than quantile regression) but have more efficiency, use semiparametric ordinal regression. This also gives you exceedance probabilities. A detailed case study is in my RMS course notes where it is shown on one dataset that the average mean absolute estimation error over several parameters (quantiles and mean) is achieved by ordinal regression. But for just estimating the mean, OLS is best and for just estimating quantiles, quantile regression was best.

Another big advantage of ordinal regression is that it is, except for estimating the mean, completely Y-transformation invariant.

Frank Harrell
источник