Каковы преимущества линейной регрессии над квантильной регрессией?

Модель линейной регрессии делает кучу предположений, что квантильная регрессия не делает, и, если предположения о линейной регрессии соблюдаются, то моя интуиция (и некоторый очень ограниченный опыт) состоит в том, что срединная регрессия даст почти идентичные результаты как линейная регрессия.

Итак, какие преимущества имеет линейная регрессия? Это конечно более знакомо, но кроме этого?

regression multiple-regression quantile-regression Питер Флом - Восстановить Монику
источник

К «более знакомым» я бы добавил «интерпретируемость» и «стабильность», но для меня одним из преимуществ линейной регрессии является то, что она говорит вам о среднем и насколько хорошо это среднее представляет популяцию выборки (остатки очень информативны) , Линейная регрессия имеет такое же большое значение, когда ее предположения выполняются, и хорошее значение, когда они не выполняются.

JustGettinStarted

Я бы сказал, что одна важная проблема обсуждалась в этих двух темах: stats.stackexchange.com/questions/153348/… и stats.stackexchange.com/questions/146077/… - эффективность и, возможно, даже оптимальность при определенных условиях. предположения

Кристоф Ханк

Еще одним, но второстепенным моментом может быть добавление доступности явных, закрытых решений, которые, например, недоступны для LAD, что может сделать такие методы менее привлекательными для практиков.

Кристоф Ханк

Ответ может быть похож на сравнение простого случая оценки одного параметра совокупности, а затем на то, что наименьшие квадратные ошибки лучше работают с гауссовыми ошибками, а наименьшие абсолютные невязки (также с использованием допущений) работают лучше для ошибок другого типа. Но тогда этот вопрос касается более сложных линейных моделей, и проблема становится все более сложной и широкой. Интуиция простой проблемы (оценка единственного среднего значения / медианы) работает для более крупной модели, но насколько она должна решаться? И как сравнить, устойчивость к выбросам, распределениям, вычислениям?

Секст Эмпирик

В моем случае я обнаружил, что квантильную регрессию гораздо приятнее объяснять нетехническим людям, когда переменная отклика искажена (например, расходы клиента), а введение шага преобразования / функции связи затеняет весь анализ. В этом смысле я бы оспорил утверждение « срединная регрессия дала бы почти такие же результаты, что и линейная регрессия », поскольку это было бы слишком упрощенным; это не так, особенно при работе с потенциально искаженными переменными ответа.

usεr11852 говорит восстановить Monic

Ответы:

Очень часто утверждается, что минимизация наименьших квадратов остатков предпочтительнее, чем минимизация абсолютных остатков, потому что это вычислительно проще . Но, это может также быть лучше по другим причинам. А именно, если предположения верны (и это не так уж редко), то это обеспечивает решение, которое (в среднем) является более точным.

Максимальная вероятность

Регрессия наименьших квадратов и квантильная регрессия (когда они выполняются путем минимизации абсолютных невязок) могут рассматриваться как максимизация функции правдоподобия для распределенных ошибок Гаусса / Лапласа, и в этом смысле они очень тесно связаны.

Гауссово распределение:

$е (Икс) знак равно \frac{1}{\sqrt{2 π σ^{2}}} е^{- \frac{(Икс - μ)^{2}}{2 σ^{2}}}$ $f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

с логарифмической вероятностью, максимизируемой при минимизации суммы квадратов невязок

$журнал L (Икс) знак равно - \frac{N}{2} журнал (2 π) - N журнал (σ) - \frac{1}{2 σ^{2}} \underset{сумма квадратов остатков}{\underset{⏟}{Σ_{я знак равно 1}^{N} ({Икс}_{я} - μ)^{2}}}$ $\log \mathcal{L}(x) = -\frac{n}{2} \log (2 \pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \underbrace{\sum_{i=1}^n (x_i-\mu)^2}_{\text{sum of squared residuals}}$
Распределение Лапласа:

$е (Икс) знак равно \frac{1}{2 б} е^{- \frac{| Икс - μ |}{б}}$ $f(x) = \frac{1}{2b} e^{-\frac{\vert x-\mu \vert}{b}}$

с логарифмической вероятностью, максимизируемой при минимизации суммы абсолютных невязок

$журнал L (Икс) знак равно - N журнал (2) - N журнал (б) - \frac{1}{б} \underset{сумма абсолютных невязок}{\underset{⏟}{Σ_{я знак равно 1}^{N} | {Икс}_{я} - μ |}}$ $\log \mathcal{L}(x) = -n \log (2) - n \log(b) - \frac{1}{b} \underbrace{\sum_{i=1}^n |x_i-\mu|}_{\text{sum of absolute residuals}}$

^{Примечание: распределение Лапласа и сумма абсолютных невязок относится к медиане, но его можно обобщить для других квантилей, задав разные веса для отрицательных и положительных невязок.}

Распределение известных ошибок

Когда мы знаем распределение ошибок (когда предположения, скорее всего, верны), имеет смысл выбрать связанную функцию вероятности. Минимизация этой функции является более оптимальной.

Очень часто ошибки (приблизительно) нормально распределены. В этом случае использование наименьших квадратов - лучший способ найти параметр (который относится как к среднему, так и к медиане). Это лучший способ, поскольку он имеет наименьшую дисперсию выборки (наименьшую из всех несмещенных оценок). Или вы можете сказать более строго: что он является стохастически доминирующим (см. Иллюстрацию в этом вопросе, сравнивающую распределение медианы выборки и среднего значения выборки). $\mu$

Таким образом, когда ошибки распределены нормально, среднее значение выборки является лучшей оценкой медианы распределения, чем медиана выборки . Регрессия наименьших квадратов является более оптимальной оценкой квантилей. Это лучше, чем использовать наименьшую сумму абсолютных невязок.

Поскольку многие проблемы связаны с нормальными распределенными ошибками, использование метода наименьших квадратов очень популярно. Для работы с другими типами распределений можно использовать Обобщенную линейную модель . И метод итерационных наименьших квадратов, который можно использовать для решения GLM, также работает для распределения Лапласа (т. Е. Для абсолютных отклонений ), что эквивалентно нахождению медианы (или в обобщенной версии других квантилей).

Распределение неизвестных ошибок

прочность

Срединные или другие квантили имеют то преимущество, что они очень устойчивы в отношении типа распределения. Фактические значения не имеют большого значения, а квантили заботятся только о порядке. Поэтому независимо от распределения, минимизация абсолютных невязок (что эквивалентно нахождению квантилей) работает очень хорошо.

Здесь вопрос становится сложным и широким, и это зависит от того, какие знания мы имеем или не имеем о функции распределения. Например, распределение может быть приблизительно нормальным, но только с некоторыми дополнительными выбросами. Это может быть решено путем удаления внешних значений. Это удаление экстремальных значений даже работает при оценке параметра местоположения распределения Коши, где усеченное среднее может быть лучшей оценкой, чем медиана. Таким образом, не только для идеальной ситуации, когда верны предположения, но также и для некоторых менее идеальных приложений (например, дополнительных выбросов), могут быть хорошие надежные методы, которые все еще используют некоторую форму суммы квадратов невязок вместо суммы абсолютных невязок.

Я предполагаю, что регрессия с усеченными невязками может быть в вычислительном отношении гораздо более сложной. Таким образом, это может быть квантильная регрессия, которая является типом регрессии, выполняемой по той причине, что она вычислительно проще (не проще, чем обычные наименьшие квадраты, но проще, чем усеченные наименьшие квадраты).

Предвзятое / несмещенной

Еще одна проблема - предвзятые и объективные оценки. Выше я описал оценку максимального правдоподобия для среднего значения, то есть решение наименьших квадратов, в качестве хорошей или предпочтительной оценки, потому что она часто имеет самую низкую дисперсию из всех несмещенных оценок (когда ошибки распределены нормально). Но смещенные оценки могут быть лучше (более низкая ожидаемая сумма квадратов ошибок).

Это делает вопрос снова широким и сложным. Есть много разных оценщиков и много разных ситуаций для их применения. Использование адаптированной функции суммы квадратов остаточных потерь часто хорошо работает для уменьшения погрешности (например, все виды методов регуляризации), но, возможно, не обязательно будет работать хорошо для всех случаев. Интуитивно понятно, что нет ничего странного в том, что, поскольку функция суммы квадратов невязки часто работает хорошо для всех несмещенных оценок, оптимальные оценки, вероятно, близки к сумме функции потери квадрата невязки.

Секст Эмпирик
источник

Когда мы знаем распределение ошибок, имеет смысл выбрать соответствующую функцию правдоподобия. Минимизация этой функции является более оптимальной. Не сказать, что это неправильно, но, вероятно, должно быть квалифицированным. Конечно, это относится еще раз к моему вопросу (который вы ответили) об оптимальных оценках при различных функциях потерь.

Ричард Харди

Это лучший способ, потому что он имеет самую низкую дисперсию выборки. Дисперсия, как правило, не является разумной функцией потерь, потому что она пренебрегает смещением; разумный аналог - ожидаемая квадратичная ошибка (среднеквадратичная ошибка), которая учитывает как дисперсию, так и смещение. Регрессия наименьших квадратов является более оптимальной оценкой квантилей. Медиана - да, но другие? И если да, то почему? В любом случае, ваш очень хороший ответ!

Ричард Харди

@RichardHardy эта тема такая широкая. Действительно ошибка = дисперсия + смещение. Я предположил, что смещение среднего значения выборки такое же, как медиана выборки (или более общее: наименьшая сумма квадратов остатков и наименьшая сумма абсолютных остатков имеют одинаковое смещение). Это верно, учитывая различные распределения ошибок (например, симметричные распределения ошибок), но на самом деле вопросы становятся более сложными для других случаев. (

Sextus

То же самое (сложность вопроса) верно, когда мы рассматриваем не медиану, а некоторый другой квантиль. В случае нормальных распределенных ошибок я считаю, что MLE дает лучший результат для любого квантиля, но я согласен, что это интуиция. Опять же, проблема очень широкая (зависимость от количества выборок, типа распространения ошибок и уверенности в этом и т. Д.).

Секст Эмпирик

сломаны часы подойдут именно два раза в день, я не стал бы называть ОМП сломанными часами. Конечно, когда вы хорошо знаете проблему, вы можете ввести некоторую погрешность, уменьшающую дисперсию, чтобы улучшить общую ошибку. Это не обязательно приводит к другому (квантильному) типу регрессии, вы также можете просто положить немного джема или меда на хлеб с маслом наименьших квадратов. Если вы хотите сравнить MLE со сломанными часами, то это часы, которые стоят на месте в то время, которое мы максимально используем.

Секст Эмпирик

Линейная регрессия (LR) сводится к оптимизации наименьших квадратов при вычислении ее коэффициентов. Это подразумевает симметрию отклонений от регрессионной модели. Хорошее объяснение квантильной регрессии (QR) можно найти в https://data.library.virginia.edu/getting-started-with-quantile-regression/ .

Если предположения LR (необходимые для вывода: p-значения, доверительные интервалы и т. Д.) Удовлетворяются, QR и прогнозы LR будут аналогичными. Но если предположения сильно нарушены, ваш стандартный вывод LR будет неверным. Таким образом, квантильная (срединная) регрессия 0,5 имеет преимущество перед LR. Это также дает больше гибкости в обеспечении регрессии для других квантилей. Эквивалентом для линейных моделей была бы доверительная граница, вычисленная по LR (хотя это было бы неправильно, если iid сильно нарушается).

Так в чем же преимущество LR? Конечно, это легче вычислить, но если ваш набор данных имеет разумный размер, это может быть не очень заметно. Но что более важно, предположения о LR дают информацию, которая снижает неопределенность. В результате доверительные интервалы LR при прогнозировании обычно будут уже. Таким образом, если есть сильная теоретическая поддержка для предположений, узкие доверительные интервалы могут быть преимуществом.

Георгий Остроухов
источник

$E(Y \vert X)$ $Y$ $X$ $E(Y \vert X)= X \beta$ $\beta$

Квантильная регрессия может использоваться для оценки ЛЮБОГО квантиля условного распределения, включая медиану. Это дает потенциально гораздо больше информации, чем среднее значение об условном распределении. Если условное распределение не симметрично или хвосты, возможно, толстые (например, анализ риска), квантильная регрессия полезна ДАЖЕ, если все предположения о линейной регрессии выполнены.

Конечно, количественно более интенсивно проводить квантильную оценку относительно линейной регрессии, но, как правило, она гораздо более устойчива (например, медиана более устойчива, чем среднее значение для выбросов). Кроме того, это уместно, когда линейной регрессии нет - например, для цензурированных данных. Вывод может быть более сложным, так как прямая оценка дисперсионно-ковариационной матрицы может быть трудной или вычислительно дорогой. В этих случаях можно начать загрузку.

Kruggles
источник