Почему мы должны использовать t ошибок вместо обычных ошибок?

30

В этом посте Эндрю Гельмана есть следующий отрывок:

Байесовские модели 50-летней давности кажутся безнадежно простыми (за исключением, конечно, простых задач), и я ожидаю, что сегодняшние байесовские модели будут казаться безнадежно простыми, спустя 50 лет. (Просто для простого примера: мы, вероятно, должны обычно использовать t вместо обычных ошибок практически везде, но мы этого еще не делаем из-за привычки, привычки и математического удобства. Это может быть вескими причинами - в науке как в политике у консерватизма есть много хороших аргументов в его пользу, но я думаю, что в конечном итоге, когда мы освоимся с более сложными моделями, мы будем двигаться в этом направлении.)

Почему мы должны «регулярно использовать t вместо обычных ошибок практически везде»?

Картошка
источник

Ответы:

40

Потому что допущение нормальных ошибок - это то же самое, что допущение, что больших ошибок не возникает! Нормальное распределение имеет настолько легкие хвосты, что ошибки за пределами стандартных отклонения имеют очень низкую вероятность, а ошибки за пределами стандартных отклонений фактически невозможны. На практике это предположение редко соответствует действительности. При анализе небольших, аккуратных наборов данных из хорошо спроектированных экспериментов это может не иметь большого значения, если мы проведем хороший анализ остатков. С данными более низкого качества это может иметь гораздо большее значение.±3±6

При использовании методов, основанных на правдоподобии (или байесовских методах), эффект этой нормальности (как уже было сказано выше, фактически это предположение «нет больших ошибок») заключается в том, чтобы сделать вывод очень мало надежным. На результаты анализа слишком сильно влияют большие ошибки! Это должно быть так, поскольку допущение «нет больших ошибок» вынуждает наши методы интерпретировать большие ошибки как маленькие ошибки, и это может произойти только путем перемещения параметра среднего значения, чтобы уменьшить все ошибки. Один из способов избежать этого - использовать так называемые «надежные методы», см. Http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust. .pdf

Но Эндрю Гельман не пойдет на это, поскольку надежные методы обычно представлены весьма небайесовским способом. Использование t-распределенных ошибок в вероятностных / байесовских моделях - это другой способ получения надежных методов, поскольку -распределение имеет более тяжелые хвосты, чем нормальное, поэтому допускает большую долю больших ошибок. Параметр количества степеней свободы следует фиксировать заранее, а не оценивать по данным, поскольку такая оценка разрушит свойства робастности метода (*) (это также очень сложная проблема, функция вероятности для , число степеней свободы может быть неограниченным, что приводит к очень неэффективным (даже непоследовательным) оценкам).tν

Если, например, вы думаете (боитесь), что 1 из 10 наблюдений может быть «большими ошибками» (более 3 с.д.), то вы можете использовать распределение с 2 степенями свободы, увеличивая это число, если доля больших ошибок считается меньшей.t

Я должен отметить, что то, что я сказал выше, относится к моделям с независимыми распределенными ошибками. Также были предложения о многомерном распределении (которое не является независимым) как распределение ошибок. Это propsal сильно критиковали в газете «Новое платье короля: критический анализ многомерный регрессионной модели» Т. С. Бреуша, JC Робертсон и AH Welsh, в Statistica Neerlandica (1997) Vol. 51, № 3, с. 269-286, где они показывают, что многомерное распределение ошибок эмпирически неотличимо от нормального. Но эта критика не влияет на независимую модели. ttttt

(*) Одно упоминание об этом - MASS Venables & Ripley - Современная прикладная статистика с S (на странице 110 в 4-м издании).

Къетил б Халворсен
источник
3
Отличный ответ (+1). Обратите внимание, что даже когда является фиксированным, оценочные уравнения плохо определены, если поэтому я имею в виду, что Гельман имеет в виду распределение с параметром установленным в . Как показано в ответе на этот связанный с этим вопрос, это накладывает довольно сильные ограничения на надежность, которую можно ожидать от этого подхода. νν2tνν>2
user603
2
Отличный ответ и комментарий. Но: 1. Гельман защищает стандартную процедуру, которая будет лучше, чем допущение обычных ошибок. Таким образом, мы должны сравнить простые (нормальные ошибки) с распределением T для ошибок. 2. В связанном вопросе, связанном с user603, мы должны отметить, что если у qe есть предварительная информация, мы должны использовать ее. Байес выделяется предварительной информацией. И, наконец, у нас есть предварительная информация, которая не используется. 3. С последующими прогностическими проверками мы d know that the model proposed isnдостаточно хороши.
Маноэль Гальдино
1
@ Нил Г: Да, но Коши - это ! Точное решение о том, какой дистрибутив с тяжелыми хвостами использовать, конечно, требует гораздо большего анализа. t1
kjetil b halvorsen
1
Нет, t-распределение является единственным выбором, потому что t-распределение является последним предиктором гауссовой модели. Гельман не просто выбрал случайное распределение.
Нил Дж
1
См .: Мерфи, Кевин П. "Сопряженный байесовский анализ распределения Гаусса". def 1.2σ2 (2007): 16. Он выводит t-распределение в качестве апостериорного предиката гауссовой модели. Это не просто случай, когда разработчик модели выбирает произвольное распределение с тяжелыми хвостами.
Нил Г
10

Дело не только в «более тяжелых хвостах» - существует множество распределений, которые имеют форму колокольчиков и имеют тяжелые хвосты.

Распределение T является последним предиктором гауссовой модели. Если вы делаете предположение Гаусса, но у вас есть ограниченное доказательство, то полученная модель обязательно делает нецентральные масштабные t-распределенные прогнозы. В пределе, поскольку количество имеющихся у вас свидетельств уходит в бесконечность, вы получаете гауссовские прогнозы, поскольку предел распределения t равен гауссову.

Почему это происходит? Потому что с ограниченным количеством доказательств, есть неопределенность в параметрах вашей модели. В случае гауссовой модели неопределенность в среднем просто увеличит дисперсию (т. Е. Апостериорный прогноз для гауссиана с известной дисперсией все еще является гауссовым). Но неуверенность в дисперсии - вот что вызывает тяжелые хвосты. Если модель обучена с неограниченным количеством доказательств, больше нет никакой неопределенности (или среднего значения), и вы можете использовать свою модель, чтобы делать гауссовские прогнозы.

Этот аргумент применим для гауссовой модели. Это также относится к выводимому параметру, вероятности которого являются гауссовыми. Учитывая конечные данные, неопределенность относительно параметра является t-распределенной. Везде, где есть нормальные предположения (с неизвестным средним и дисперсией) и конечные данные, существуют t-распределенные апостериорные прогностические показатели.

Для всех байесовских моделей существуют аналогичные апостериорные предсказательные распределения. Гельман предлагает использовать их. Его опасения будут смягчены достаточными доказательствами.

Нил Г
источник
Вы можете подтвердить это некоторыми ссылками?
kjetil b halvorsen
2
@kjetilbhalvorsen: Мерфи, Кевин П. "Сопряженный байесовский анализ распределения Гаусса". def 1.2σ2 (2007): 16.
Нейл Дж
Интересная перспектива, я никогда не слышал этого раньше. Так приводят ли t-распределенные ошибки к t-распределенным прогнозам? Для меня это аргумент в пользу продолжения использования гауссовских ошибок. Если вы не ожидаете условных выбросов, модель условных ошибок не должна учитывать их. Это равносильно допущению, что все внешние значения происходят из внешних значений предикторов. Я не думаю, что это предположение во многих случаях так плохо. И по чисто эстетическим соображениям я не понимаю, почему условные и маргинальные распределения должны совпадать
shadowtalker
@ssdecontrol "Т-распределенные ошибки также приводят к t-распределенным предсказаниям?" Я не знаю, но я так не думаю. Для меня эта перспектива очень полезна для интуитивного понимания того, почему работает t-критерий.
Нил Г,