Интересно, почему мы используем предположение Гаусса при моделировании ошибки. В курсе ML Стэнфорда профессор Нг описывает его в основном двумя способами:
- Это математически удобно. (Это связано с подходом наименьших квадратов и легко решается псевдообратным)
- Из-за центральной предельной теоремы мы можем предположить, что на процесс влияют многие основные факты, и сумма этих отдельных ошибок будет вести себя как в нормальном распределении с нулевым средним. На практике это кажется так.
Я заинтересован во второй части на самом деле. Насколько я знаю, центральная предельная теорема работает для семплов iid, но мы не можем гарантировать, что базовые семплы будут iid.
Есть ли у вас какие-либо идеи по поводу гауссовского предположения об ошибке?
regression
normality-assumption
pac-learning
Petrichor
источник
источник
Ответы:
Я думаю, что вы в основном ударили ногтем по голове в вопросе, но я посмотрю, смогу ли я что-нибудь добавить. Я собираюсь ответить на это немного окольным путем ...
В области робастной статистики рассматривается вопрос о том, что делать, если предположение Гаусса не выполняется (в том смысле, что существуют выбросы):
Они были применены и в ML, например, в Mika el al. (2001) Подход математического программирования к алгоритму ядра Фишера , они описывают, как робастная потеря Хубера может использоваться с KDFA (наряду с другими функциями потерь). Конечно, это потеря классификации, но KFDA тесно связана с машиной векторов релевантности (см. Раздел 4 статьи Мики).
Как следует в этом вопросе, существует тесная связь между функциями потерь и моделями ошибок байесовских (см здесь для обсуждения).
Однако обычно бывает так, что, как только вы начинаете включать «причудливые» функции потерь, оптимизация становится сложной (обратите внимание, что это происходит и в байесовском мире). Поэтому во многих случаях люди прибегают к стандартным функциям потерь, которые легко оптимизировать, и вместо этого проводят дополнительную предварительную обработку, чтобы убедиться, что данные соответствуют модели.
Другой момент, который вы упомянули, заключается в том, что CLT применяется только к образцам с IID. Это правда, но тогда предположения (и сопутствующий анализ) большинства алгоритмов одинаковы. Когда вы начинаете просматривать данные, не относящиеся к IID, все становится намного сложнее. Один пример - если есть временная зависимость, и в этом случае обычно подход состоит в том, чтобы предполагать, что зависимость охватывает только определенное окно, и поэтому выборки можно рассматривать приблизительно как IID вне этого окна (см., Например, эту блестящую, но прочную бумагу Chromatic PAC). -Bayes Bounds для данных, не относящихся к IID: приложения для ранжирования и стационарных процессов β-смешивания ), после чего можно применять обычный анализ.
Так что, да, это сводится частично к удобству, а отчасти потому, что в реальном мире большинство ошибок выглядят (примерно) гауссовски. Конечно, всегда нужно быть осторожным при взгляде на новую проблему, чтобы убедиться, что предположения не нарушены.
источник