Когда прекратить дорабатывать модель?

15

Я изучал статистику из многих книг за последние 3 года, и благодаря этому сайту я многому научился. Тем не менее, один фундаментальный вопрос все еще остается без ответа для меня. У него может быть очень простой или очень сложный ответ, но я точно знаю, что это требует некоторого глубокого понимания статистики.

При подборе модели к данным, будь то частый или байесовский подход, мы предлагаем модель, которая может состоять из функциональной формы для правдоподобия, априора или ядра (непараметрического) и т. Д. Проблема заключается в любой модели соответствует образцу с некоторым уровнем благости. Всегда можно найти лучшую или худшую модель по сравнению с тем, что есть на данный момент. В какой-то момент мы останавливаемся и начинаем делать выводы, обобщать параметры популяции, сообщать доверительные интервалы, вычислять риск и т. Д. Следовательно, любой вывод, который мы делаем, всегда зависит от модели, с которой мы решили согласиться. Даже если мы используем инструменты для оценки ожидаемого расстояния KL, такие как AIC, MDL и т. Д., Это ничего не говорит о том, где мы находимся на абсолютной основе, а просто улучшает нашу оценку на относительной основе.

Теперь предположим, что мы хотели бы определить пошаговую процедуру для применения к любому набору данных при построении моделей. Что мы должны указать в качестве правила остановки? Можем ли мы, по крайней мере, ограничить ошибку модели, которая даст нам объективную точку остановки (это отличается от остановки обучения с использованием проверочной выборки, поскольку она также дает точку остановки в пределах оцениваемого класса модели, а не по истинному DGP)?

Кагдас Озгенц
источник
1
Я думаю, что вы должны добавить к вопросу другие теги, а не просто умозаключения, например, некоторые теги моделирования и выбор модели. Я думаю, что это может иметь отношение к этому, и бритва Оккама . Вот также статья, которая обсуждает это с байесовским моделированием.
Gumeo
Иногда вы строите конкретную модель, потому что она особенно хороша для оценки определенных параметров, а не потому, что вы думаете, что общее распределение является точным (см. M-оценка, обобщенные уравнения оценки) и т. Д. Итак, если вы действительно заботитесь о достойной оценке местоположения, вам может быть лучше с неправильной моделью, но не легко выбрасываемой шумом (для вашего параметра интереса). В общем, см. Надежная оценка.
Очень интересный вопрос Просто комментарий, что, по крайней мере, в байесовском сеттинге один вопрос также ставит вопрос об усреднении по вероятному подмножеству моделей, а не о выборе. Я не уверен в каком-либо теоретическом подходе к вопросу ОП и полагаю, что практически это делается благодаря тому, достаточно ли выбранная модель достаточно хороша для проблемы, которую мы пытаемся решить. Возможно, нам нужен выбор модели методами MCMC или что-то в этом роде! Я могу представить для этого подход с вложенным MCMC ...
Лука
@ Лука Это было сделано. Однако проблема остается, поскольку пространство моделей, определенных байесовским априором, может содержать или не содержать истинную модель. Даже если бы это произошло, ошибка модели все еще существует, это ошибка средней модели по отношению к истинному DGP.
Кагдас Озгенц
1
+1 за вопрос. В значительной степени эти проблемы являются философскими или epistemiological, то есть не только «то , что мы знаем , и как мы ее знаем» , но « что может мы знаем и как можно мы его знаем?» Как сказал физик Ричард Фейнман: «Невозможно найти ответ, который когда-нибудь не будет признан неправильным». Другими словами, и если вы не религиозны, есть разумное сомнение, существует ли однозначная, вечная основополагающая истина, на которой можно что-то закрепить . ,
Майк Хантер

Ответы:

12

К сожалению, этот вопрос не не есть хороший ответ. Вы можете выбрать лучшую модель, основываясь на том факте, что она минимизирует абсолютную ошибку, возводит в квадрат ошибку, максимизирует вероятность, используя некоторые критерии, которые штрафуют вероятность (например, AIC, BIC), чтобы упомянуть лишь несколько наиболее распространенных вариантов. Проблема в том, что ни один из этих критериев не позволит вам выбрать объективно лучшую модель, а скорее лучшую, из которой вы сравнили. Другая проблема заключается в том, что при оптимизации вы всегда можете получить локальный максимум / минимум. Еще одна проблема заключается в том, что выбранный вами критерий выбора модели субъективен . Во многих случаях вы сознательно или полусознательно принимаете решение о том, что вас интересует, и выбираете критерии, основанные на этом. Для примераиспользование BIC вместо AIC приводит к более экономным моделям с меньшими параметрами. Обычно для моделирования вас интересуют более скупые модели, которые приводят к некоторым общим выводам о вселенной, в то время как для прогнозирования это не обязательно должно быть так, а иногда более сложные модели могут иметь лучшую предсказательную силу (но не обязательно и часто Это не). В других случаях иногда более сложные модели предпочтительны по практическим соображениям, например, при оценке байесовской модели с MCMC модель с иерархическими гиперприорами может вести себя лучше при моделировании, чем более простая. С другой стороны, как правило, мы боимся переоснащенияи более простая модель имеет меньший риск переоснащения, так что это более безопасный выбор. Хорошим примером этого является автоматический пошаговый выбор модели, который, как правило, не рекомендуется, поскольку он легко приводит к переобученным и смещенным оценкам. Есть также философский аргумент, бритва Оккама , что самая простая модель является предпочтительной. Также обратите внимание, что мы обсуждаем здесь сравнение различных моделей, в то время как в реальных ситуациях это также может быть так, что использование различных статистических инструментов может привести к разным результатам - таким образом, существует дополнительный уровень выбора метода!

Все это приводит к печальному, но интересному факту, что мы никогда не можем быть уверены. Мы начинаем с неопределенности, используем методы, чтобы справиться с ней, и в итоге мы получаем неопределенность. Это может быть парадоксальным, но помните, что мы используем статистику, потому что мы считаем, что мир неопределенен и вероятен (в противном случае мы бы выбрали карьеру пророков), так как мы могли бы в итоге прийти к другим выводам? Не существует объективного правила остановки, есть несколько возможных моделей, все они ошибочны (извините за клише!), Потому что они пытаются упростить сложную (постоянно меняющуюся и вероятностную) реальность. Мы находим некоторые из них более полезными, чем другие для наших целей, и иногда мы делаемнайти разные модели, полезные для разных целей. Вы можете пойти к самому низу, чтобы заметить, что во многих случаях мы создаем модели с неизвестными , которые в большинстве случаев никогда не могут быть известны или даже не существуют (у населения есть по возрасту?). Большинство моделей даже не пытаются описать реальность, а предоставляют абстракции и обобщения, поэтому они не могут быть «правильными» или «правильными».μθμ

Вы можете пойти еще глубже и обнаружить, что в реальности не существует такой вещи, как «вероятность» - это всего лишь некоторая аппроксимация неопределенности вокруг нас, и есть также альтернативные способы приближения к ней, например, нечеткая логика (см. Kosko, 1993). для обсуждения). Даже самые базовые инструменты и теоремы, на которых основаны наши методы, являются приблизительными и не единственными возможными. Мы просто не можем быть уверены в такой установке.

Правило остановки, которое вы ищете, всегда специфично для проблемы и субъективно, т.е. основано на так называемом профессиональном суждении. Кстати, есть много примеров исследований, которые показали, что профессионалы часто не лучше, а иногда даже хуже в своих суждениях, чем миряне (например, возрожденные в работах и ​​книгах Даниэля Канемана ), хотя они более склонны к самоуверенности (это на самом деле аргумент о том, почему мы не должны быть «уверены» в наших моделях).


Коско, Б. (1993). Нечеткое мышление: новая наука нечеткой логики. Нью-Йорк: Гиперион.

Тим
источник
1
Если бы существовал «истинный DGP», и мы смогли измерить его, нам не понадобилась бы статистика, мы бы измерили это напрямую. Его не существует, поэтому мы создаем приближения реальности. DGP абстрактен и не соответствует действительности, и во многих случаях не имеет ничего общего с тем, как на самом деле были созданы данные. Я хочу отметить, что я не говорю, что статистика субъективна и бесполезна, а скорее, что это приближение и нет таких вещей, как «истинный DGP» или «истинный » и т. Д.μ
Тим
1
Утверждение верно, когда его предположения удовлетворены (например, нам дан фиксированный образец, что верно на практике). Вырванные из контекста и с нарушениями допущений, это, конечно, можно сделать ложным.
Ричард Харди
1
@CagdasOzgenc - это кто-то, у кого есть методология для создания модели, которая идеально отражает реальность, чем нет необходимости останавливать правило или измерять погрешность модели - модель идеальна по определению. Если вы знаете , на правила для построения такой модели, нет необходимости измерять дивергенцию модели от истинного DGP, так как зная истинный DGP просто использовать эти знания. С другой стороны, если ваша модель является упрощением на основе имеющихся у вас данных, то применяются общие правила статистики, как описано в моем ответе.
Тим
1
@CagdasOzgenc все же, если вы знаете «правду», тогда правило остановки простое: остановитесь, когда ваша модель соответствует «правде». Если вы не знаете, что является правдой, то «все модели [одинаково] ошибочны ...» и вам приходится использовать статистику. Если вы не знаете, вы не можете измерить отклонение от этого.
Тим
1
@ Luca Это очень много значит , но это абстрактно.
Тим
4

Существует целое поле, называемое непараметрической статистикой, которое избегает использования сильных моделей. Тем не менее, ваше беспокойство по поводу подгонки моделей само по себе является обоснованным. К сожалению, нет никакой механической процедуры для подбора моделей, которые были бы универсально приняты как «оптимальные». Например, если вы хотите определить модель, которая максимизирует вероятность ваших данных, то вы попадете в эмпирическую функцию распределения.

Тем не менее, у нас обычно есть некоторые исходные предположения и ограничения, такие как непрерывные с конечными первым и вторым моментами. Для подобных случаев одним из подходов является выбор меры, подобной дифференциальной энтропии Шеннона, и максимизация ее в пространстве непрерывных распределений, которые удовлетворяют вашим граничным ограничениям.

Я хотел бы отметить, что если вы не хотите просто использовать ECDF по умолчанию, то вам нужно добавить допущения, помимо данных, чтобы добраться туда, и это требует предметной экспертизы, и, да, страшный ..... профессиональное суждение

Итак, есть ли гарантированная остановка для моделирования ... ответ - нет. Есть ли достаточно хорошее место, чтобы остановиться? Как правило, да, но этот момент будет зависеть не только от данных и некоторых статистических данных, вы обычно будете принимать во внимание риски различных ошибок, технические ограничения для реализации моделей и надежность их оценок, и т.п.

Как указал @Luca, вы всегда можете усреднить по классу моделей, но, как вы правильно заметили, это просто подтолкнет вопрос к следующему уровню гиперпараметров. К сожалению, мы, кажется, живем в бесконечно многослойном луке ... в обоих направлениях!


источник