Может ли регуляризация быть полезной, если мы заинтересованы только в моделировании, а не в прогнозировании?

19

Может ли регуляризация быть полезной, если мы заинтересованы только в оценке (и интерпретации) параметров модели, а не в прогнозировании или прогнозировании?

Я вижу, как регуляризация / перекрестная проверка чрезвычайно полезна, если ваша цель состоит в том, чтобы делать хорошие прогнозы на основе новых данных. Но что, если вы занимаетесь традиционной экономикой, и все, что вас волнует, это оценка ? Может ли перекрестная проверка также быть полезной в этом контексте? Концептуальная трудность, с которой я борюсь, заключается в том, что мы можем фактически вычислить на тестовых данных, но мы никогда не сможем вычислить потому что истинное по определению никогда не наблюдается. (Примите как допущение, что существует даже истинная , то есть мы знаем семейство моделей, из которых были сгенерированы данные.)L ( Y , Y ) L ( β , β )βL(Y,Y^)L(β,β^)& beta ;ββ

Предположим, что ваша потеря . Вы сталкиваетесь с компромиссом дисперсии, верно? Так что, теоретически, вам может быть лучше сделать некоторую регуляризацию. Но как вы можете выбрать свой параметр регуляризации?L(β,β^)=ββ^

Я был бы рад увидеть простой числовой пример модели линейной регрессии с коэффициентами β(β1,β2,,βk) , где функция потерь исследователя, например, ββ^ или даже просто (β1β^1)2 . Как на практике можно использовать перекрестную проверку для улучшения ожидаемых потерь в этих примерах?


Изменить : DJohnson указал мне на https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , который имеет отношение к этому вопросу. Авторы пишут, что

Методы машинного обучения ... обеспечивают дисциплинированный способ прогнозирования Y^ который (i) использует сами данные, чтобы решить, как добиться компромисса между отклонениями и (ii), позволяет осуществлять поиск по очень богатому набору переменные и функциональные формы. Но все обходится дорого: нужно всегда помнить, что, поскольку они настроены на Y^ они (без многих других предположений) не дают очень полезных гарантий для β^ .

Еще одна важная статья, еще раз спасибо DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . В этой статье рассматривается вопрос, с которым я боролся выше:

Фундаментальная проблема применения методов машинного обучения, таких как деревья регрессии, готовых к решению проблемы причинно-следственных связей, заключается в том, что подходы к регуляризации, основанные на перекрестной проверке, обычно полагаются на соблюдение «основной истины», то есть фактических результатов. в образце перекрестной проверки. Однако, если наша цель состоит в том, чтобы минимизировать среднеквадратичную ошибку эффектов лечения, мы сталкиваемся с тем, что [11] называет «фундаментальной проблемой причинно-следственной связи»: причинный эффект не наблюдается ни для какой отдельной единицы, и поэтому мы не делаем напрямую иметь основную правду. Мы обращаемся к этому, предлагая подходы для построения объективных оценок среднеквадратичной ошибки причинного эффекта лечения.

Адриан
источник
2
Перекрестная проверка является лишь одним из методов в наборах инструментов для интеллектуального анализа данных и машинного обучения. ML видит все более широкое применение в экономике - см. Веб-сайт Сьюзен Эти в Стэнфорде (она является академиком, заинтересованным во внедрении методов ML в экономику) или эту статью Kleinberg et al. « Проблемы политики прогнозирования» в неопубликованной версии здесь: cs. cornell.edu/home/kleinber/aer15-prediction.pdf
Майк Хантер,
9
Пожалуйста, ребята, двусмысленно: ML для многих предполагает машинное обучение, а для многих других - максимальную вероятность. (Определение: вы находитесь на стороне машинного обучения, если ML автоматически переводит вас как машинное обучение.)
Ник Кокс,
3
@Aksakal По моему опыту, традиционная эконометрика, поскольку она преподается как студентам старших курсов, так и аспирантам, практически не уделяет внимания перекрестной проверке. Посмотрите на Хаяси, это классический учебник. Конечно, возможно, перекрестная проверка и компромисс между отклонениями упоминаются в курсе, посвященном прогнозированию, но не в основном курсе, с которого все студенты начинают. Это звучит правильно для вас?
Адриан
2
@ Adrian Я вижу, что люди голосуют, чтобы закрыть этот вопрос как слишком широкий. Это может быть так, но, как я понимаю, вы в основном спрашиваете: «Может ли резюме быть полезным, если мы заинтересованы только в моделировании, а не в прогнозировании?» - если я вас правильно понимаю, ваш вопрос легко редактируется и упрощается, поэтому он понятнее и, конечно, не слишком широк (даже интересен!).
Тим
2
@ Адриан, так что это очень интересный вопрос! Боюсь, вы сделали это слишком сложно, и ссылка на эконометрику здесь не имеет решающего значения (как и в других областях, где используются статистические методы). Я бы посоветовал вам отредактировать ваш вопрос, чтобы упростить его.
Тим

Ответы:

2

Да, когда мы хотим предвзятых оценок низкой дисперсии. Мне особенно нравится пост Гунга. Какую проблему решают методы усадки? Пожалуйста, позвольте мне вставить фигуру Гунга здесь ...

введите описание изображения здесь Если вы проверите сюжет, сделанный бандой, вам будет понятно, почему нам нужна регуляризация / усадка. Сначала мне кажется странным, что для чего нам нужны предвзятые оценки? Но, посмотрев на эту цифру, я понял, что у модели с низкой дисперсией есть много преимуществ: например, она более «стабильна» в производственном использовании.

Haitao Du
источник
Да, но как выбрать параметр регуляризации? Когда целью является минимизация ошибки прогнозирования, мы можем использовать набор проверки. Как мы можем использовать набор проверки, если мы никогда не наблюдаем истинные параметры модели?
Адриан
См. Цитату о «фундаментальной проблеме причинного следствия» внизу моего вопроса.
Адриан
1

Может ли перекрестная проверка быть полезной, если мы заинтересованы только в моделировании (т.е. оценке параметров), а не в прогнозировании?

Да, оно может. Например, на днях я использовал оценку важности параметров через деревья решений. Каждый раз, когда я строю дерево, я проверяю ошибку перекрестной проверки. Я стараюсь максимально уменьшить ошибку, затем я перейду к следующему этапу оценки важности параметров. Возможно, что первое построенное вами дерево очень плохое и вы не проверите ошибку, у вас будут менее точные (если не ошибочные) ответы.

Основная причина, по моему мнению, связана с большим количеством контрольных переменных, которыми обладает каждая техника. Даже небольшое изменение в одной управляющей переменной даст другой результат.

Как улучшить вашу модель после проверки ошибки перекрестной проверки? Ну, это зависит от вашей модели. Надеемся, что после нескольких попыток вы получите представление о наиболее важных управляющих переменных и сможете манипулировать ими, чтобы найти низкую ошибку.

PeyM87
источник