Прочитав книгу Галита Шмуэли «Объяснить или предсказать» (2010), я озадачен очевидным противоречием. Есть три помещения,
- Выбор модели на основе BIC по сравнению с BIC (конец стр. 300 - начало стр. 301): проще говоря, AIC следует использовать для выбора модели, предназначенной для прогнозирования, в то время как BIC следует использовать для выбора модели для объяснения . Кроме того (не в приведенном выше документе), мы знаем, что при некоторых условиях BIC выбирает истинную модель из набора моделей-кандидатов; истинная модель - это то, что мы ищем в объяснительном моделировании (конец с. 293).
- Простая арифметика: AIC выберет более крупную модель, чем BIC, для выборок размером 8 или больше (удовлетворяющих из-за различных штрафов за сложность в AIC по сравнению с BIC).
- «Истинная» модель (то есть модель с правильными регрессор и правильной функциональной формой , но несовершенно оцененными коэффициентами) не может быть лучшей моделью для прогнозирования (стр 307) . : Регрессионная модель с отсутствующим предсказателем может быть лучше модель прогнозирования - введение смещения из-за отсутствующего предиктора может быть перевешено уменьшением дисперсии из-за неточности оценки.
Пункты 1. и 2. предполагают, что большие модели могут быть лучше для прогнозирования, чем более экономные модели. Между тем, пункт 3. дает противоположный пример, где более скупая модель лучше подходит для прогнозирования, чем более крупная модель. Я нахожу это загадочным.
Вопросов:
- Как может возникнуть явное противоречие между точками {1. и 2.} и 3. быть объяснено / решено?
- В свете пункта 3. не могли бы вы дать интуитивно понятное объяснение того, почему и как большая модель, выбранная AIC, на самом деле лучше для прогнозирования, чем более экономная модель, выбранная BIC?
forecasting
model-selection
feature-selection
aic
bic
Ричард Харди
источник
источник
Ответы:
Они не должны рассматриваться в одном и том же контексте; точки 1 и 2 имеют разные контексты. Как для AIC, так и для BIC сначала исследуется, какая комбинация параметров и в каком числе дает наилучшие показатели (Некоторые авторы имеют эпилептические припадки, когда я использую слово indexв данном контексте. Игнорируйте их или посмотрите индекс в словаре.) В пункте 2 AIC - более богатая модель, где более богатый означает выбор моделей с большим количеством параметров, только иногда, потому что часто оптимальная модель AIC - это то же количество моделей параметров, что и BIC. выбор. То есть, если AIC и BIC выбирают модели, имеющие одинаковое количество параметров, то утверждается, что AIC будет лучше предсказывать, чем BIC. Тем не менее, может произойти обратное, если BIC максимизируется при выбранной модели с меньшим количеством параметров (но без гарантий). Sober (2002) пришел к выводу, что AIC измеряет точность прогнозирования, в то время как BIC измеряет достоверность соответствия, где точность прогнозирования может означать прогнозирование y вне предельного диапазона значений x. Когда снаружи, часто менее оптимальный AIC с пропущенными слабо прогнозирующими параметрами лучше прогнозирует экстраполированные значения, чем оптимальный индекс AIC из большего количества параметров в выбранной модели. Попутно отмечу, что AIC и ML не устраняют необходимость в тестировании ошибок экстраполяции, которое является отдельным тестом для моделей. Это может быть сделано путем удержания крайних значений из набора «обучение» и вычисления ошибки между экстраполированной моделью «после обучения» и удержанными данными.
Теперь BIC предположительно является меньшим предиктором ошибок для значений y в пределах предельных значений диапазона x . Повышение качества подгонки часто достигается ценой смещения регрессии (для экстраполяции), где ошибка уменьшается путем введения этого смещения. Это, например, часто сглаживает наклон, чтобы разделить знак средних левых стихов вправое( х ) - у остатки (представьте больше отрицательных остатков с одной стороны и больше положительных остатков с другой), тем самым уменьшая общую ошибку. Таким образом, в этом случае мы запрашиваем наилучшее значение y при заданном значении x, а для AIC мы более тщательно запрашиваем наилучшие функциональные отношения между x и y. Одно из различий между ними заключается, например, в том, что BIC, при прочих равных параметрах, будет иметь лучший коэффициент корреляции между моделью и данными, а AIC будет иметь лучшую ошибку экстраполяции, измеренную как ошибку y-значения для данного экстраполированного x-значения.
Точка 3 - иногда утверждение при некоторых условиях
когда данные очень шумные (большойσ );
когда истинные абсолютные значения пропущенных параметров (в нашемβ2 ) маленькие;
примере
когда предикторы сильно коррелированы; и
когда размер выборки небольшой или диапазон пропущенных переменных невелик.
На практике правильная форма уравнения не означает, что подгонка к нему даст правильные значения параметров из-за шума, и чем больше шума, тем лучше. То же самое происходит с R2 по сравнению с настроенным R2 и высокая коллинеарность. То есть иногда при добавлении параметра настраивается R2 ухудшается в то время как R2 улучшается.
Спешу отметить, что эти заявления оптимистичны. Как правило, модели являются неправильными, и часто лучшая модель будет обеспечивать соблюдение нормы, которая не может использоваться с AIC или BIC, или для их применения предполагается неправильная остаточная структура, и требуются альтернативные меры. В моей работе это всегда так.
источник