Я просто наткнулся на «Информационный критерий Акайке» и заметил большое количество литературы по выбору моделей (кажется, существуют и такие вещи, как BIC).
Почему современные методы машинного обучения не используют эти критерии выбора моделей BIC и AIC?
Ответы:
AIC и BIC используются, например, в ступенчатой регрессии. Они на самом деле являются частью большого класса "эвристики", которые также используются. Например, DIC (информационный критерий отклонения) часто используется при выборе байесовской модели.
Тем не менее, они в основном "эвристика". Хотя можно показать, что как AIC, так и BIC асимптотически сходятся к подходам кросс-валидации (я думаю, что AIC идет к CV с отстранением, а BIC к другому подходу, но я не уверен), они известны недостаточное наказание и чрезмерное наказание соответственно. То есть, используя AIC, вы часто получаете модель, которая является более сложной, чем должна быть, тогда как с BIC вы часто получаете модель, которая слишком упрощена.
Поскольку оба связаны с CV, CV часто является лучшим выбором, который не страдает от этих проблем.
Затем, наконец, возникает проблема количества параметров, которые требуются для BIC и AIC. При использовании аппроксиматоров общих функций (например, KNN) на вещественных входах можно «скрыть» параметры, т. Е. Построить действительное число, содержащее ту же информацию, что и два действительных числа (например, о пересечении цифр). В таком случае, каково фактическое количество параметров? С другой стороны, более сложных моделей, вы можете иметь ограничения по вашим параметрам, скажем , вы можете только подходят такие параметры, чтоθ1>θ2 (смотри , например , здесь ). Или вы можете иметь неидентифицируемость, и в этом случае несколько значений параметров фактически дают одну и ту же модель. Во всех этих случаях простой подсчет параметров не дает подходящей оценки.
Поскольку многие современные алгоритмы машинного обучения демонстрируют эти свойства (то есть универсальное приближение, нечеткое число параметров, неидентифицируемость), AIC и BIC менее полезны для этой модели, чем могут показаться на первый взгляд.
РЕДАКТИРОВАТЬ :
Еще несколько моментов, которые можно уточнить:
источник