Почему информационный критерий Акаике больше не используется в машинном обучении?

16

Я просто наткнулся на «Информационный критерий Акайке» и заметил большое количество литературы по выбору моделей (кажется, существуют и такие вещи, как BIC).

Почему современные методы машинного обучения не используют эти критерии выбора моделей BIC и AIC?

эхо
источник
9
потому что никто не рассчитывает вероятности?
Аксакал
1
Что вы подразумеваете под «современными методами машинного обучения»? Насколько я использовал, AIC и BIC используются часто.
Ферди
4
Также почему -1? Помните, что нет глупых вопросов - каждый вопрос пытается пролить свет на вселенную
эхо
4
@echo: я не понизил голос, но я думаю, что ваш вопрос был бы улучшен, если бы вы могли найти / поддержать основное утверждение (что методы машинного обучения действительно используют эти критерии выбора моделей BIC и AIC)
user603
2
@Aksakal Спасибо. Я думаю, что было бы лучше, если бы вопросы, построенные вокруг широкой претензии, могли быть источником этой претензии Я имею в виду, как правило.
user603

Ответы:

15

AIC и BIC используются, например, в ступенчатой ​​регрессии. Они на самом деле являются частью большого класса "эвристики", которые также используются. Например, DIC (информационный критерий отклонения) часто используется при выборе байесовской модели.

Тем не менее, они в основном "эвристика". Хотя можно показать, что как AIC, так и BIC асимптотически сходятся к подходам кросс-валидации (я думаю, что AIC идет к CV с отстранением, а BIC к другому подходу, но я не уверен), они известны недостаточное наказание и чрезмерное наказание соответственно. То есть, используя AIC, вы часто получаете модель, которая является более сложной, чем должна быть, тогда как с BIC вы часто получаете модель, которая слишком упрощена.

Поскольку оба связаны с CV, CV часто является лучшим выбором, который не страдает от этих проблем.

Затем, наконец, возникает проблема количества параметров, которые требуются для BIC и AIC. При использовании аппроксиматоров общих функций (например, KNN) на вещественных входах можно «скрыть» параметры, т. Е. Построить действительное число, содержащее ту же информацию, что и два действительных числа (например, о пересечении цифр). В таком случае, каково фактическое количество параметров? С другой стороны, более сложных моделей, вы можете иметь ограничения по вашим параметрам, скажем , вы можете только подходят такие параметры, что θ1>θ2 (смотри , например , здесь ). Или вы можете иметь неидентифицируемость, и в этом случае несколько значений параметров фактически дают одну и ту же модель. Во всех этих случаях простой подсчет параметров не дает подходящей оценки.

Поскольку многие современные алгоритмы машинного обучения демонстрируют эти свойства (то есть универсальное приближение, нечеткое число параметров, неидентифицируемость), AIC и BIC менее полезны для этой модели, чем могут показаться на первый взгляд.

РЕДАКТИРОВАТЬ :

Еще несколько моментов, которые можно уточнить:

  1. Кажется, я ошибся, рассматривая отображение путем перемежения цифр биекции между RRN (см. Здесь ). Однако, детали того, почему это не биекция, немного сложны для понимания. Однако нам на самом деле не нужна биекция, чтобы эта идея сработала (достаточно сюрприза).
  2. Согласно доказательству Кантора (1877), между RRN должна быть биекция . Хотя эта биекция не может быть определена явно, ее существование может быть доказано (но это требует бездоказательной аксиомы выбора). Эта биекция все еще может использоваться в теоретической модели (возможно, нереально реализовать эту модель в компьютере), чтобы распаковать один параметр в произвольное количество параметров.
  3. На самом деле нам не нужно, чтобы отображение между RRN было биекцией. Любой сюръективной функции RRN достаточно, чтобы распаковать несколько параметров из одного. Можно предположить, что такие помехи существуют как пределы последовательности других функций (так называемые кривые заполнения пространства , например кривая Пеано ).
  4. Поскольку ни доказательство Кантора не является конструктивным (оно просто доказывает существование биекции, не приводя примера), ни кривые заполнения пространства (поскольку они существуют только как пределы конструктивных объектов и, следовательно, сами по себе не являются конструктивными), аргумент I сделано только теоретическое доказательство. Теоретически, мы могли бы просто добавлять параметры в модель, чтобы уменьшить BIC ниже любого желаемого значения (в обучающем наборе). Тем не менее, в реальной реализации модели мы должны аппроксимировать кривую заполнения пространства, поэтому ошибка аппроксимации может помешать нам фактически сделать это (я фактически не проверял это).
  5. Поскольку все это требует аксиомы выбора, доказательство становится недействительным, если вы не принимаете эту аксиому (хотя большинство математиков так и делают). Это означает, что в конструктивной математике это может быть невозможно, но я не знаю, какую роль конструктивная математика играет для статистики.
  6. Идентифицируемость неразрывно связана с функциональной сложностью. Если просто взять идентифицируемую модель N -параметра и добавить лишний параметр (например, нигде не используемый), то новая модель становится неидентифицируемой. По существу, один с использованием модели , которая имеет сложность RN+1 , чтобы решить проблему , которая имеет сложность RN . Аналогично с другими формами неидентификации. Возьмем, к примеру, случай неидентифицируемых перестановок параметров. В этом случае каждый использует модель, которая имеет сложность RN , однако актуальная проблема имеет только сложность набора классов эквивалентности по RN, Тем не менее, это только неофициальный аргумент, я не знаю какого-либо формального трактовки этого понятия «сложность».
LiKao
источник
Хотите сообщить об этом сообщении stats.stackexchange.com/questions/325129/… ? Мне не повезло с этим некоторое время.
Скандер Х. - Восстановить Монику
1
@LiKao Можете ли вы привести ссылки на «методы» скрытия параметров, например, в случае пересекающихся цифр.
horaceT
@horaceT К сожалению, я не знаю ни одной статьи, в которой приводится этот пример. В работах по MDL есть понятие «функциональная сложность» (например, lpl.psy.ohio-state.edu/documents/MNP.pdf, см. Уравнение 10). Часто пример сделан с ограниченными параметрами (например, researchgate.net/publication/… ). Я хотел бы перевернуть пример при обсуждении этого и показать, что сложный единственный параметр может захватывать несколько простых параметров, потому что я считаю его более интуитивным.
LiKao
f1,2:RR2f1,N:RRNNf1,NNN1
@LiKao Это довольно увлекательно. Просьба ссылаться на указанное доказательство «подачи кривых». Я мог видеть, что ограниченные параметры имеют «меньшую» степень свободы. Наивно, если f (x, y) = 0, y является просто функцией от x; вы просто положите г (х), где у. Разве вы не можете делать подобные вещи с ограниченной оптимизацией.
ГорацийT