Почему информационный критерий Акаике больше не используется в машинном обучении?

AIC и BIC используются, например, в ступенчатой регрессии. Они на самом деле являются частью большого класса "эвристики", которые также используются. Например, DIC (информационный критерий отклонения) часто используется при выборе байесовской модели.

Тем не менее, они в основном "эвристика". Хотя можно показать, что как AIC, так и BIC асимптотически сходятся к подходам кросс-валидации (я думаю, что AIC идет к CV с отстранением, а BIC к другому подходу, но я не уверен), они известны недостаточное наказание и чрезмерное наказание соответственно. То есть, используя AIC, вы часто получаете модель, которая является более сложной, чем должна быть, тогда как с BIC вы часто получаете модель, которая слишком упрощена.

Поскольку оба связаны с CV, CV часто является лучшим выбором, который не страдает от этих проблем.

Затем, наконец, возникает проблема количества параметров, которые требуются для BIC и AIC. При использовании аппроксиматоров общих функций (например, KNN) на вещественных входах можно «скрыть» параметры, т. Е. Построить действительное число, содержащее ту же информацию, что и два действительных числа (например, о пересечении цифр). В таком случае, каково фактическое количество параметров? С другой стороны, более сложных моделей, вы можете иметь ограничения по вашим параметрам, скажем , вы можете только подходят такие параметры, что $\theta_1 > \theta_2$ (смотри , например , здесь ). Или вы можете иметь неидентифицируемость, и в этом случае несколько значений параметров фактически дают одну и ту же модель. Во всех этих случаях простой подсчет параметров не дает подходящей оценки.

Поскольку многие современные алгоритмы машинного обучения демонстрируют эти свойства (то есть универсальное приближение, нечеткое число параметров, неидентифицируемость), AIC и BIC менее полезны для этой модели, чем могут показаться на первый взгляд.

РЕДАКТИРОВАТЬ :

Еще несколько моментов, которые можно уточнить:

Кажется, я ошибся, рассматривая отображение путем перемежения цифр биекции между $\mathbb{R}\rightarrow\mathbb{R}^N$ (см. Здесь ). Однако, детали того, почему это не биекция, немного сложны для понимания. Однако нам на самом деле не нужна биекция, чтобы эта идея сработала (достаточно сюрприза).
Согласно доказательству Кантора (1877), между $\mathbb{R}\rightarrow\mathbb{R}^N$ должна быть биекция . Хотя эта биекция не может быть определена явно, ее существование может быть доказано (но это требует бездоказательной аксиомы выбора). Эта биекция все еще может использоваться в теоретической модели (возможно, нереально реализовать эту модель в компьютере), чтобы распаковать один параметр в произвольное количество параметров.
На самом деле нам не нужно, чтобы отображение между $\mathbb{R}\rightarrow\mathbb{R}^N$ было биекцией. Любой сюръективной функции $\mathbb{R}\rightarrow\mathbb{R}^N$ достаточно, чтобы распаковать несколько параметров из одного. Можно предположить, что такие помехи существуют как пределы последовательности других функций (так называемые кривые заполнения пространства , например кривая Пеано ).
Поскольку ни доказательство Кантора не является конструктивным (оно просто доказывает существование биекции, не приводя примера), ни кривые заполнения пространства (поскольку они существуют только как пределы конструктивных объектов и, следовательно, сами по себе не являются конструктивными), аргумент I сделано только теоретическое доказательство. Теоретически, мы могли бы просто добавлять параметры в модель, чтобы уменьшить BIC ниже любого желаемого значения (в обучающем наборе). Тем не менее, в реальной реализации модели мы должны аппроксимировать кривую заполнения пространства, поэтому ошибка аппроксимации может помешать нам фактически сделать это (я фактически не проверял это).
Поскольку все это требует аксиомы выбора, доказательство становится недействительным, если вы не принимаете эту аксиому (хотя большинство математиков так и делают). Это означает, что в конструктивной математике это может быть невозможно, но я не знаю, какую роль конструктивная математика играет для статистики.
Идентифицируемость неразрывно связана с функциональной сложностью. Если просто взять идентифицируемую модель $N$ -параметра и добавить лишний параметр (например, нигде не используемый), то новая модель становится неидентифицируемой. По существу, один с использованием модели , которая имеет сложность $\mathbb{R}^{N+1}$ , чтобы решить проблему , которая имеет сложность $\mathbb{R}^N$ . Аналогично с другими формами неидентификации. Возьмем, к примеру, случай неидентифицируемых перестановок параметров. В этом случае каждый использует модель, которая имеет сложность $\mathbb{R}^N$ , однако актуальная проблема имеет только сложность набора классов эквивалентности по $\mathbb{R}^N$ , Тем не менее, это только неофициальный аргумент, я не знаю какого-либо формального трактовки этого понятия «сложность».

LiKao
источник

Хотите сообщить об этом сообщении stats.stackexchange.com/questions/325129/… ? Мне не повезло с этим некоторое время.

Скандер Х. - Восстановить Монику

@LiKao Можете ли вы привести ссылки на «методы» скрытия параметров, например, в случае пересекающихся цифр.

horaceT

@horaceT К сожалению, я не знаю ни одной статьи, в которой приводится этот пример. В работах по MDL есть понятие «функциональная сложность» (например, lpl.psy.ohio-state.edu/documents/MNP.pdf, см. Уравнение 10). Часто пример сделан с ограниченными параметрами (например, researchgate.net/publication/… ). Я хотел бы перевернуть пример при обсуждении этого и показать, что сложный единственный параметр может захватывать несколько простых параметров, потому что я считаю его более интуитивным.

LiKao

f_{1, 2} : R \to R^{2}

$f_{1,2}:\mathbb{R} \rightarrow \mathbb{R}^2$

f_{1, N} : R \to R^{N}

$f_{1,N}:\mathbb{R}\rightarrow \mathbb{R}^N$

N

$N$

f_{1, N}

$f_{1,N}$

N

$N$

N

$N$

1

$1$

@LiKao Это довольно увлекательно. Просьба ссылаться на указанное доказательство «подачи кривых». Я мог видеть, что ограниченные параметры имеют «меньшую» степень свободы. Наивно, если f (x, y) = 0, y является просто функцией от x; вы просто положите г (х), где у. Разве вы не можете делать подобные вещи с ограниченной оптимизацией.

ГорацийT

Почему информационный критерий Акаике больше не используется в машинном обучении?

Ответы: