Почему увеличение количества функций снижает производительность?

12

Я пытаюсь понять, почему увеличение количества функций может снизить производительность. В настоящее время я использую классификатор LDA, который работает лучше в двух вариантах среди определенных функций, но хуже, когда смотрю на другие функции. Моя точность классификации выполняется с использованием стратифицированного 10-кратного xval.

Существует ли простой случай, когда классификатор будет работать лучше одномерно, чем двумерно, чтобы получить физическую или пространственную интуицию того, что происходит в этих более высоких измерениях?

dvreed77
источник
8
В качестве быстрого комментария добавление нерелевантных предикторов может ухудшить производительность новых данных - увеличение дисперсии прогноза (чрезмерная подгонка). Это потому, что вы в конечном итоге подстраиваетесь под шум и ослабляете «истинный сигнал».
B_Miner

Ответы:

9

См. « Проблема размерности: простой пример » - очень короткая и очень старая статья Г.В. Он рассматривает проблему двух классов с гауссовыми класс-условными распределениями, в которых все признаки являются релевантными, но с уменьшающейся релевантностью. Он показывает, что частота ошибок классификатора, обученного на конечной выборке, сходится к 0,5, тогда как ошибка Байеса приближается к 0, поскольку число признаков увеличивается.

Innuo
источник
(+1) Это милая маленькая ссылка.
кардинал
2

Это называется « Проклятие размерности ». Я не знаю, есть ли какая-то конкретная причина для LDA, но в целом имеет большое измерение результатов векторов признаков с необходимостью более сложных границ принятия решений. Наличие сложных границ также сопровождается вопросом "В какой степени?" так как мы также рассматриваем переоснащение. В качестве еще одного аспекта, с дополнительными измерениями увеличивается сложность алгоритма обучения. Таким образом, работа с относительно медленным алгоритмом обучения с огромным вектором признаков делает вашу работу хуже. В дополнение к измерению у вас может увеличиться вероятность того, что у вас будут коррелированные функции, которые не годятся для многих алгоритмов обучения, таких как Neural Net или некоторых других.

Вы можете сосчитать другие причины, которые находятся под «Curse Of Dimensionality», но факт состоит в том, чтобы иметь достаточное количество экземпляров с кратким вектором объектов, который обрабатывается некоторыми процедурами выбора объектов.

erogol
источник