Количество особенностей против количества наблюдений

26

Существуют ли какие-либо документы / книги / идеи о взаимосвязи между количеством признаков и количеством наблюдений, которые необходимы для обучения «надежного» классификатора?

Например, предположим, что у меня есть 1000 объектов и 10 наблюдений из двух классов в качестве обучающего набора и 10 других наблюдений в качестве набора для тестирования. Я тренирую некоторый классификатор X, и он дает мне 90% чувствительности и 90% специфичности в тестовом наборе. Допустим, я доволен этой точностью и могу сказать, что это хороший классификатор. С другой стороны, я аппроксимировал функцию из 1000 переменных, используя только 10 точек, что может показаться не очень ... надежным?

Лео
источник

Ответы:

20

Здесь вы столкнулись с проклятием размерности или проблемой p >> n (где p - предикторы, а n - наблюдения). За эти годы было разработано много методов для решения этой проблемы. Вы можете использовать AIC или BIC, чтобы штрафовать модели с большим количеством предикторов. Вы можете выбрать случайные наборы переменных и оценить их важность с помощью перекрестной проверки . Вы можете использовать ребристую регрессию , лассо или эластичную сеть для регуляризации . Или вы можете выбрать методику, такую ​​как метод опорных векторов или случайный лес, который хорошо справляется с большим количеством предикторов.

Честно говоря, решение зависит от специфики проблемы, которую вы пытаетесь решить.

Zach
источник
9

Я подозреваю, что такие практические правила вообще не будут применимы. Рассмотрим проблему с двумя гауссовыми классами, центрированными на и , оба с ковариационной матрицей . В этом случае вам нужно всего два образца, по одному от каждого класса, чтобы получить идеальную классификацию, почти независимо от количества функций. На другом конце спектра, если оба класса центрированы в начале координат с ковариацией+1-10.000001*яяникакое количество обучающих данных не даст вам полезного классификатора. В конце концов, количество выборок, которое вам нужно для данного количества функций, зависит от того, как распределяются данные. В общем, чем больше у вас функций, тем больше данных вам потребуется для адекватного описания распределения данных. (экспоненциальное число функций, если вам не повезло - см. проклятие размерности, упомянутое Заком).

Если вы используете регуляризацию, то в принципе (верхняя граница) ошибка обобщения не зависит от количества признаков (см. Работу Вапника над машиной опорных векторов). Однако это оставляет проблему нахождения хорошего значения для параметра регуляризации (перекрестная проверка удобна).

Дикран Сумчатый
источник
9

Вероятно, у вас сложилось впечатление от классического моделирования, которое уязвимо к проблемам, подобным парадоксу Рунге, и, следовательно, требует некоторой настройки экономии при постобработке.
Тем не менее, в случае машинного обучения, идея включения надежности в качестве цели оптимизации модели является лишь ядром всей области (часто выражается в точности на невидимых данных). Итак, пока вы знаете, что ваша модель работает хорошо (например, из резюме), вероятно, нет смысла беспокоиться.

Реальная проблема с в случае ML заключается в нерелевантных атрибутах - в основном потому, что некоторые из них могут стать более пригодными для восстановления решения, чем действительно релевантные из-за некоторых случайных колебаний. Очевидно, что эта проблема не имеет ничего общего с скупостью, но, как и в классическом случае, приводит к ужасной потере силы обобщения. Как решить эту проблему, это другая история, называемая выбором функций, но общая идея состоит в том, чтобы предварительно обработать данные, чтобы устранить шум, а не накладывать ограничения на модель.п»N


источник