Что такое измерение VC
Как упомянуто @CPerkins, измерение VC является мерой сложности модели. Это также может быть определено в отношении способности разрушать точки данных, как, как вы упоминали, в Википедии.
Основная проблема
- Нам нужна модель (например, некоторый классификатор), которая хорошо обобщает невидимые данные.
- Мы ограничены определенным количеством образцов данных.
На следующем изображении (взято отсюда ) показаны некоторые модели (от до S k ) различной сложности (размерность VC), которые показаны здесь на оси x и называются h .S1SКчас
Изображения показывают, что более высокое измерение VC допускает более низкий эмпирический риск (ошибка, которую модель допускает в данных выборки), но также вводит более высокий доверительный интервал. Этот интервал можно рассматривать как уверенность в способности модели обобщать.
Низкий размер VC (высокий уклон)
Если мы используем модель низкой сложности, мы вводим какое-то предположение (смещение) в отношении набора данных, например, при использовании линейного классификатора мы предполагаем, что данные могут быть описаны с помощью линейной модели. Если это не так, наша задача не может быть решена с помощью линейной модели, например, потому что проблема имеет нелинейный характер. В итоге мы получим плохо работающую модель, которая не сможет изучить структуру данных. Поэтому мы должны стараться избегать сильного смещения.
Большой размер VC (больший доверительный интервал)
По другую сторону от оси x мы видим модели более высокой сложности, которые могут быть настолько мощными, что они скорее запомнят данные, чем изучат их общую базовую структуру, т.е. После реализации этой проблемы нам кажется, что нам следует избегать сложных моделей.
Это может показаться спорным, поскольку мы не будем вводить смещение, то есть иметь низкий размер VC, но также не должны иметь высокий размер VC. Эта проблема имеет глубокие корни в статистической теории обучения и известна как компромисс дисперсии . В этой ситуации мы должны быть настолько сложными, насколько это необходимо, и настолько упрощенными, насколько это возможно, поэтому при сравнении двух моделей, которые заканчиваются одной и той же эмпирической ошибкой, мы должны использовать менее сложную.
Я надеюсь, что смогу показать вам, что за идеей измерения VC лежит нечто большее.