Почему важен размер ВК?

12

Измерение VC - это мощность наибольшего множества точек, которые алгоритм может разрушить.

Например, линейный классификатор имеет мощность n + 1. Мой вопрос, почему мы заботимся? Большинство наборов данных, по которым вы выполняете линейную классификацию, имеют тенденцию быть очень большими и содержать много точек.

classification algorithms vc-dimension Undergradstudent
источник

4

Что такое измерение VC

Как упомянуто @CPerkins, измерение VC является мерой сложности модели. Это также может быть определено в отношении способности разрушать точки данных, как, как вы упоминали, в Википедии.

Основная проблема

Нам нужна модель (например, некоторый классификатор), которая хорошо обобщает невидимые данные.
Мы ограничены определенным количеством образцов данных.

На следующем изображении (взято отсюда ) показаны некоторые модели (от до ) различной сложности (размерность VC), которые показаны здесь на оси x и называются . $\mathcal{S_1}$ $\mathcal{S_k}$ $h$

Изображения показывают, что более высокое измерение VC допускает более низкий эмпирический риск (ошибка, которую модель допускает в данных выборки), но также вводит более высокий доверительный интервал. Этот интервал можно рассматривать как уверенность в способности модели обобщать.

Низкий размер VC (высокий уклон)

Если мы используем модель низкой сложности, мы вводим какое-то предположение (смещение) в отношении набора данных, например, при использовании линейного классификатора мы предполагаем, что данные могут быть описаны с помощью линейной модели. Если это не так, наша задача не может быть решена с помощью линейной модели, например, потому что проблема имеет нелинейный характер. В итоге мы получим плохо работающую модель, которая не сможет изучить структуру данных. Поэтому мы должны стараться избегать сильного смещения.

Большой размер VC (больший доверительный интервал)

По другую сторону от оси x мы видим модели более высокой сложности, которые могут быть настолько мощными, что они скорее запомнят данные, чем изучат их общую базовую структуру, т.е. После реализации этой проблемы нам кажется, что нам следует избегать сложных моделей.

Это может показаться спорным, поскольку мы не будем вводить смещение, то есть иметь низкий размер VC, но также не должны иметь высокий размер VC. Эта проблема имеет глубокие корни в статистической теории обучения и известна как компромисс дисперсии . В этой ситуации мы должны быть настолько сложными, насколько это необходимо, и настолько упрощенными, насколько это возможно, поэтому при сравнении двух моделей, которые заканчиваются одной и той же эмпирической ошибкой, мы должны использовать менее сложную.

Я надеюсь, что смогу показать вам, что за идеей измерения VC лежит нечто большее.

Минато
источник

1

$N$

$VC$

$N$ $N$ $log_2(N)$ биты информации - аналогично проблеме двоичного поиска с отсортированным массивом.

$N$ $x$ $N$ $D=\{(x_1,y_1), (x_2, y_2), ..., (x_l, y_l)\}$ $x_i$ $x_i$ $N$ $x_i$ $\epsilon$ $\epsilon$ $1-\delta$ $(\epsilon, \delta)$ $\frac{log_2N/\delta}{\epsilon}$

$N$ $\epsilon$ $1-\delta$ $\frac{log_2N/\delta}{\epsilon^2}$

$log_2N$

$\epsilon$ $1-\delta$ $\epsilon$

^{___________________ Обе линии (функция) классифицируют точки с одинаковым успехом ___________________}

$VC$ $log_2N$ $VC$ $\frac{VC -log(\delta)}{\epsilon}$ $\frac{VC - log(\delta)}{\epsilon^2}$

$VC$ $\epsilon$ $1-\delta$

Влад
источник

0

Измерение VC является мерой сложности модели. Например, учитывая размерность VC Dvc, хорошее эмпирическое правило заключается в том, что у вас должно быть n = 10xDvc точек данных, учитывая сложность вашей модели.

Вы также можете использовать его для создания верхней границы ошибки теста.

CPerkins
источник

Почему важен размер ВК?

Ответы: