Что измерение VC говорит нам о глубоком обучении?

15

В базовом машинном обучении нас учат следующим «правилам большого пальца»:

а) размер ваших данных должен как минимум в 10 раз превышать размер VC вашего набора гипотез.

б) нейронная сеть с N соединениями имеет размерность VC приблизительно N.

Итак, когда в нейронной сети с глубоким обучением говорят, миллионы единиц, значит ли это, что мы должны иметь, скажем, миллиарды точек данных? Не могли бы вы пролить свет на это?

Fequish
источник
Глубокая нейронная сеть не будет иметь миллионов единиц, как вы заявляете. Тем не менее, он будет иметь миллионы соединений. Я бы предположил, что ваше второе эмпирическое правило не подходит для этих сетей, в первую очередь из-за их регуляризованного характера (например, CNN с отсева).
пир
Я думаю, что ключ в том, что VC-граница не бесконечна. Если оно конечно, то теория PAC говорит нам, что обучение осуществимо. Сколько данных, это другой вопрос.
Владислав Довгальец

Ответы:

4

Эмпирическое правило, о котором вы говорите, не может быть применено к нейронной сети.

Нейронная сеть имеет некоторые основные параметры, то есть ее веса и смещения. Количество весов зависит от количества соединений между уровнями сети, а количество смещений зависит от количества нейронов.

Размер необходимых данных сильно зависит от -

  1. Тип используемой нейронной сети .
  2. Методы регуляризации, используемые в сети .
  3. Скорость обучения используется при обучении в сети.

При этом более правильный и верный способ узнать, подходит ли модель для переоснащения, - это проверить, близка ли ошибка проверки к ошибке обучения. Если да, то модель работает нормально. Если нет, то модель, скорее всего, переоснащается, а это означает, что вам нужно уменьшить размер вашей модели или внедрить методы регуляризации.

Azrael
источник
Вы, должно быть, шутите, когда говорите, что лучший способ понять, не подходит ли модель, это проверить, близка ли ошибка валидации к ошибке обучения.
19
6
@nbro, если у вас есть подходящий набор для проверки ошибки проверки, это гораздо более надежная мера переоснащения для вашей специально обученной сети, чем проходить через обычно очень свободные границы VC.
Дугал
@ Дугал Вы просто повторяете то, что сказали в своем ответе.
19
3
Не мой ответ @nbro. Но, учитывая набор проверки, вы можете получить тривиальную оценку высокой вероятности истинной ошибки обобщения с помощью Hoeffding или подобного, в то время как прохождение границ VC включает в себя множество свободных верхних границ, которые не являются специфичными для конкретного набора данных и сети, в которой вы находитесь рука.
Дугал