В базовом машинном обучении нас учат следующим «правилам большого пальца»:
а) размер ваших данных должен как минимум в 10 раз превышать размер VC вашего набора гипотез.
б) нейронная сеть с N соединениями имеет размерность VC приблизительно N.
Итак, когда в нейронной сети с глубоким обучением говорят, миллионы единиц, значит ли это, что мы должны иметь, скажем, миллиарды точек данных? Не могли бы вы пролить свет на это?
Ответы:
Эмпирическое правило, о котором вы говорите, не может быть применено к нейронной сети.
Нейронная сеть имеет некоторые основные параметры, то есть ее веса и смещения. Количество весов зависит от количества соединений между уровнями сети, а количество смещений зависит от количества нейронов.
Размер необходимых данных сильно зависит от -
При этом более правильный и верный способ узнать, подходит ли модель для переоснащения, - это проверить, близка ли ошибка проверки к ошибке обучения. Если да, то модель работает нормально. Если нет, то модель, скорее всего, переоснащается, а это означает, что вам нужно уменьшить размер вашей модели или внедрить методы регуляризации.
источник