Это очень много дела. Модели глубокого обучения, даже мелкие, такие как составные автоэнкодеры и нейронные сети, не полностью поняты. Прилагаются усилия, чтобы понять, что происходит с процессом оптимизации такой сложной переменной интенсивной функции. Но это сложная задача.
Один из способов, который используют исследователи, чтобы понять, как работает глубокое обучение, - это использовать генеративные модели. Сначала мы обучаем алгоритм обучения и систематически препятствуем ему, прося его генерировать примеры. Наблюдая за полученными сгенерированными примерами, мы сможем сделать вывод о том, что происходит в алгоритме, на более значимом уровне. Это очень похоже на использование ингибиторов в нейробиологии для понимания того, для чего используются различные компоненты мозга. Например, мы знаем, что зрительная кора находится там, где она есть, потому что, если мы повредим ее, вы ослепнете.
Ключевой вопрос, который остается в теории глубокого обучения, заключается в том, почему такие огромные модели (с гораздо большим количеством параметров, чем точек данных) не подходят для наборов данных, которые мы используем.
Классическая теория, основанная на мерах сложности, не объясняет поведение практических нейронных сетей. Например, оценки размерности VC дают оценки без образования обобщений. Насколько я знаю, самые жесткие (верхняя и нижняя) границы измерения VC приведены в [1] и имеют порядок количества весов в сети. Очевидно, что эта сложность в худшем случае не может объяснить, как, например, большая перезапуск обобщает CIFAR или MNIST.
В последнее время были предприняты другие попытки обеспечить обобщение для нейронных сетей, например, с помощью касательного ядра нейронов или с помощью различных мер нормы на весах. Соответственно, было обнаружено, что они не применимы к сетям практически размера и обладают другими неудовлетворительными свойствами [2].
В рамках байесовской системы PAC для не пустых границ есть некоторые работы, например, [3]. Эти установки, однако, требуют некоторых знаний обученной сети и поэтому отличаются по своему вкусу от классического анализа PAC.
Некоторые другие аспекты:
оптимизация: почему мы получаем «хорошие» решения от градиентного спуска для такой невыпуклой задачи? (Есть несколько ответов на это в недавней литературе)
интерпретируемость: можем ли мы объяснить на интуитивном уровне, что «думает» сеть? (Не моя область)
(неполные) ссылки:
источник
Я хотел бы отметить, что нет хорошей теории о том, почему машинное обучение работает в целом. Границы ВК все еще предполагают модель, но реальность не соответствует ни одному из этих математических идеалов. В конечном счете, когда дело доходит до приложения, все сводится к эмпирическим результатам. Даже количественно оценить сходство между изображениями, используя алгоритм, который согласуется с интуитивным пониманием человека, действительно сложно
Во всяком случае, NN не работают хорошо в их полностью подключенной форме. Все успешные сети имеют некоторую регуляризацию, встроенную в сетевую архитектуру (CNN, LSTM и т. Д.).
источник