Я не нашел удовлетворительного ответа на этот вопрос от Google .
Конечно, если у меня есть данные порядка нескольких миллионов, то глубокое обучение - это путь.
И я прочитал, что, когда у меня нет больших данных, тогда, возможно, лучше использовать другие методы в машинном обучении. Приведенная причина является чрезмерной. Машинное обучение: то есть просмотр данных, извлечение функций, создание новых функций из собранных данных и т. Д., Например, удаление сильно коррелированных переменных и т. Д. Всего машинного обучения 9 ярдов.
И мне было интересно: почему нейронные сети с одним скрытым слоем не являются панацеей от проблем машинного обучения? Они являются универсальными оценщиками, с переподгонкой можно управлять с помощью отсева, регуляризации l2, регуляризации l1, пакетной нормализации. Скорость обучения, как правило, не проблема, если у нас есть только 50 000 примеров обучения. Они лучше во время испытаний, чем, скажем, случайные леса.
Так почему бы и нет - очистите данные, вменяйте пропущенные значения, как вы это обычно делаете, центрируйте данные, стандартизируйте данные, добавьте их в ансамбль нейронных сетей с одним скрытым слоем и примените регуляризацию до тех пор, пока вы не увидите чрезмерного соответствия, а затем обучите их до конца. Никаких проблем с градиентным взрывом или исчезновением градиента, поскольку это всего лишь двухслойная сеть. Если необходимы глубокие уровни, это означает, что иерархические особенности должны быть изучены, и тогда другие алгоритмы машинного обучения также не годятся. Например, SVM - это нейронная сеть только с потерей шарнира.
Был бы признателен пример, где какой-то другой алгоритм машинного обучения превзошел бы тщательно упорядоченную 2-уровневую (возможно, 3?) Нейронную сеть. Вы можете дать мне ссылку на проблему, и я обучу лучшую нейронную сеть, какую только смогу, и мы увидим, что двухуровневая или трехуровневая нейронная сеть не соответствует любому другому алгоритму машинного обучения.
источник
Ответы:
Каждый алгоритм машинного обучения имеет различное индуктивное смещение, поэтому не всегда целесообразно использовать нейронные сети. Линейный тренд всегда будет лучше всего изучен с помощью простой линейной регрессии, а не множества нелинейных сетей.
Если вы посмотрите на победителей прошлых соревнований Kaggle , исключая любые проблемы с изображениями / видео, вы быстро обнаружите, что нейронные сети не являются решением для всего. Некоторые прошлые решения здесь.
Нет никаких гарантий, что вы сможете применить достаточную регуляризацию, чтобы предотвратить переоснащение, не полностью разрушая способность сети чему-либо научиться. В реальной жизни редко выполнимо устранить пробел в обучении, и поэтому бумаги все еще сообщают о результатах обучения и испытаний.
Это верно только в случае неограниченного количества единиц, что нереально.
Примерная проблема, которую, как я ожидаю, никогда не сможет решить нейронная сеть: по целому числу классифицировать как простое или не простое.
Я считаю, что это можно было бы решить с помощью простого алгоритма, который перебирает все действительные программы по возрастанию и находит самую короткую программу, которая правильно определяет простые числа. Действительно, эта строка регулярного выражения из 13 символов может соответствовать простым числам, что было бы трудно найти в вычислительном отношении.
Да, есть сладкое пятно, но обычно до того, как вы перестаете переоснащаться. Смотрите этот рисунок:
Если вы перевернете горизонтальную ось и обозначите ее как «количество регуляризации», это будет довольно точно - если вы регуляризируете до тех пор, пока не будет никакого переоснащения, ваша ошибка будет огромной. «Сладкое пятно» возникает, когда есть небольшое переоснащение, но не слишком много.
Да. Вот уродливая, но, надеюсь, эффективная фигура, иллюстрирующая мою точку зрения.
Вопрос не в «может ли это», а в «будет ли это», и если вы тренируетесь обратное распространение, ответ, вероятно, нет.
Без дальнейшей квалификации, это утверждение просто неправильно.
источник
Я бы добавил, что нет такой вещи как панацея от машинного обучения:
По теореме об отсутствии бесплатного обеда :
источник