Существует ли какая-либо проблема контролируемого обучения, которую (глубокие) нейронные сети, очевидно, не могут превзойти другими методами?

33

Я видел людей, которые приложили много усилий к SVM и ядрам, и они выглядят довольно интересно, как начинающие в машинном обучении. Но если мы ожидаем, что почти всегда мы сможем найти превосходящее решение с точки зрения (глубокой) нейронной сети, каков смысл использования других методов в эту эпоху?

Вот мое ограничение на эту тему.

  1. Мы думаем только о контролируемых уроках; Регрессия и классификация.
  2. Читаемость Результата не учитывается; учитывается только точность задачи контролируемого обучения.
  3. Вычислительная стоимость не учитывается.
  4. Я не говорю, что любые другие методы бесполезны.
Робин
источник
3
Какие-либо ограничения на количество доступных данных обучения?
Джейк Уэстфолл
1
Я не делал этого, но я ожидаю, что у вас будет чертовски трудная тренировка нейронной сети, например, для разложения по сингулярным значениям на матрице нетривиального размера (скажем, ранг> 10).
Мердад
1
Google Translate теперь использует нейронные сети и теперь производит более любопытные ошибки для названия бразильского города, где дословное использование словаря было бы намного лучше
Генри
Я никогда не слышал о глубоком изучении использования дополнения матрицы (хотя использование углубленного анализа до глубокого изучения - обычная практика). Вы можете утверждать, что это может быть проблемой вычислительных затрат, но также стоит отметить, что я не знаю, могли бы все компьютеры в мире выполнить углубленное изучение матрицы с, скажем, проблемой netflix.
Клифф А.Б.
@CliffAB: (язык на полпути в щеку ...), вероятно, стоит отметить, что они, возможно, не смогут, но я не уверен, что стоит отметить, что вы не знаете, могут ли они;)
Мердад

Ответы:

31

Вот одна теоретическая и две практические причины, по которым кто-то может рационально предпочесть подход без DNN.

  1. Теорема об отсутствии бесплатного обеда от Wolpert и Macready говорит

    Мы назвали соответствующие результаты теоремами НФЛ, потому что они демонстрируют, что если алгоритм хорошо работает на определенном классе задач, то он обязательно платит за это с ухудшенной производительностью на множестве всех оставшихся проблем.

    Другими словами, ни один алгоритм не управляет ими всеми; Вы должны сравниться.

    Очевидным опровержением здесь является то , что вы обычно не заботятся о всех возможных проблемах, и глубокое изучение , кажется, работает хорошо на несколько классов проблем , которые люди делают заботу о (например, распознавание объектов), и таким образом , это разумно первый / единственный выбор для других приложений в этих доменах.

  2. Многие из этих очень глубоких сетей требуют тонны данных, а также тонны вычислений, чтобы соответствовать. Если у вас есть, скажем, 500 примеров, двадцатислойная сеть никогда не будет хорошо учиться, в то время как можно было бы соответствовать гораздо более простой модели. Есть удивительное количество проблем, когда невозможно собрать тонну данных. С другой стороны, можно попытаться научиться решать связанную проблему (если доступно больше данных), использовать что-то вроде трансферного обучения, чтобы адаптировать его к конкретной задаче с низким уровнем доступности данных.

  3. Глубокие нейронные сети также могут иметь необычные режимы сбоев. Есть некоторые документы, показывающие, что едва заметные человеческие изменения могут привести к тому, что сеть перевернется от правильной классификации изображения к уверенной неправильной классификации его. (См. Здесь и сопроводительный документ Szegedy et al.) Другие подходы могут быть более надежными против этого: есть отравляющие атаки на SVM (например, это Биджио, Нельсон и Ласков), но они происходят в поезде, а не тестируют время. С другой стороны, существуют известные (но не очень) пределы производительности для алгоритма ближайшего соседа. В некоторых ситуациях вы можете быть довольны более низкой общей производительностью и меньшим шансом катастрофы.

Мэтт Краузе
источник
Я согласился все, что вы говорите. Но проблема в том, что "вычислительные проблемы игнорируются". Это означает, что OP предполагает, что вы будете иметь бесконечные выборки и бесконечные вычислительные ресурсы.
SmallChess
17
Бесконечные вычисления! = Бесконечные выборки. Например, у меня есть доступ к удивительно большому кластеру для обработки данных. Тем не менее, лабораторные эксперименты, которые мы проводим для того, чтобы на самом деле получить некоторые из этих данных, трудны, медленны и занимают много времени (порядка часов или дней для одной точки данных), и все вычисления в мире не помогут этому наряду ,
Мэтт Краузе
2
SVM с любым конкретным экстрактором объектов, вероятно, столь же уязвимы для враждебных входов, как и CNN, - их сложнее найти, потому что у нас нет легко доступных градиентов слоев извлечения объектов.
Дугал
1
Недавний и интересный реальный пример проблемы, которую дает @MattKrause, и попытка обойти ее, используя трансферное обучение, представлен в
разделе «
@Dougal, мне также интересно, имеет ли значение, что DNN-функции-экстракторы изучены, в то время как SVM (обычно) сделаны вручную и соответствуют функциям, которые замечают люди. Часть того, что делает пример панды таким коварным, - это незаметное различие между состязательным примером и обычным.
Мэтт Краузе
24

Где-то в этом списке воспроизведения лекций Джеффа Хинтона (из его курса Coursera по нейронным сетям) есть сегмент, где он говорит о двух классах проблем:

  1. Проблемы, где шум является ключевой особенностью,
  2. Проблемы, где сигнал является ключевой особенностью.

Я помню объяснение, что, хотя нейронные сети процветают в этом последнем пространстве, традиционные статистические методы часто лучше подходят для первого. Анализ цифровых фотографий с высоким разрешением реальных вещей в мире, месте, где превосходят глубокие сверточные сети, явно составляет последнее.

С другой стороны, когда шум является доминирующей характеристикой, например, в медицинском исследовании случай-контроль с 50 случаями и 50 контролями, традиционные статистические методы могут лучше подходить для этой проблемы.

Если кто-нибудь найдет это видео, пожалуйста, прокомментируйте, и я обновлю.

Бен Огорек
источник
Отличный ответ. Именно поэтому мы обращаемся к глубокому изучению того, что мы уже можем сделать (например, распознаем изображения и пишем текст), но можем обратиться к другим моделям вещей, которые могут быть интуитивно сложными.
Мустафа С Эйса
Я лично принимаю этот ответ в моих самых больших интересах. Большое спасибо за ответ.
Робин,
13

Две линейно усовершенствованные коррелированные переменные. Может ли глубокая сеть с 1 миллионом скрытых слоев и 2 триллионом нейтронов победить простую линейную регрессию?

отредактированный

По моему опыту, сбор образцов более дорог, чем вычисление. Я имею в виду, мы можем просто нанять несколько экземпляров Amazon, провести углубленное обучение, а затем вернуться через несколько дней. Стоимость в моем поле составляет около 200 долларов США. Стоимость минимальная. Мои коллеги зарабатывают больше, чем за день.

Сбор образцов обычно требует знания предметной области и специального оборудования. Глубокое обучение подходит только для задач с дешевым и легким доступом к набору данных, таких как обработка естественного языка, обработка изображений и все, что вы можете соскрести из Интернета.

SmallChess
источник
1
Конечно, любой метод MLE превзойдет глубокое обучение при условии генерирующей модели, соответствующей предположениям MLE . Тем не менее, это никогда не происходит на реальных данных, или, по крайней мере, для каких-либо интересных проблем (то есть, не предсказывая результат броска монеты). Поэтому я думаю, что ОП просит примеры, включающие реальные вопросы, представляющие интерес с реальными данными.
Клифф А.Б.
Это очень хороший ответ. Вы предложили очень интуитивную и реалистичную точку зрения. Огромное спасибо.
Робин,