За последние 50 лет рост / падение / рост популярности нейронных сетей стал своего рода «барометром» для исследований ИИ.
Из вопросов на этом сайте ясно, что люди заинтересованы в применении Deep Learning (DL) для решения самых разных сложных проблем.
Поэтому у меня есть два вопроса:
- Практики - Что вы считаете основными препятствиями для применения DL «из коробки» к вашей проблеме?
- Исследователи - Какие методы вы используете (или разработали), которые могут помочь в решении практических вопросов? Находятся ли они в DL или предлагают альтернативный подход?
deep-learning
NietzscheanAI
источник
источник
Ответы:
Подводя итог, можно сказать, что в прикладном Deep Learning есть две основные проблемы.
Первое, что вычислительно, это исчерпывающе. Обычные процессоры требуют много времени для выполнения даже базовых вычислений / обучения с помощью Deep Learning. Тем не менее, рекомендуется использовать графические процессоры, хотя их может быть недостаточно во многих ситуациях. Типичные модели глубокого обучения не поддерживают теоретическое время нахождения в полиномах. Однако, если мы посмотрим на относительно более простые модели в ML для тех же задач, слишком часто у нас есть математические гарантии того, что время обучения, требуемое для таких более простых алгоритмов, находится в полиномах. По крайней мере, для меня это, пожалуй, самая большая разница.
Хотя есть решения, чтобы противостоять этой проблеме. Одним из основных подходов является оптимизация алгоритмов DL только для ряда итераций (вместо того, чтобы смотреть на глобальные решения на практике, просто оптимизируйте алгоритм до хорошего локального решения, тогда как критерий «Хорошо» определяется пользователем).
Другая проблема, которая может быть немного противоречивой для молодых энтузиастов глубокого обучения, заключается в том, что алгоритмам глубокого обучения не хватает теоретического понимания и аргументации. Глубокие нейронные сети успешно используются во многих ситуациях, включая распознавание рукописного ввода, обработку изображений, автомобили с автоматическим управлением, обработку сигналов, НЛП и биомедицинский анализ. В некоторых из этих случаев они даже превзошли людей. Однако, как говорится, они ни при каких обстоятельствах не являются теоретически такими же надежными, как большинство статистических методов.
Я не буду вдаваться в подробности, скорее оставлю это на ваше усмотрение. У каждого алгоритма / методологии есть свои плюсы и минусы, и DL не является исключением. Это очень полезно, что было доказано во многих ситуациях, и каждый молодой Data Scientist должен изучить хотя бы основы DL. Однако в случае относительно простых задач лучше использовать известные статистические методы, так как они имеют много теоретических результатов / гарантий для их поддержки. Кроме того, с точки зрения обучения, всегда лучше начать с простых подходов и освоить их в первую очередь.
источник
У меня очень мало опыта в ML / DL, чтобы называть себя практикующим, но вот мой ответ на первый вопрос:
По своей сути DL хорошо решает задачу классификации. Не каждая практическая проблема может быть перефразирована с точки зрения классификации. Классификация домена должна быть известна заранее. Хотя классификация может быть применена к любому типу данных, необходимо обучить NN образцам конкретной области, в которой они будут применяться. Если домен переключается в какой-то момент, сохраняя ту же модель (структура NN), он должен быть переобучен новыми образцами. Кроме того, даже у лучших классификаторов есть «пробелы» - состязательные примеры могут быть легко построены из обучающей выборки, так что изменения незаметны для человека, но неправильно классифицированы обученной моделью.
источник
Вопрос 2. Я исследую, является ли Гипермерные вычисления альтернативой глубокому обучению. Hyper-D использует очень длинные битовые векторы (10000 бит) для кодирования информации. Векторы являются случайными и, как таковые, они приблизительно ортогональны. Путем группировки и усреднения набора таких векторов можно сформировать «набор», а затем запросить его, чтобы узнать, принадлежит ли неизвестный вектор этому набору. Набор можно рассматривать как концепт или обобщающий образ и т. Д. Обучение проходит очень быстро, как и распознавание. Что нужно сделать, это смоделировать области, в которых Deep Learning была успешной, и сравнить Hyper-D с ним.
источник
С математической точки зрения одной из основных проблем в глубоких сетях с несколькими слоями являются исчезающие или нестабильные градиенты . Каждый дополнительный скрытый слой учится значительно медленнее, почти сводя на нет преимущества дополнительного слоя.
Современные подходы глубокого обучения могут улучшить это поведение, но в простых старомодных нейронных сетях это хорошо известная проблема. Вы можете найти хорошо написанный анализ здесь для более глубокого изучения.
источник