Я управляю нейронной сетью глубокого обучения, которая была обучена графическим процессором. Теперь я хочу развернуть это на нескольких хостах для вывода. Вопрос в том, каковы условия, чтобы решить, следует ли мне использовать GPU или CPU для вывода?
Добавление более подробной информации из комментариев ниже.
Я новичок в этом, поэтому руководство ценится.
Память : графический процессор K80
Рамки : Cuda и CuDNN
Размер данных на рабочие нагрузки : 20G
Вычислительные узлы для потребления : по одному на работу, хотя хотелось бы рассмотреть вариант масштабирования
Стоимость : я могу позволить себе вариант графического процессора, если причины имеют смысл
Развертывание : запуск на собственных серверах с открытым исходным кодом, а не в облаке.
Сейчас я работаю на процессоре просто потому, что приложение работает нормально. Но вне этой причины я не уверен, почему кто-то даже подумал бы о GPU.
источник
Ответы:
@Dan @SmallChess, я не совсем согласен. Это правда, что для обучения большая часть параллализации может быть использована графическими процессорами, что приводит к гораздо более быстрой тренировке. Для Вывода эта параллализация может быть намного меньше, однако CNN все равно получит преимущество от этого, что приведет к более быстрому выводу. Теперь вам просто нужно спросить себя: важен ли быстрый вывод? Нужны ли мне дополнительные зависимости (хороший графический процессор, правильные файлы и т. Д.)?
Если скорость не проблема, перейдите на процессор. Однако обратите внимание, что по моему опыту графические процессоры могут сделать это на порядок быстрее.
источник
Выполнение логического вывода на графическом процессоре вместо центрального процессора даст вам почти такое же ускорение, как и на тренировках, и не сильно увеличит нагрузку на память.
Однако, как вы сказали, приложение работает нормально на CPU. Если вы дойдете до точки, где скорость вывода является узким местом в приложении, обновление до GPU облегчит что узкое место.
источник
Вы будете использовать только GPU для обучения, потому что глубокое обучение требует массивных вычислений, чтобы найти оптимальное решение. Однако для развертывания вам не нужны машины с графическим процессором .
Давайте возьмем в качестве примера новый iPhone X от Apple. Новый iPhone X имеет усовершенствованный алгоритм машинного обучения для распознавания лиц. Сотрудники Apple, должны иметь кластер машин для подготовки и проверки. Но ваш iPhone X не нуждается в графическом процессоре только для запуска модели.
источник