Невозможно запустить образ NVIDIA Docker в Azure

0

Я создал Data Science Virtual Machine for Linux (Ubuntu) на Azure и хотите проверить установку графических процессоров, следуя эти направления TensorFlow , Первая команда показывает, что GPU доступен с Tesla M60:

$ lspci | grep -i nvidia
db4d:00:00.0 VGA compatible controller: NVIDIA Corporation GM204GL [Tesla M60] (rev a1)

Вторая команда терпит неудачу с загадочным сообщением:

$ sudo docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
docker: Error response from daemon: OCI runtime create failed: container_linux.go:348: starting container process caused "process_linux.go:402: container init caused \"process_linux.go:385: running prestart hook 1 caused \\\"error running hook: exit status 1, stdout: , stderr: exec command: [/usr/bin/nvidia-container-cli --load-kmods configure --ldconfig=@/sbin/ldconfig.real --device=all --compute --utility --require=cuda>=10.0 brand=tesla,driver>=384,driver<385 --pid=31149 /data/docker/overlay2/16e2b65fa0831681029432e3936005fa2796afd6d5a50c297d6bc0693e57a0b0/merged]\\\\nnvidia-container-cli: requirement error: unsatisfied condition: driver < 385\\\\n\\\"\"": unknown.

Как настроить компьютер для запуска образа док-станции Nvidia?

mmorin
источник

Ответы:

0

Это проблема NVIDIA GitHub и эта часть сообщения об ошибке:

--require=cuda>=10.0 brand=tesla,driver>=384,driver<385

предположить, что это проблема водителя. Я не совсем понимаю, почему.

Решение с использованием Docker, но без вашего имиджа

Самое простое решение - использовать разные образы Azure: оба NVIDIA GPU Cloud Image а также NVIDIA GPU Cloud Image for Deep Learning and HPC запустит этот образ Docker.

Решение с использованием вашего изображения, но без Docker

Кроме того, вы все еще можете использовать Data Science Virtual Machine for Linux (Ubuntu) но без контейнеризации Docker. Конда, например, может создать среду (где начальный yes | отвечает да на подсказки по установке пакетов):

yes | conda create -n TF python=2.7 scipy==1.0.0 tensorflow-gpu==1.8 Keras==2.1.3 pandas==0.22.0 numpy==1.14.0 matplotlib scikit-learn
export PATH=$PATH:/data/anaconda/envs/TF/bin
export PATH=$PATH:/data/anaconda/envs/py35/bin

Эти команды извлекают официальные модели из Tensorflow:

git clone https://github.com/tensorflow/models.git
export PYTHONPATH="$PYTHONPATH:./models"

Первый звонок nvidia-smi показывает, что в GPU нет запущенных процессов:

$ nvidia-smi
Mon Jan 21 16:26:02 2019       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.44                 Driver Version: 396.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M60           On   | 0000DB4D:00:00.0 Off |                  Off |
| N/A   39C    P8    14W / 150W |      0MiB /  8129MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Если вы на некоторое время оставите официальную модель MNIST в фоновом режиме, вы увидите один процесс, использующий графический процессор:

$ python models/official/mnist/mnist.py &
[1] 25967
$ nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.44                 Driver Version: 396.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M60           On   | 0000DB4D:00:00.0 Off |                  Off |
| N/A   37C    P0    77W / 150W |   7851MiB /  8129MiB |     93%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0     26077      C   python                                      7840MiB |
+-----------------------------------------------------------------------------+
mmorin
источник