Как получить виртуализированный интерфейс SR-IOV Infiniband UP?

9

Я потратил на это несколько дней, и мне удалось заставить SR-IOV работать с картой Mellanox Infiniband с использованием последней прошивки.

Виртуальные функции появляются в Dom0 как

06: 00.1 Сетевой контроллер: семейство Mellanox Technologies MT27500 [виртуальная функция ConnectX-3] 06: 00.2 Сетевой контроллер: семейство Mellanox Technologies MT27500 [виртуальная функция ConnectX-3] 06: 00.3 Сетевой контроллер: семейство Mellanox Technologies MT27500 [виртуальная функция ConnectX-3 ] 06: 00.4 Сетевой контроллер: семейство Mellanox Technologies MT27500 [Виртуальная функция ConnectX-3]

Затем я отключил 06: 00.1 от Dom0 и назначил его для xen-pciback.

Я передал это в тестовый домен Xen.

lspci внутри теста DomU показывает:

00: 01.1 Сетевой контроллер: семейство Mellanox Technologies MT27500 [виртуальная функция ConnectX-3]

У меня есть следующие модули, загруженные в DomU

mlx4_ib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib

Вывод dmesg для драйверов mlx4 показывает:

[   11.956787] mlx4_core: Mellanox ConnectX core driver v1.1 (Dec, 2011)
[   11.956789] mlx4_core: Initializing 0000:00:01.1
[   11.956859] mlx4_core 0000:00:01.1: enabling device (0000 -> 0002)
[   11.957242] mlx4_core 0000:00:01.1: Xen PCI mapped GSI0 to IRQ30
[   11.957581] mlx4_core 0000:00:01.1: Detected virtual function - running in slave mode
[   11.957606] mlx4_core 0000:00:01.1: Sending reset
[   11.957699] mlx4_core 0000:00:01.1: Sending vhcr0
[   11.976090] mlx4_core 0000:00:01.1: HCA minimum page size:512
[   11.976672] mlx4_core 0000:00:01.1: Timestamping is not supported in slave mode.
[   12.068079] <mlx4_ib> mlx4_ib_add: mlx4_ib: Mellanox ConnectX InfiniBand driver v1.0 (April 4, 2008)
[   12.184072] mlx4_core 0000:00:01.1: mlx4_ib: multi-function enabled
[   12.184075] mlx4_core 0000:00:01.1: mlx4_ib: operating in qp1 tunnel mode

У меня даже появилось устройство ib0.

ib0       Link encap:UNSPEC  HWaddr 80-00-05-49-FE-80-00-00-00-00-00-00-00-00-00-00  
          inet addr:10.10.10.10  Bcast:10.10.10.255  Mask:255.255.255.0
          UP BROADCAST MULTICAST  MTU:2044  Metric:1
          RX packets:117303 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:256 
          RX bytes:6576132 (6.5 MB)  TX bytes:0 (0.0 B)

Я даже могу локально пинговать 10.10.10.10.

Тем не менее, эти пинги не отправляются на инфинити бэнд.

Похоже, потому что ссылка не работает. ibstat показывает:

CA 'mlx4_0'
    CA type: MT4100
    Number of ports: 1
    Firmware version: 2.30.3000
    Hardware version: 0
    Node GUID: 0x001405005ef41f25
    System image GUID: 0x002590ffff175727
    Port 1:
        State: Down
        Physical state: LinkUp
        Rate: 10
        Base lid: 9
        LMC: 0
        SM lid: 1
        Capability mask: 0x02514868
        Port GUID: 0x0000000000000000

Как мне это сделать? ссылка domU вверх, но не VF?


И ответ на самом деле находится здесь: По этой ссылке: http://www.spinics.net/lists/linux-rdma/msg13307.html

Что мне нужно, чтобы порт подчиненного VF стал активным? Я использую opensm 3.3.13 на другом компьютере, достаточно ли этого нового? (Требуется ли SR-IOV поддержка SM?)

Да, как отметил Хэл, как минимум, вам нужен opensm 3.3.14 ( http://marc.info/?l=linux-rdma&m=133819320432335&w=2 ), так как это первая версия для поддержки alias-guid и других материалов, необходимых для SRIOV, 3.3.15 также отсутствует, поэтому вы хотите, чтобы вторая версия поддерживала это ... в основном вам нужна ссылка IB для PPF и ведомого, чтобы зарегистрировать псевдоним guid для него @ SM. Мы (команда IL) были выходными по вторникам / средам в праздничные дни, постараемся сообщить вам более подробную информацию сегодня вечером, а если нет, то завтра.

Сейчас я обновил OpenSM и скоро сообщу.


РЕДАКТИРОВАТЬ: ОК, теперь работает. Тем не менее, я получаю выброс бревна для opensm. Процесс OpenSM записывает сотни записей в секунду в форме:

Sep 30 20:36:26 707784 [7DC1700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 707810 [7DC1700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708096 [8DC3700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708119 [8DC3700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708391 [FF5B0700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708421 [FF5B0700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708696 [3DB9700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708719 [3DB9700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID

И вышеупомянутые сообщения об ошибках исчезли, когда я перезагрузил компьютер и дал Dom0 больше памяти. У меня в настоящее время есть 2 ГБ, выделенных для него с отключенным автобаллонированием. К сожалению, они вернулись без видимой причины. Итак, я задал новый вопрос, который относится к этому здесь

Я не совсем уверен, почему это работает в dom0, но в моем случае мне нужно, чтобы OpenSM работал на Dom0, который имеет VF. Я предполагаю, что это потому, что экземпляр OpenSM, работающий на Dom0, знает о VF и может объявить их, в то время как менеджер подсети на другом узле не знает? это мое предположение Я надеюсь, что другой узел xen также подхватит его VF. Это может в конечном итоге стать другим вопросом. На данный момент он работает с одним узлом Xen.

Matt
источник
Что показывает "sminfo"?
Данила Ладнер
В дом0. sminfo: sm lid 1 sm guid 0x2590ffff1758d1, счет активности 40515, приоритет 0, состояние 3 SMINFO_MASTER
Matt
Хорошо, перезагрузка и выделение Dom0 дополнительной памяти (2 ГБ), похоже, устраняют эти ошибки. Я не уверен, было ли это больше памяти или перезагрузка, которая, кажется, решила это.
Мэтт
Большое спасибо! это спасло меня! На коммутаторе работал SM, но этого было недостаточно. После того, как я запустил SM на одном из узлов (после всей магии sysfs), у меня теперь есть IB в виртуальных машинах!
Jounathaen
1
@jounathaen - рад, что кто-то нашел это полезным. Я думал, что в то время я открывал новый путь. Идти туда, где никто не был раньше.
Мэтт

Ответы:

1

OpenSM должен быть установлен и запущен на хосте гипервизора, чтобы привести состояние в рабочее состояние. Затем запустите OpenSM с параметром: PORTS = "ALL".

Данила Ладнер
источник
1
OpenSM уже работает на другом хосте в матрице.
Мэтт
Более подробная информация добавлена ​​в нижней части вашего исходного вопроса
Мэтт
В конфигурации без коммутатора OpenSM должен работать на обоих хостах.
Данила Ладнер
Есть два выключателя. Хотя я не думаю, что они управляются
Мэтт
1
Почему порт GUID: 0x0000000000000000 ??? Просто видел это. Это не должно быть 0.
Данила Ладнер