Мой графический процессор умирает?

14

Я временно отключил защиту памяти ECC на NVIDIA K20m (устройство 0 в моем узле) и теперь не могу вернуть его к работе. До этого он работал правильно с включенным ECC. Итак, вот что я сделал: я отключил ECC с

nvidia-smi -i 0 --ecc-config=0

и перезагрузился. Когда он появился, он показал 100% использование графического процессора и не запустил никаких ядер (на самом деле он уже не работал при создании контекста). Причиной была двойная ошибка. Я сбрасываю это с

nvidia-smi -i 0 --reset-ecc-errors=0

и перезагрузил узел. После перезагрузки загрузка устройства составила 0%, и я смог начать работу как обычно. Через несколько часов устройство снова показало 100% загрузку графического процессора. На этот раз он не сообщил о двухбитной ошибке (даже ни одной битовой ошибке). Однако, поскольку я не мог выполнить какую-либо работу, я перезагрузил узел, и он получил 100% загрузку графического процессора, я не могу его использовать, но не сообщает об ошибках. Что это такое?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None
Ritter
источник
2
кажется странным; никогда не замечал ничего подобного. Даже если это не поможет решить проблему, попробуйте переустановить драйверы, может быть?
Бен Франчук
Я полагаю, вы уже попробовали очевидное, чтобы просто удалить и переустановить все? Я имею в виду, хм, я мало знаю об оборудовании, поэтому мой подход всегда состоит в том, чтобы убедиться, что программное обеспечение - что я действительно понимаю - должно работать. И тогда я, возможно, объявлю кусок сломанным, пока не опровергну более осведомленным мнением.
Ариана
Я посмотрел на это, а также потратил некоторое время на изучение этой проблемы и ее причин. Похоже, что лучшим решением является замена оборудования.
Адови
1
Вы уже пытались сбросить CMOS?
Сергей

Ответы:

2

Мой графический процессор умирает?

Я говорю, что он уже мертв. Он больше не сообщает о битовых ошибках, потому что вы отключили то, что их обнаруживает. (ECC обнаруживает больше, чем может исправить.) Однако это может быть ошибка памяти на карте (или на самой физической карте).

Есть два других подозреваемых, прежде чем я бросил его в «мусорную корзину»: охлаждение и блок питания. Охлаждение достаточно легко проверить; сила, не так много.

Рики Бим
источник