Minha GPU está morrendo?

14

Desativei temporariamente a proteção de memória ECC em um NVIDIA K20m (dispositivo 0 no meu nó) e agora não consigo trazê-lo de volta ao trabalho. Antes disso, estava funcionando corretamente com o ECC ativado. Então, aqui está o que eu fiz: desabilitei o ECC com

nvidia-smi -i 0 --ecc-config=0

e reiniciado. Quando surgiu, mostrou 100% de utilização da GPU e não iniciou nenhum kernel (na verdade, já falhou ao criar o contexto). O motivo foi um erro de dois bits. Redefini-lo com

nvidia-smi -i 0 --reset-ecc-errors=0

e reiniciou o nó. Após a reinicialização, a utilização do dispositivo era de 0% e eu poderia iniciar os trabalhos normalmente. Algumas horas depois, o dispositivo mostrou novamente uma utilização de 100% da GPU. Desta vez, não reportou um erro de bit duplo (nem mesmo um erro de bit único). No entanto, como não consegui executar nenhum trabalho, reinicializei o nó e ele surgiu com 100% de utilização da GPU, não posso usá-lo, mas não apresenta erros de bit. Qual é o problema é isso?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None
ritter
fonte
2
parece estranho; nunca viu nada assim. Mesmo que isso não ajude a resolver o problema, tente reinstalar os drivers, talvez?
quer
Eu acho que você já tentou o óbvio apenas para desfazer e reinstalar tudo? Quero dizer, eu sei pouco sobre hardware, então minha abordagem é sempre garantir que o software - o que eu entendo - funcione. E então possivelmente declararei a peça quebrada até ser contrariada por uma opinião mais experiente.
Ariane #
Analisei o assunto e passei algum tempo pesquisando esse problema e suas causas. Parece que a melhor solução é substituir o hardware.
Adovi 30/09
1
Você já tentou redefinir o CMOS?
Sergei

Respostas:

2

Minha GPU está morrendo?

Eu digo que já está morto. Não está mais relatando erros de bit porque você desativou o que os detecta. (O ECC detecta mais do que pode corrigir.) No entanto, pode ser que a memória do cartão (ou o próprio cartão físico) tenha desenvolvido uma falha.

Existem outros dois suspeitos antes de eu jogá-lo na lixeira: refrigeração e fonte de alimentação. O resfriamento é fácil o suficiente para verificar; poder, nem tanto.

Ricky Beam
fonte