Como encontrar um módulo de memória defeituoso na mensagem do MCE?

11

Estou tentando entender a mensagem do MCE para descobrir qual módulo de memória está com defeito em um servidor. Esta mensagem aparece em /var/log/kern.logum servidor que congela duas vezes hoje.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Eu suspeito que um módulo de memória ruim. O servidor é um 2x Xeon E5-2650 com módulos de memória 8x8Go (8 slots de memória para cada CPU)

Aqui está a população do módulo de memória de lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Como você pode notar, não há nenhum módulo de memória no banco nº 5. Então, minha pergunta é: você concorda que esta mensagem é sobre falha de memória? E se sim, como posso encontrar qual módulo será substituído?

Matg
fonte

Respostas:

10

Esses erros são provenientes da classe edac_mc do EDAC - Detecção e correção de erros do dispositivo.

Os eventos que você está recebendo são eventos CE (erros corrigíveis). Essas são indicações de que um DIMM está começando a falhar.

O EDAC não relatou nenhuma informação específica sobre a qual linha ou canal de memória se refere, por isso é difícil dizer qual substituir até que falhe.

mas dê uma olhada em: / sys / devices / system / edac / mc / mc * e isso pode lhe dizer um pouco mais sobre qual linha / dimm pode ser a defeituosa.

Por exemplo

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

olhe para o campo ce_count.

em uma nota lateral:

O sistema ainda pode continuar em operação, mas com menos segurança. A manutenção preventiva e a substituição proativa de peças de memória DIMMs exibindo CEs podem reduzir a probabilidade de eventos temidos de UE (erro incorrecível) e 'pânico' do sistema.

mais informações sobre edac aqui:

https://www.kernel.org/doc/Documentation/edac.txt

Kammer
fonte
ou reinicie e, na tela de inicialização do GRUB, selecione memtest e isso poderá fornecer um pouco mais de informação.
kamger
Não há mais mensagem do MCE esta manhã lá (não há acesso físico ao servidor), esperando que ele verifique o edac, boa ideia!
Matg
1

Pode ajudar a instalar o mcelog e executá-lo como um daemon, pode ajudar a fornecer melhores relatórios. Eles ainda são enigmáticos, mas há um pouco mais de informações para encontrar o DIMM culpado.

O mcelog também pode lidar com problemas em tempo real, desativando páginas com excessivos erros de memória e, assim, dando mais chance de manter a máquina funcionando por mais tempo até que você possa recuperá-la.

Baruch Even
fonte
Obrigado, é o que eu fiz, mas não há mais erros desde o primeiro post. Decidimos substituir todo o DIMM.
Matg
Às vezes, os erros são transitórios transitórios e, às vezes, são simplesmente vinculados a locais muito específicos que raramente são tocados. Se os erros não se repetissem, eu pessoalmente não teria substituído os dimms e apenas continuado monitorando, mas a substituição também é válida.
Baruch Mesmo
1

Alguns fornecedores dizem que vários erros corrigíveis durante um certo período de tempo não causam danos.

Por exemplo, a Oracle diz que substituir um DIMM quando ocorrer um dos seguintes eventos:

  • Mais de 24 erros corrigíveis (CEs) se originam em 24 horas de um único DIMM e nenhum outro DIMM está mostrando outros CEs.

  • O DIMM falha no teste de memória no BIOS devido a erros de memória incorrigíveis (UCEs).

  • Os UCEs ocorrem e a investigação mostra que os erros se originaram da memória.

Observe 24 erros em 24 horas.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

Além disso,

Se mais de um DIMM tiver experimentado vários CEs, outras causas possíveis de CEs deverão ser descartadas por um especialista qualificado do Suporte da Sun antes de substituir qualquer DIMMs.

No último ponto, a HP diz algo semelhante: pode ser apenas o firmware do servidor que detecta erros de memória. Eles dizem que em muitos casos a atualização do firmware corrige alertas falsos positivos. Isso pode ser especialmente verdadeiro se você começar a receber MCEs de diferentes DIMMs.

Tagar
fonte