Erro de hardware genérico APEI

9

Na semana passada, meu servidor (executando o Debian Jessie) foi reiniciado duas vezes. No syslog, vejo isso antes de cada reinicialização e em nenhum outro momento:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Alguns estudos no Google me levam a acreditar que isso tem a ver com a minha RAM ECC detectando e se recuperando de um erro. Isso está correto? Se estiver se recuperando, por que o sistema é reiniciado? Eu gostaria de impedir que o sistema seja reiniciado, se possível.

moujik
fonte

Respostas:

9

Parece que sua RAM está falhando ou com erros que estão sendo corrigidos. Dependendo da gravidade, parece que esses erros estão afetando sua capacidade de funcionar e é necessário reiniciar posteriormente.

Pela aparência desse encadeamento, o bit da mensagem no final sobre o comprimento da seção de erro ser muito pequeno provavelmente é o culpado.

trecho - [PATCH 1/1] efi: cper: suporta comprimento diferente da seção de erro

Alguns campos podem ser adicionados à seção de erro na especificação UEFI mais recente. Por exemplo, os campos 'Reservado', 'Número do Rank', 'Identificador de Cartão' e 'Identificador de Módulo' são adicionados à Seção de Erro de Memória iniciada na UEFI spec 2.3. Infelizmente, haverá a seguinte mensagem de aviso se o erro corrigido de memória for detectado e o campo 'revisão' em struct acpi_generic_data for menor que 0x203 (UEFI spec 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Esse comportamento faz com que esse erro corrigido não possa ser exibido corretamente. Para resolver o problema, esse patch oferece suporte a diferentes comprimentos da seção de erros para diferentes versões de especificações UEFI.

E esse patch emprega uma estrutura predefinida para limpar os códigos duplicados na função cper_estatus_print_section.

Com a aplicação desse patch, o erro corrigido na memória pode ser exibido corretamente após a injeção do erro.

Testado na v3.14-rc5 com plataforma Grantley e Intel RAStool.

Portanto, parece que um patch para esse erro específico está em andamento e pode estar disponível em uma versão mais recente do kernel.

slm
fonte
3

Para sua informação, parecia ter um problema muito semelhante a este.

Como se viu, a solução estava retirando a memória e recolocando-a, e tudo voltou ao normal.

Darren Harrison
fonte