“Mce: [Erro de hardware]: eventos de verificação da máquina registrados” aparece no syslog. O que devo fazer?

19

Instalei a versão mais recente do OSSEC (2.8.1) e também habilitei as notificações por email. E estou recebendo um monte desses tipos de notificações dizendo que há um erro de hardware e algo sobre o mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Então, o que exatamente isso significa? Mce de quê? E esse aparente erro de hardware é algo que eu deveria me preocupar?


Informações do SO:

Description:    Ubuntu 14.10
Release:    14.10
Eric Carvalho
fonte
Você precisará ler um pouco no ossec, consulte as regras - ossec-docs.readthedocs.org/en/latest/manual/rules-decoders . A interface web ajuda, pois tem uma série de explicações - ossec.net/wiki/index.php/OSSECWUI:Install
Panther
ossec é provavelmente mal suportado ou fora de tópico aqui, já que não está nos repositórios do Ubuntu
Panther
1
Não se trata de OSSEC. Você recebeu essa notificação porque o OSSEC encontrou a palavra "erro" no syslog. Embora eu não pense que seja fora de tópico, você provavelmente obterá mais ajuda do Unix e Linux ou Server Fault .
Eric Carvalho
4
@ bodhi.zazen Tudo o que precisa fazer para estar no tópico é executado no Ubuntu. Agora isso não significa que você receberá uma resposta, é claro.
Seth

Respostas:

23

Exceção de verificação da máquina :

Uma exceção de verificação de máquina (MCE) é um tipo de erro de hardware de computador que ocorre quando a unidade central de processamento de um computador detecta um problema de hardware.

Seu computador encontrou um erro de hardware e o kernel registrou um evento em um buffer. Você pode usar mcelogpara registrar e visualizar os eventos de verificação da máquina. Da página de mcelogmanual :

As CPUs X86 relatam erros detectados pela CPU como MCEs (Machine Check Events). Estes podem ser dados corrompidos detectados nos caches da CPU, na memória principal por um controlador de memória integrado, erros de transferência de dados no barramento frontal ou na interconexão da CPU ou outros erros internos. As possíveis causas podem ser radiação cósmica, fontes de alimentação instáveis, problemas de refrigeração, hardware danificado, sistemas fora de especificação ou má sorte.

A maioria dos erros pode ser corrigida pela CPU por mecanismos internos de correção de erros. Erros não corrigidos causam exceções na verificação da máquina, que podem matar processos ou entrar em pânico na máquina. Um pequeno número de erros corrigidos geralmente não é motivo de preocupação, mas um grande número pode indicar falha futura.

Quando ocorre um erro corrigido ou recuperado, o kernel x86 grava um registro descrevendo o MCE em um buffer de anel interno disponível no dispositivo / dev / mcelog. O mcelog recupera erros de / dev / mcelog, decodifica-os em um formato legível por humanos e os imprime na saída padrão ou, opcionalmente, no log do sistema.

Se você não notou nenhuma falha, provavelmente o erro foi corrigido com sucesso. Ainda assim, recomendo que você instale mcelogpara acompanhar esses eventos:

sudo apt-get install mcelog

Os eventos serão registrados /var/log/mcelog. Você também pode executar:

sudo mcelog --client

para consultar o mcelogdaemon quanto a erros.

Eric Carvalho
fonte
2
Eu me pergunto por erros MCE não são apenas gravados diretamente em um log do sistema ... provavelmente alguma boa razão, talvez
Xen2050
2
@ Xen2050 Porque a decodificação da mensagem depende da arquitetura e nem sempre é documentada pelos fabricantes de hardware. O erro pode ser gerado mesmo pelo barramento PCIe.
Mircea Vutcovici
4
@ Xen2050: Na minha máquina Fedora 25, as mensagens do MCE são gravadas no diário, eu posso vê-las journalctl -b.
Martin Ueding 30/03