Identificando o que causou uma reinicialização do servidor

8

Eu tenho um HP ProLiant DL380p Gen8 que está executando o VMWare ESXi 5.5 . Ele foi reiniciado em intervalos aparentemente aleatórios nas últimas 24 horas. Existe apenas uma única VM em execução e, mesmo que eu a desligue, o host ainda será reiniciado. O servidor não está ficando sem memória ou espaço em disco e, pelo que sei, não está superaquecendo. Eu tentei examinar os arquivos de log, mas há muito o que analisar.

Quais são as etapas mais importantes no diagnóstico desse problema (incluindo quais configurações verificar, quais arquivos examinar, que mensagem específica indicaria problemas, devo começar a extrair memória, existe um CD de diagnóstico que faz tudo isso por mim, etc.) ?

Eu sei que esta é uma pergunta muito ampla. É um prazer fornecer arquivos de log, se necessário, para tornar isso mais específico à minha situação.

nachito
fonte

Respostas:

9

Aqui estão algumas sugestões.

  • A sua OIT está conectada e configurada? Ele informará exatamente o que está acontecendo com o sistema. Revise o log do ILO4.

  • Visualize o log IML do sistema (disponível na guia "hardware" da ILO ou do vSphere)

  • Existem indicadores ou mensagens de erro na tela durante a falha ou no POST?

  • Você está usando a instalação específica do HP do ESXi (inclui drivers e ferramentas adicionais)

  • Qual versão e número de compilação do ESXi você está executando?

  • Se a máquina virtual que você está executando for um convidado do Windows 2012 ou 2008, você pode estar executando um erro de driver da NIC .

  • Verifique suas conexões de energia. Você tem fontes de alimentação duplas? Recoloque os cabos de energia, um de cada vez.

  • Observe a matriz de LEDs do System Insight na frente do servidor para determinar se há um problema de saúde interno.

insira a descrição da imagem aqui

ewwhite
fonte
2
E CHAME O FORNECEDOR DE APOIO, também. Você pode e deve gastar algum tempo investigando a si mesmo, mas se este é um servidor importante, ele deve estar sob um contrato de suporte.
precisa saber é o seguinte
Eu não havia configurado a OIT, muito obrigado pela sugestão. Depois de configurado, verifiquei o log e encontrei isso System Overheating (Temperature Sensor 1, Location Ambient, Temperature 46C). Vou consertar isso imediatamente.
Nachito 27/08/14
Isso significa que a sala ou o ambiente do servidor está muito quente. Isso também resultaria em uma luz VERMELHA no LED de temperatura na imagem acima. Dependendo de quando você implantou este servidor, você também pode querer executar atualizações de firmware no sistema.
precisa saber é o seguinte
Acho que o que está acontecendo é que o escape de outro rack está muito próximo da entrada para esta máquina, já que a sala em si é um 72F legal. Quando eu estava de olho na máquina durante a reinicialização, vi o OverTemp piscar por uma fração de segundo. Não surpreendeu Eu nunca vi isso antes, se você piscar no momento errado você perdê-lo completamente
Nachito
3
@nachito eu espero que você saiba que a OIT eo servidor pode enviar alertas de saúde, como esta condição de temperatura ...
ewwhite