Eu tenho um novo sistema HP ProLiant DL360 G7 que está apresentando um problema difícil de reproduzir. O servidor aleatoriamente trava no " Poder e calibração térmica em andamento ... " tela durante o processo POST . Isso geralmente ocorre após uma inicialização a quente / reinicialização do sistema operacional instalado.
O sistema trava indefinidamente neste momento. A emissão de uma redefinição ou inicialização a frio através dos controles de energia da OIT 3 faz com que o sistema inicialize normalmente sem incidentes.
Quando o sistema está nesse estado, a interface da OIT 3 fica totalmente acessível e todos os indicadores de integridade do sistema ficam bem (todos verdes). O servidor está em um data center controlado por clima com conexões de energia à PDU. A temperatura ambiente é de 64 ° F / 17 ° C. O sistema foi colocado em um loop de teste de componente de 24 horas antes da implantação, sem falhas.
O sistema operacional principal desse servidor é o VMWare ESXi 5. Inicialmente, tentamos a versão 5.0 e posterior a versão 5.1. Ambos foram implantados via inicialização PXE e kickstart. Além disso, estamos testando com instalações baremetal do Windows e Red Hat Linux.
Os sistemas HP ProLiant possuem um conjunto abrangente de opções de BIOS. Tentamos as configurações padrão, além do perfil estático de alto desempenho. Desativei a tela inicial da inicialização e recebo um cursor piscando nesse ponto em relação à captura de tela acima. Também tentamos algumas "práticas recomendadas" do VMWare para a configuração do BIOS . Vimos um comunicado da HP que parece esboçar um problema semelhante , mas não corrigiu nosso problema específico.
Suspeitando de um problema de hardware, pedi ao fornecedor que enviasse um sistema idêntico para entrega no mesmo dia. O novo servidor era uma compilação totalmente idêntica, com exceção dos discos. Movemos os discos do servidor antigo para o novo. Ocorreu o mesmo problema de inicialização aleatória no hardware de substituição.
Agora tenho dois servidores rodando em paralelo. O problema ocorre aleatoriamente em botas quentes. Botas frias não parecem ter o problema. Estou analisando algumas das configurações mais esotéricas do BIOS, como desativar o Turbo Boost ou desativar totalmente a função de calibração de energia. Eu poderia tentar isso, mas eles não deveriam ser necessários.
Alguma ideia?
--editar--
Detalhes do sistema:
- DL360 G7 - 2 x CPUs X5670 de núcleo sextavado
- 96 GB de RAM (DIMMs de baixa tensão de 12 x 8 GB)
- 2 x discos rígidos SAS de 146 GB e 15k
- 2 fontes de alimentação redundantes de 750W
Todo o firmware atualizado a partir da versão mais recente do HP Service Pack for ProLiant DVD.
Ligando para a HP e rastreando a interwebz, vi menções a uma interação ruim da OIT 3, mas isso também acontece com o servidor em um console físico. A HP também sugeriu uma fonte de energia, mas isso está em um rack de data center que alimenta com sucesso outros sistemas de produção.
Existe alguma chance de que essa interação entre os DIMMs de baixa tensão e as fontes de alimentação de 750W seja ruim? Este servidor deve ser uma configuração suportada.
fonte
Respostas:
Então, depois de incluir um terceiro sistema e experimentar o mesmo problema, começamos a questionar o meio ambiente. Eu cavei uma cópia do Guia de solução de problemas dos servidores HP ProLiant e encontrei o fluxograma de problemas do POST mostrado abaixo.
Examinando cuidadosamente as etapas do gráfico, percebemos que a constante em todos os servidores era um comutador KVM conectado ao carrinho de falha do datacenter. Este era um KVM habilitado para USB da classe de consumidor. De acordo com o nó destacado no fluxograma, você conhece o KVM bom? , Não pude responder conclusivamente.
Portanto, desconectamos os servidores do comutador KVM e executamos uma inicialização automatizada,
sleep 300; reboot
sequênciarc.local
. Os servidores não tiveram problemas com isso, independentemente do DIMM normal, DIMMs de baixa tensão, potência da PSU etc.Tudo isso foi resultado de uma interação ruim com um comutador KVM USB. Por ser esse o console, garantimos que veríamos o fracasso se o procurássemos. Auto-realizável ...
fonte