Teste de hardware automatizado de servidores HP?

9

Como parte dos servidores de provisionamento, executamos o Insight Diagnostics da HP para testar o hardware. Este é um processo manual. Existe uma maneira de automatizar a execução do Insight Diagnostics?

Existe o software hpdiags com a opção "-rd:" "Execute um diagnóstico de todos os dispositivos diagnosticáveis". Nos meus testes, isso não faz muito (apenas lê as informações SMART dos discos). Alguém teve mais sorte com isso?

Hardware: BladeCenter c7000 com blades HP ProLiant BL460c, DL360s.

SO: ESXi e Ubuntu.

Mark Wagner
fonte
2
Resposta curta é que eu não me incomodo em fazer isso em ambientes grandes. O monitoramento e o diagnóstico a bordo são suficientes. Mas você pode fornecer algumas informações sobre os modelos de servidor que você está usando? E talvez os sistemas operacionais envolvidos.
ewwhite
Atualizei o ticket com as informações solicitadas.
21815 Mark Wagner
Você está instalando versões específicas da HP do ESXi? Você instala os Agentes de Gerenciamento HP nos sistemas Ubuntu? Quais gerações são os servidores? G6? G7? Gen8?
ewwhite
Os agentes de gerenciamento HP estão instalados no ESXi e no Ubuntu. Os servidores são Gen8 e serão Gen9.
21815 Mark Wagner
8
I updated the ticket with the requested info- Isso me fez rir. Este não é o suporte técnico.
21415 JoJoQwerty

Respostas:

8

Então, vou fazer outra pergunta:

Por que é necessário executar o diagnóstico de hardware do HP Insight nos servidores antes do provisionamento?

No meu comentário acima, indiquei que há pouco a ganhar fazendo isso preventivamente em grandes ambientes HP ProLiant. Eu deveria esclarecer meus pensamentos sobre isso ...

Em ordem decrescente de frequência, vamos examinar os tipos de problemas que você normalmente encontrará:

  • Matriz e discos de armazenamento : o controlador RAID reportará ao sistema operacional, logs, SNMP, email, OIT e acenderá luzes bonitas para indicar a integridade.

  • RAM : o processo POST detectará o status da RAM, bem como o sistema que reporta ao sistema operacional, logs, SNMP, email, OIT e acende um indicador de LED no SID (Systems Insight Display) do painel frontal . Além disso, não sou fã de processos de queima de RAM porque a detecção de erros desses sistemas já é robusta.

  • Térmica e ventiladores : a temperatura do servidor e a velocidade do ventilador são reguladas pela OIT. Existem mais de 30 sensores de temperatura nesses sistemas , portanto o sistema de refrigeração é extremamente eficiente. Isso ainda reporta ao sistema operacional, logs, SNMP, email e no SID.

  • Fonte de alimentação : o status da PSU é relatado ao sistema operacional, logs, SNMP, email e no SID, além de uma luz indicadora real na unidade de fonte de alimentação real.

  • Saúde geral : é fácil avaliar de imediato com a tela do SID, além do LED Internal Health e External Health. Isso também é relatado nos logs do servidor, SNMP, email e OIT.

insira a descrição da imagem aqui

Não consigo pensar em nenhuma condição encontrada antes da implantação que não seria / não pôde ser relatada durante o tempo de execução ou após a instalação do SO.

O ciclo de diagnóstico geralmente não encontra nada quando executado em um sistema sem problemas anteriores óbvios. Isso ocorre principalmente porque o servidor precisa fazer o POST e inicializar no utilitário ou no firmware do Intelligent Provisioning para executar o utilitário.

Em outras palavras, qualquer item que seria um "SPOF" sério para o servidor provavelmente impediria o sistema de executar seu autodiagnóstico.

Os itens de falha mais comuns ainda são bastante robustos; os discos devem estar em RAID e podem ser trocados a quente. Os ventiladores e fontes de alimentação também podem ser trocados a quente. Sua RAM possui limites de ECC e existem opções on-line para a maioria das plataformas ProLiant. Não há nada que você possa fazer para induzir falhas nesses componentes executando diagnósticos. Adicione o fato de que você está usando gabinetes HP C7000 Blade, que possuem redundâncias internas , e sua incidência de falhas deve ser bem baixa.

ewwhite
fonte
O problema é que (a) uma falha é detectada após a instalação do SO (ou seja, o servidor está em produção), (b) o reparo não pode ser feito on-line ou o componente com falha é um SPOF para o servidor e (c) o servidor é um SPOF, você experimentará um tempo de inatividade (imediatamente ou quando o sistema for desativado para reparo). Para impedir a conclusão, você precisa evitar uma das condições. Eu estava buscando (a) detectando a falha antes da produção. Agradeço sua atenção ao detalhar as habilidades de relatório, mas pretendo evitar a necessidade de relatá-las em primeiro lugar, porque elas não acontecem.
Mark Wagner
Um loop de diagnóstico da HP provavelmente não encontrará nada, considerando que o servidor precisa POST e inicializar no utilitário ou no Provisionamento inteligente para executar o diagnóstico. Os itens de falha mais comuns são bastante robustos; discos, ventiladores e fontes de alimentação podem ser trocados a quente, a RAM possui limites de ECC. Não há nada que você possa fazer para induzir falhas nesses componentes.
ewwhite