Como faço para que meus servidores HP me enviem um email quando uma unidade falha?

11

Idealmente, com a instalação mais simples possível e sem a necessidade de reiniciar os servidores. Principalmente DL380 G5'sse isso ajuda.

DrZaiusApeLord
fonte
Pena que eles não são G7s, ou você pode usar o HP Insight Manager.
Tom O'Connor
Seus servidores estão executando o Windows ou Linux?
Tom O'Connor
Quais sistemas operacionais você está executando nesses servidores?
EWrite
Eles são todos de 2003 ou 2008, baunilha e R2. Joguei com o SIM, mas ele não foi capaz de falar com os meus G5.
DrZaiusApeLord
O SIM ainda deve ser compatível com o G5 ProLiants. Você tinha os agentes instalados quando tentou antes?
ewwhite

Respostas:

16

Isso depende um pouco dos sistemas operacionais em execução nos servidores, mas, em geral, é possível obter alertas dos servidores HP ProLiant e dos controladores RAID Smart Array.

A lista completa de drivers e softwares dos sistemas DL380 G5 está listada aqui .

O SNMP e uma solução de monitoramento é a melhor abordagem ... Mas você pode aumentar isso com algumas das ferramentas da HP. A HP oferece o HP Systems Insight Manager , que está disponível para download e também vem com os servidores. Isso é ideal para coleções de servidores. Se você estiver procurando alertas únicos sem criar uma infraestrutura de gerenciamento ou monitoramento, basta instalar o HP Management Agents (também conhecido como ProLiant Support Pack ).

Para sistemas Linux independentes, os agentes enviam traps por email. Normalmente, configurarei o pacote de suporte com padrões ou um pacote personalizado , depois editarei /opt/hp/hp-snmp-agents/cma.confe alterarei a trapemaillinha para apontar para o endereço do destinatário:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' [email protected]

Se você estiver executando o Linux e não quiser instalar o conjunto de gerenciamento HP completo, poderá desenvolver um script em torno do utilitário cciss_vol_status para consultar o status do controlador / disco. Consulte também: Instalando os agentes HP no OpenFiler

ewwhite
fonte
alguma maneira elegante de testar um alerta para uma falha na matriz RAID, além de retirar uma unidade do slot? Eu tenho alguns ProLiant DL360 G7servidores e o HP SIM configurado para monitoramento.
Banjer
Não que eu saiba. Os agentes do Insight definitivamente funcionam. Se você pode ver o status da matriz por meio do utilitário hpacucli e sabe que está recebendo alertas no HP SIM, acho justo supor que as coisas funcionem.
ewwhite 15/05
3

Eu usei o programa leve que o @ewwite mencionou em sua resposta: cciss_vol_status

Se você seguir as instruções de instalação que o acompanham, o script será inserido /usr/local/bin/cciss_vol_status.

Aqui está um script de wrapper que eu uso para receber a saída de cciss_vol_status e enviar um email se alguma matriz tiver um status FAILED.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Chame o script acima no cron. Eu executo a verificação a cada dois minutos:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Utilizamos o HP System Insight Manager para verificar se os nossos HP estão em funcionamento, mas nada além disso. Eu achei que o agente Linux era um exagero para nós, já que temos outras soluções de monitoramento em vigor, portanto, esse script acima serve bem a seu propósito específico.

ATUALIZAR

Apenas uma dica para solução de problemas, caso você encontre isso. Este script foi útil esta manhã quando recebi um email sobre uma matriz com falha com:

Limite de cache sujo atingido

O dispositivo foi somente leitura e não estava visível /proc/partitions. Reiniciei o servidor e vi estas mensagens na inicialização:

Unidades lógicas desativadas devido a uma possível perda de dados. Selecione "F1" para continuar com a (s) unidade (s) lógica (s) desativada (s) Selecione "F2" para aceitar a perda de dados e reativar a (s) unidade (s) lógica (s)

Selecionei F2 e o RAID estava bom e montado na inicialização.

Banjer
fonte
1

instale smartmontools. Envia um e-mail ANTES de uma unidade falhar.

Stephan
fonte
2
~ 30% do tempo. SMART não é uma bala de prata.
precisa