Como você monitora um servidor de monitoramento?

14

Por isso, rodamos o Groundworks (com Nagios) no CentOS para monitorar nossos vários servidores e processos. Eu tenho a configuração para enviar automaticamente e-mails e textos SMS quando as coisas atingirem um estado AVISO ou CRÍTICO. Normalmente isso funciona perfeitamente. No entanto, duas vezes tivemos problemas com o Postfix no servidor em que o Postfix decide parar de enviar email. O período mais recente durou 4 dias porque nenhum de nós percebeu.

Isso me leva a uma pergunta importante: como devo monitorar meu servidor de monitoramento?

orgânico
fonte
5
Quis custodiet ipsos custodes?
James L
Heh. Juvenal. Bem jogado.
Orgânicasveggie
Quem assiste os vigias? : D
Florent Courtay
1
@organicveggie, Um servidor de monitoramento também é um servidor ... Que problemas você enfrentaria ao usar um servidor de monitoramento para monitorar um servidor de monitoramento?
Pacerier

Respostas:

12

Com um segundo servidor de monitoramento, é claro. O segundo pode ser muito mais simples, pois basta monitorar o primeiro. E deve ser monitorado pelo principal sistema de monitoramento, por sua vez, é claro.

Se o seu grupo fizer parte de uma organização maior, com infra-estruturas de TI separadas, você poderá fazer acordos para que o serviço de monitoramento de outro grupo assista ao seu.

Você também pode garantir que o servidor envie uma mensagem "está tudo bem" todos os dias e adquira o hábito de procurá-la. (Isso só é eficaz se você ainda não estiver sobrecarregado com mensagens de rotina, é claro.)

mattdm
fonte
14

Outras pessoas sugerem o envio de mensagens regulares dizendo que tudo está bem, mas pessoalmente não concordo com isso. O monitoramento deve ser silencioso, a menos que haja um problema, e nunca se deve confiar em que um usuário perceba que algo está errado, como "Ah, eu não recebo esse email diariamente há alguns dias". Especialmente se você tiver mais de uma pessoa respondendo a alertas, cada uma pode pensar que a outra já removeu a mensagem diária "Estou bem".

Temos um serviço externo (dos quais existem centenas, mas usamos wormly ) para fazer verificações HTTP do nosso servidor de monitoramento para garantir que ele funcione e possa acessar a Internet. Essa é a nossa principal preocupação em monitorá-lo. Em seguida, nosso servidor Nagios monitora todos os servidores Nagios de nossos clientes.

Mas você traz um bom argumento. Provavelmente, devemos adicionar uma URL HTTP que verifique a fila de postfix e, se ela mostrar um número incomum de mensagens, o que provavelmente significa que ela tem alguma na fila, em seguida, gere um alerta. Outra opção seria usar métodos diferentes para alertas, digamos, um agente de entrega de SMS não SMTP e SMTP que usamos atualmente.

No entanto, no nosso caso, não me lembro que já tivemos o servidor de correio morto. Obviamente, todo esse servidor de email é usado para enviar alertas do Nagios, portanto a configuração é muito simples e quase nunca muda.

Sean Reifschneider
fonte
2
Mensagens regulares de OK não são tão úteis: você não pode condicionar com segurança uma pessoa a realizar uma ação na ausência de estímulo.
Tim Williscroft
@ Tim: Desculpe, mas "ausência de estímulo" não descreve a situação em que um email antecipado não é recebido. Nesse caso, acredito que seria "estimulado" a investigar por que a mensagem não chegou. Mas talvez seja apenas eu. :)
Steven segunda-feira
1
Acho que estou escrevendo usando termos psicológicos que não significam o que você acha que eles significam. Psicologia comportamental e psicologia da aviação têm muito a dizer aos engenheiros de sistemas. O campo foi desenvolvido pesadamente na Segunda Guerra Mundial para fazer com que as equipes de 18 a 20 anos voassem em aeronaves de ponta sem bater e ainda tivessem atenção para suas reais tarefas militares. É por isso que as aeronaves têm uma luz de advertência principal, não uma luz "está tudo bem". TLDR (Eu não acho que essa palavra significa o que você acha que isso significa)
Tim Williscroft
1
Eu sou muito fortemente da opinião de que os sistemas não devem fazer barulho, a menos que haja algo que precise de atenção de um humano. Temos atenção finita e os computadores podem facilmente nos sobrecarregar com pequenos pontinhos como "Estou vivo!". Além disso, coisas que surgem que não indicam problemas colocam as pessoas na mente de ignorar as coisas. Eu trabalho muito para garantir que, quando algo chega a um humano, é algo que ele realmente precisa ver. Eu trabalho com alguém que tem todos os tipos de registros que chegam todos os dias que ele revisa. Claro, ele é tão ocupado que ele não pode sair para almoçar ...
Sean Reifschneider
1
Concordo que os serviços não devem enviar muitas mensagens ou as pessoas começam rapidamente a ignorá-las. No entanto, se o sistema de monitoramento estiver configurado corretamente, você não deverá receber muitas mensagens. Obviamente, temos uma política de reconhecimento de alertas do Groundworks / Nagios, que interrompe efetivamente as mensagens por um período de tempo. Se for uma interrupção de longo prazo, desativamos o monitoramento do sistema ou serviço. Como resultado, uma mensagem diária "Estou Vivo" é realmente bastante razoável.
organicveggie
5

Obviamente, seu postfix também deve ser monitorado, mas esse é outro tópico;)

Eu uso o plugin Nagios checker para o Firefox , ele está sempre sendo executado em uma barra de status em qualquer computador que eu use regularmente.

Além disso, tenho um script personalizado no host externo que envia um ping ao host do nagios e envia um SMS se ele não estiver respondendo aos ping.

Até agora (mais de 5 anos) funcionou bem (bata na madeira).

Aleksandar Ivanisevic
fonte
2

Para monitorar o monitoramento do servidor (nagios no nosso caso), o plano gratuito ou básico do Pingdom ou alertfox funciona muito bem.

BXAtWork
fonte
Boas sugestões. Mas, nesse caso, nosso servidor de monitoramento não está acessível fora do firewall. Portanto, Pingdom e Alertfox realmente não funcionam para nós.
organicveggie
1

Primeira coisa: deixe enviar mensagens "estou vivo" uma ou duas vezes por dia. Segundo, eu executo uma máquina antiga apenas para esse fim, que possui outro modem GSM, um pequeno no-break etc. e uma conexão (direta) dedicada ao servidor de monitoramento primário. Este também ajuda no ponto três: Verifique o status de seus sistemas de monitoramento regularmente. O pequeno sistema de monitoramento auxiliar exibe a página de status do sistema primário em meu escritório o tempo todo.

Sven
fonte
1

Se o seu servidor de Monitoramento estiver acessível pela Internet, você deverá monitorá-lo por um provedor externo (por exemplo, websitepulse et. Al.).

tex
fonte