Estratégias de monitoramento de infraestrutura

12

Ultimamente, tenho enfrentado algum tempo de inatividade em alguns sites do Drupal que implantei. Eu gostaria de abordar o problema proativamente, em vez de reagir a esses períodos de inatividade reiniciando os serviços ou o próprio servidor. Eu li sobre ferramentas de monitoramento como nagios, munin, cactos etc. para monitorar a saúde do seu servidor / infraestrutura, mas eu realmente não tentei um em produção. Lido com o Drupal quase 99% das vezes e gostaria de descobrir sugestões para o monitoramento no nível do servidor e o monitoramento no nível do Drupal (código do aplicativo).

Basicamente, eu gostaria de ser notificado quando a carga do servidor estiver alta, possivelmente sendo apontada para o culpado (ou a vítima), para que eu possa tomar decisões informadas. Também gostaria de saber o que as pessoas usam para o monitoramento de nível do Drupal (como email) quando houver um erro / aviso do PHP. (O que acontece quando o próprio servidor de email está inoperante?)

Dipen
fonte

Respostas:

6

Se você deseja monitorar vários sites Drupal do mesmo lugar com alertas, etc ... posso dizer que você não é o único. Começa a ser um nicho de negócios, agora preenchido por:

Ambas são abordagens comerciais de SaaS, com opções limitadas gratuitas para experimentar o serviço.

Também existe a opção de monitoramento Open Source Zabbix com seu módulo Drupal http://drupal.org/project/zabbix , mas você deve configurar e construir o servidor.

Todas essas opções possuem seus módulos Drupal para enviar informações específicas do servidor e do drupal ao servidor monitor.

ATUALIZAR. Munin também possui um módulo Drupal específico , com uma ramificação 2.x baseada em Drush.

corbacho
fonte
Eu experimentei uma nova relíquia com o drupal e devo dizer que é realmente extenso de uma maneira boa na maioria das vezes (o xhprof mais ou menos é um bom substituto para os traços de transação no NR, mas a coleta de dados é indispensável). Também ouvi falar do drupal.org adotando nagios para monitoramento. Obrigado por sua resposta, esperarei mais alguns dias por mais alguns antes de selecioná-lo.
Dipen
5

Independentemente de qual você usar, a única coisa que eu definitivamente sugeriria é que, a menos que você tenha uma equipe de TI em tempo integral, não mantenha seu próprio monitoramento: conte com um serviço completamente independente de seus servidores. Uma coisa é ter um servidor voltado para o público inoperante, outra é desativá-lo e não saber porque o servidor de monitoramento também está inoperante. A maioria dos serviços de monitoramento inclui todos os requisitos listados por você imediatamente.

Mas, com o risco de isso se transformar em uma pergunta de recomendação de compras, o serviço que eu uso para os requisitos listados é o Pingdom :

  • Informa se um site está ativo (é claro)
  • Mede quanto tempo leva para responder
  • Mede a capacidade de resposta e a disponibilidade em qualquer porta TCP / UDP personalizada
  • Verificação de disponibilidade de email
  • Permite solicitações HTTP personalizadas, permitindo testar diferentes aspectos do seu aplicativo
  • Relatórios abrangentes
  • Monitoramento mundial, e eles adicionam cerca de uma dúzia de outros sites de monitoramento a cada poucos meses
kiamlaluno
fonte
Eu já estou usando site24x7.com e também pingdom (para um site diff) para alertar. Eu queria um monitoramento que proativamente me informa sobre o uso de recursos ou problemas em potencial e que se integra perfeitamente ao ambiente do servidor. Obrigado pela sua resposta.
Dipen
2

Estas são algumas sugestões agnósticas de Drupal:

  • O Are My Sites Up faz ping periodicamente no (s) servidor (es) e envia um e-mail a você (ou SMS, se você receber o pacote gratuito), se o site estiver offline ou sem resposta.
  • O Load Impact é outra ótima ferramenta gratuita que pode testar seu site sob estresse, para que você saiba quando exatamente ele começa a falhar.

Quanto ao próprio aplicativo Drupal, sugiro usar o Xdebug + Webgrind ou o XHProf para criar um perfil do código e ficar de olho nessa pergunta: Melhor maneira de avaliar o desempenho da pilha do Drupal

Alex Weber
fonte
Obrigado por me informar sobre o impacto na carga, tenho usado o jmeter, mas é mais trabalhoso configurar seus planos de teste, etc. Espero que o impacto na carga possa lidar com simulações autenticadas por drupal.
Dipen
1

Gosto de pingdom para sites pequenos / médios porque é útil: informa que algo está errado do ponto de vista do cliente, que é acionável. Coisas como média de carga realmente não significam nada, a menos que você tenha uma pilha mal configurada (o que não deveria) ou esteja sendo martelada pelo Digg / Reddit (nesse caso, não há nada que você possa fazer de qualquer maneira, você deve ter preparado).

Do blog de Ted Dziuba:

Eu chamo esses tipos de alertas de Cool Story, Bro, para abreviar. Essas são informações que não indicam nenhum tipo de estado de problema e não solicitam nenhuma ação. Cool Stories são coisas para as quais você nem deveria ter alertas. Eles desperdiçam seu tempo e o tornam paranóico. Os alertas do Cool Story Bro são coisas como:

  • A média de carga em um servidor está acima de 20.
  • Uma fila de trabalhos possui mais de X unidades de trabalho. Parabéns, imbecil, sua fila está fazendo exatamente o que deveria fazer.
  • Algumas métricas são maiores que uma média determinada empiricamente. Fico pessoalmente ofendido por merdas como essa.

Leia o post do blog, é hilário.

Entendu
fonte
0

Estou usando o check_drupal para monitorar vários sites do drupal. Este é um plug-in do nagios que não requer nenhuma alteração no código do site drupal. O único requisito é que o drush precise estar presente no servidor.

lockdoc
fonte