Eu fiz algumas pesquisas sobre nagios, opennms e zenoss, mas não estou confiante de ter encontrado o que estou procurando.
A principal força motriz para mim agora é poder monitorar backups. Isso inclui mysql, mssql e, eventualmente, alguns backups do sistema de arquivos.
Temos uma ferramenta que envolve o processo de backup desses diferentes sistemas e coleta estatísticas. Então, itens como:
- número de bancos de dados armazenados em backup
- tamanho do arquivo de backup db
- tamanho do arquivo de backup db compactado
- hora de fazer backup
- hora de compactar o arquivo
Desejo poder: A) receber notificações se os trabalhos não forem executados de acordo com o cronograma B) ser capaz de definir limites nas estatísticas que acionariam as notificações C) Desejar apresentar tendências e representar graficamente as estatísticas
Estou planejando enviar essas informações para o aplicativo de monitoramento por meio de um HTTP POST. Ou, o aplicativo de monitoramento também pode retirá-lo de um arquivo de log.
No entanto, teremos outros processos com outras estatísticas "arbitrárias" (da perspectiva do sistema de monitoramento) que desejarão monitorar e tendências, portanto a flexibilidade é muito importante.
A ferramenta ou ferramentas também devem ser capazes de fazer monitoramento e tendências gerais de interfaces de rede, carga do servidor, etc. Assim que instalarmos o monitoramento de backup, desejaremos incluir esses itens também.
Obrigado.
Acompanhamento :
Decidi tentar o seguinte na seguinte ordem:
- Zabbix: parecia mais um "balcão único" do que os outros e era fácil de instalar no Ubuntu Lucid RC
- opsview
- Nagios com nagvis, pnp4nagios, nagiosgraph
- cactos com plugin npc
- Munin: um pouco marcado pela simplicidade, mas isso pode vir a ser uma bênção a longo prazo
Vou postar de volta depois de tomar uma decisão, pode demorar um pouco até que isso aconteça.
fonte
isso deve ser bem fácil de configurar com o zabbix.
é fácil definir limites personalizados (e muito poderosos) - você pode escrever qualquer expressão que desejar, para algo como "notifique-me se mais de 3 desses 5 servidores não tiverem um backup bem-sucedido" possível. você também pode usar 6 níveis e escalonamentos diferentes de gravidade para obter notificações e alertas flexíveis.
O zabbix possui recursos limitados de armazenamento e visualização de dados - todos os dados são armazenados em um banco de dados e, para representar graficamente uma única métrica, você não precisa de nenhuma configuração - basta obter um gráfico para ela "de graça". para armazenamento de longo prazo e tendências de uma hora são calculadas as médias.
quanto a colocar seus dados sobre backups no zabbix, existem várias possibilidades. você pode lê-lo a partir de arquivos, ativar comandos personalizados, enviá-lo da máquina monitorada usando o utilitário de linha de comando zabbix_sender ... e pode haver mais abordagens possíveis.
estender é fácil - qualquer comando personalizado que retorna dados pode ser usado para coletar, armazenar e visualizar esses dados.
é claro, é possível o monitoramento geral de sistemas operacionais, aplicativos, dispositivos snmp e ipmi e assim por diante.
fonte
execução
backups são orquestrados pelo backupninja . eu uso apenas um invólucro para meus scripts bash - para ter um único log de backup. cada script começa com
então eu recebo erro nos logs sempre que qualquer um dos comandos [por exemplo, mysqldump ou rsync] falhar.
todos os backups acabam no repositório rdiff, então eu tenho n dias de incrementos.
todos os backups são transmitidos usando o rsync para o servidor de armazenamento central.
no servidor de armazenamento, todos os backups são verificados diariamente e após a verificação bem-sucedida dos dados no disco local, eles são copiados para a unidade USB externa.
verificação
O backupninja.log em todos os servidores é monitorado pelo nagios. Verifico se eles contêm apenas mensagens DEBUG e INFO. qualquer outra coisa aciona o alerta.
todo backup 'toca' em um arquivo de teste, cuja presença e atualização são monitoradas no servidor central do repositório de backup com o nagios.
Além disso, dumps sql mais críticos são verificados quanto ao seu tamanho [não apenas frescura] e integridade [por exemplo, no final dos dumps do mysql, espero um novo registro de data e hora no
todos os arquivos rdiff são verificados diariamente antes que os dados sejam sincronizados com a unidade USB e depois novamente depois que eles são sincronizados. portanto, mesmo que a transferência noturna seja interrompida, terei repositório consistente apenas no disco USB. O resultado da verificação é registrado no arquivo cujo conteúdo e atualização são verificados pelos nagios.
discos USB são rotacionados semanalmente e são armazenados offline, apenas por precaução. isso pode ser um exagero para grandes quantidades de dados, mas funciona bem para ~ 300 GB de arquivos / despejos que mudam lentamente.
tendências
Eu uso o plugin munin personalizado simples para plotar o tamanho do diff / data para cada repositório rdiff.
O tempo necessário para executar pode ser verificado nos logs do backupninja, mas por enquanto não me preocupo com isso.
fonte
O nagios pode fazer tendências, mas você precisa produzir perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) no seu plug-in. Se você usar um pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start , tudo será representado graficamente para você.
Eu descobri que usar o opsview http://www.opsview.org/ é muito mais fácil do que configurar o nagios e o pnp4nagios. Especialmente se você é o único administrador experiente em Linux no trabalho. Opsview é um nagios com um ótimo webui que permite quase todas as ações do navegador. Por ser nagios, você pode usar todos os plugins nagios que você estava usando no passado. Ótima ferramenta.
fonte
O Nagios para alertas e o Cacti para gráficos, além de alguns scripts shell ou perl, farão exatamente o que você deseja. Com a combinação deles, você pode fazer praticamente qualquer coisa, dependendo da quantidade de esforço que está disposto a fazer.
fonte
Eu recomendo o OpenNMS . O pacote é completamente de código aberto, com suporte ativo e aprimorado regularmente. Para referência, encontrei nas informações de configuração do wiki para monitorar o Symantec Backup Exec .
Do site deles ..
Divulgação: Não tenho interesse comercial aqui, mas o proprietário do The OpenNMS Group , a "organização de serviços comerciais, treinamento e suporte" mencionados acima é um amigo meu.
fonte
Isso pode ser feito facilmente com o Circonus ( http://circonus.com/ ). Importamos rotineiramente métricas como essa com o Resmon XML DTD.
fonte