Eu tenho uma configuração de servidor nagios para monitorar ~ 30 servidores Windows. Quero adicionar alguns gráficos de tendências. Eu li que os plugins gráficos da nagios são simples e muitas pessoas usam ferramentas independentes de gráficos / tendências.
Quais são as restrições dos plugins gráficos da nagios versus produtos autônomos como ganglia / munin / cacti?
Estou interessado em recursos e vantagens específicos que os pacotes independentes oferecem e os plugins gráficos da nagios não.
Respostas:
Considerando que você já possui uma instalação do nagios, considere nagiosgraph ou pnp4nagios.
O nagiosgraph e o pnp4nagios fazem um ótimo trabalho ao plotar dados de desempenho do nagios. O nagiosgraph possui uma abordagem de configuração baseada em parâmetros, o pnp4nagios possui uma abordagem baseada em modelo.
fatiar e picar os dados é muito importante, imho. por exemplo, você pode visualizar todos os serviços em um único host, ou todos os hosts com um serviço específico, ou visualizar coleções arbitrárias de gráficos para hosts e serviços arbitrários.
a instalação não é trivial, mas não é difícil. depende muito de quanto você deseja personalizar as coisas. por exemplo, nagiosgraph é 'install.pl' ou 'rpm -i nagiosgraph.rpm' ou 'dpkg -i nagiosgraph.deb'. pnp4nagios é './configure; faço; make install '.
O n2rrd também pode fazer algumas dessas coisas, mas não é tão polido e requer mais trabalho para configurar.
O rrdtool possui peculiaridades no armazenamento de dados incorretos e qualquer sistema terá problemas de amostragem. O rrdtool realiza a suavização de alguns dados por padrão, mas você pode capturar (e representar graficamente) máximos e / ou mínimos, além de médias, se necessário.
toda abordagem baseada em rrdtool sofre de rigidez de dados / gráficos, pois o esquema em cada arquivo rrd é estático e a maioria dos sistemas usa o nome de arquivo rrd para identificar os dados. os dados geralmente nunca são perdidos quando um nome de host ou nome de serviço é alterado; os arquivos rrd ainda existem no disco. mas algumas interfaces de usuário fornecem maneiras de ver arquivos rrd 'obsoletos', outras requerem manutenção manual via linha de comando. em muitas instalações, isso é apenas um problema ao configurar o sistema inicialmente, mas em ambientes dinâmicos (por exemplo, monitorando máquinas virtuais cuja vida útil é de apenas alguns meses), pode se tornar entediante.
uma nota final. na verdade, existem duas partes para tendências: coleta de dados e exibição de dados. se você usar um sistema gráfico independente em vez de estender a instalação existente do nagios, poderá ser necessário instalar componentes adicionais nas máquinas Windows para coletar os dados.
fonte
Eu concordo com o lynxman. NAGIOS é para dados qualitativos imediatos (X está OK ou não?); munin é para dados quantitativos históricos (quão cheio está X agora e quão cheio está este ano?). Todas as minhas instalações do NAGIOS, algumas das quais monitoram várias centenas de serviços, estão ligadas aos sistemas munin para fazer o monitoramento quantitativo.
Observe também que munin possui ganchos específicos para alimentar dados no NAGIOS. Ele entende o conceito de limiares WARNING e CRITICAL, e onde a notificação (e uma visualização na "placa grande" do NAGIOS) é necessária, é muito fácil ter uma única variável munin informando o estado de um único serviço do NAGIOS.
O fluxo de trabalho usual é que ninguém olha para os gráficos de munin até o NAGIOS alertar que um limite foi violado, mas os gráficos de munin se tornam inestimáveis para descobrir se algo tem aumentado lentamente ao longo do tempo ou se isso é um problema imediato. aumento azul, ou temos um ciclo semanal de subida e descida que aumenta lentamente em amplitude, ou o quê.
Como diz o lynxman, a maneira do UNIX é "uma tarefa, uma ferramenta". Fazer um conjunto de ferramentas de munin e NAGIOS funciona muito bem para eu fornecer monitoramento quantitativo e qualitativo, além de notificações. Ele também tem a vantagem distinta de manter as interfaces limpas: quando você olha para o NAGIOS, vê uma visão simples de como as coisas estão funcionando no momento , sem dados históricos atrapalhando a visualização; quando você olha para munin, vê informações históricas pertinentes ao problema prontas para sua análise, sem erros "host inoperante" ou "sshd não fala comigo" que atrapalham a vista.
fonte
Os plugins gráficos do Nagios, como você diz, são muito restritos, oferecem uma interface rrdtool muito básica e o design da interface do usuário é um pouco contra-intuitivo, é basicamente um hack sobre os nagios, tentou usar isso apenas por diversão, mas quebrou várias vezes sem aviso prévio.
Adquirir um produto independente (especialmente munin ou gânglios) oferece uma grande variedade de serviços que os nagios não podem realizar, pois, como o mantra unix, é melhor ser bom em apenas uma coisa do que tentar ser bom em muitos, nagios é incrível para monitoramento e munin / gânglios / cactos são surpreendentes nos gráficos.
fonte
No Stack Overflow, usamos o n2rrd, um plugin do Nagios para representar graficamente os dados de desempenho. Até certo ponto, eu concordo com o lynxman que ele tem uma grande sensação de hack.
Contudo:
Os gráficos rrd são armazenados de acordo com os nomes dos servidores, portanto, se você alterar o nome de algo que solta os dados ... Você sempre pode renomear os arquivos para vincular os arquivos e não perderá os dados.
Eu tenho alguns exemplos desses gráficos na minha recente postagem no Blog Tips for Better RRD Graphs Server Fault. Além disso, a página n2rrd inclui a demonstração de cactos e o rrd2graph.
Eu acho que o essencial é que seguir a rota de Nagios pode estar faltando em um recurso ou dois, mas é bastante completo se você não se importa de sujar as mãos com os detalhes de escrever os próprios modelos rrd *. Provavelmente vai levar mais tempo, mas isso incentivará o desenvolvimento de mais conhecimentos em rrd.
fonte
Exijo dados precisos e a exibição de dados da rrd não é precisa - é normalizada! Para a maioria dos usuários, isso é bom, porque eles não estão usando dados muito precisos para começar. Eles estão usando dados cujas taxas de amostragem costumam chegar a um minuto ou mais e isso não fornece uma descrição muito precisa do que está acontecendo. Isso também significa que se você tiver um pico nos dados em algum lugar, poderá nunca vê-lo.
Considere isso - digamos que sua rede Gb esteja funcionando a cerca de 10 MB / s e, de repente, há um pico de 100 MB / s por alguns minutos. Observe também que se houve apenas um pico de 30 segundos, você pode nem vê-lo com taxas de amostragem de alguns minutos. Se você observar os dados do dia, esse "pico" poderá aparecer apenas como 15 MB / s, embora o valor real dependa de vários outros fatores também. Também há uma probabilidade muito provável de que sua rede fique feliz quando não estiver!
O que é ainda mais frustrante para mim são os dados normalizados para a largura física do gráfico e o alcance do eixo x. O que isso significa é o pico que mencionei que você não viu? Se você aumentar o zoom, ele aparecerá magicamente! Vou me ater ao gnuplot - os gráficos podem não ser tão bonitos, mas são sólidos e o gnuplot nunca modifica os dados antes de exibi-los.
-marca
fonte
Acho que o uso do pnp4nagios funciona muito bem para gráficos. Ele também suporta zoom. Não é o mais fácil de implementar, mas nada com os nagios é.
fonte