Qual ferramenta você usa para monitorar seus servidores?

187

Para uma lista mais abrangente de ferramentas de monitoramento e seus recursos, consulte esta página da Wikipedia .

Conforme a pergunta, quais são as ferramentas mais usadas para esta tarefa e quais são seus pontos fortes e fracos?

voretaq7
fonte
Qual plataforma seu servidor está executando?
21119 Glenn Slaven
11
Meus servidores estão executando o Debian Lenny, mas a questão não se concentra principalmente no monitoramento UNIX, pois muitas ferramentas provavelmente terão algum tipo de suporte entre plataformas.
Aron Rotteveel
Talvez eles usem ferramentas diferentes, mas do ponto de vista geral do sistema, você acaba fazendo a mesma coisa repetidamente nos diferentes sistemas. É apenas um pouco de script para extrair o último bit de dados que você deseja. Eu consideraria "Ferramentas" neste contexto, o exemplo (servidor de monitoramento) de gravação não o real plugin / script que cospe os dados
serverhorror
Eu também gosto de monitorar os aplicativos (desempenho, disponibilidade, etc.). As ferramentas de monitoramento parecem ter um espectro com a capacidade de monitorar hardware em uma extremidade e a capacidade de monitorar aplicativos na outra. Hardware <----- + -----> Aplicação
Nathan Hartley

Respostas:

136

Eu usei Nagios no passado com sucesso. É muito extensível (mais de 200 complementos), relativamente fácil de usar e com muitos relatórios. Um negativo seria a configuração inicial.

jdiaz
fonte
10
O Nagios funciona muito bem para monitorar todos os tipos de host (Windows, Linux, Roteadores, Switches etc.) Eu recomendo o uso de uma ferramenta de configuração como fruity ou Lilacto para aliviar a dor da configuração. NSClient ++ nas caixas de janelas e nagios-statd sobre o material linux para monitorar processos em execução, uso de disco, etc.
TonyB
Infelizmente, o Nagios requer um agente nas caixas do Windows - no passado, encontrei o agente propenso a morrer aleatoriamente.
PowerApp101
Analisamos o Nagios e o Zabbix para nosso monitoramento. O Zabbix venceu após uma breve avaliação, principalmente devido à facilidade de implantação e funcionalidade (por exemplo, o Zabbix inclui gráficos como uma função principal, enquanto o Nagios requer um plug-in). Eu achei a configuração do Nagios uma dor.
GroundWork OpenSource ter um aparelho de monitoramento de rede que usa Nagios em seu núcleo, e simplifica a configuração / gestão
Rog
12
Há um novo garfo nagios chamado icinga. Ainda não está em lugar algum, mas seus objetivos parecem promissores. icinga.org
cstamas
70

O Cacti é um frontend web muito bom para o RRDTool , fornecendo gráficos e estatísticas muito úteis. O RRDTool é a parte que reúne dados de vários sistemas e monitora uma ampla variedade de dados técnicos.

Estamos usando essa solução cacti / RRDTool para monitorar os sistemas Unix e Windows. Temos muitas métricas úteis, incluindo carga, uso de CPU / RAM, espaço em HD, usuários conectados, tráfego de rede, processos em execução e assim por diante.

Você encontrará mais informações sobre cactos na seção O que são cactos? página.

paulgreg
fonte
O Cacti é uma solução divertida que parece ótima e tem um ótimo preço (gratuito). No entanto, a configuração de dispositivos de rede é uma PITA e foi mal documentada. Pode ser melhor agora, mas eu não me comprometeria até que você faça sua pesquisa.
Chris Porter
57

Pessoalmente, eu amo Munin, que é muito fácil de instalar e escrever plugins, pois possui uma arquitetura muito simples. Já existem muitos plugins para todos os fins que você possa imaginar, então você provavelmente nem precisará escrever plugins em primeiro lugar.

Ele também fornece belos gráficos e a opção de configurar alertas (muito básicos).

pilif
fonte
2
Eu também sou um grande fã de Munin. Possui suporte para integração com o Nagios (para que você possa executar os dois) e suporte para todos os tipos comuns de unix. Eu não acho que exista suporte para monitorar um nó do Windows - no entanto, ele está escrito em Perl, portanto, embora não seja trivial, certamente deve ser possível .
3111 John Dalton
2
@John. O nó do Windows é suportado via munin-node-win32, que é um nó munin nativo, ou via SNMP, como qualquer host.
Steve Schnepp
34

Zabbix . É de código aberto e razoavelmente simples de configurar e personalizar. Temos muitos scripts de monitoramento personalizados que alimentam o servidor zabbix, mas ele cuida de centralizar esses dados, exibindo-os adequadamente, notificações (email, IM, SMS, twitter, etc.) e assim por diante.

Tony Meyer
fonte
2
Também estamos usando o Zabbix e achamos que ele é bastante poderoso e configurável. Testamos o Zabbix e o Nagios e, no final, optamos pelo Zabbix porque, embora o Nagios pareça ter uma boa reputação, é um pouco trabalhoso instalar e muitas funcionalidades vêm dos plug-ins, em vez de serem apresentados no aplicativo principal. bom exemplo disso, você o obtém gratuitamente com o Zabbix).
3
Eu prefiro o Zabbix porque ele tem flexibilidade em termos de gráficos e mapeamento de sua infraestrutura (em termos de disponibilidade), além de uma maneira flexível de monitorar.
5139 Andrioid
29

Venho implementando o Spiceworks em nossa empresa e estamos descobrindo que é uma ótima ferramenta, não apenas para monitorar servidores, mas tudo o mais na rede.

Faz coisas como inventário automático e monitoramento personalizado para enviar e-mails quando houver um problema (por exemplo: a impressora reduz 10% da tinta ou o disco rígido deste servidor possui 20%).

Provavelmente, sua desvantagem é a densidade de informações por computador; não se engane, ele tem MUITA quantidade de dados por máquina, mas para coisas como servidores nos quais você pode querer muitas estatísticas, pode precisar usar outra ferramenta.

EDIT: oh, eu mencionei que seu modelo de negócios se baseia em ser livre para sempre.

Shard
fonte
Spiceworks faz muitas coisas incríveis - e GRÁTIS.
3
O SpiceWorks tem uma comunidade muito grande que se sobrepõe bastante ao ServerFault. Vai ser interessante ver a interação entre as comunidades. Eu uso o SpiceWorks também. Ferramenta incrível.
27330 Scott Alan Miller
Agora estou usando isso com base em sua recomendação. Excelente ferramenta.
27411 Marko Carter
Nós o usamos em nosso trabalho. É bastante impressionante. Apenas o inventário de hardware, para não mencionar o software, vale a pena dar uma olhada por si só.
Terry
A última vez que usei o Spiceworks (versão 3), ele não tinha como adicionar ou modificar componentes de hardware, como monitores, placas de vídeo etc. Ele os detectava, mas geralmente incorretamente. Então, eu ainda estou usando GLPI + OCSNG que eu odeio .
Boden
18

O sistema de fumaça não apenas verifica a disponibilidade de vários servidores e serviços, mas também mantém o controle de sua latência, fornecendo gráficos fáceis de usar, bonitos e rápidos para exibir .

Uma ampla variedade de plug-ins de medição de latência está disponível imediatamente. Se você conhece algum Perl, é fácil criar seus próprios para quaisquer necessidades exóticas.

Grandes instalações se beneficiarão do sistema Master / Slave para medições distribuídas.

O sistema de alerta altamente configurável ajudará você a detectar problemas antes que eles comecem a afetar os usuários ou evoluam para uma grande interrupção.

O fumo é gratuito e o software OpenSource escrito em Perl por Tobi Oetiker, criador do MRTG e RRDtool

Linulin
fonte
SmokePing é bom para ver o que sua rede é como
Rory
Fumar é incrível para visualizar a latência.
James
15

O OpenNMS é usado onde trabalho para monitorar mais de mil máquinas Linux. Monitoramos o hardware de cada máquina e os aplicativos em execução nelas.

jassuncao
fonte
+1 no OpenNMS, também usamos isso no trabalho para monitorar milhares de máquinas e interfaces. Temos muitos sistemas operacionais diferentes e podemos monitorar todos eles usando o OpenNMS.
Steve K
Não a minha primeira escolha, mas muito útil
como é a adição de MIBs para o novo hardware?
slovon
O OpenNMS já possui muitas estatísticas snmp em sua configuração padrão, para que ele possa descobrir automaticamente e começar a criar gráficos imediatamente. É fácil adicionar novas estatísticas SNMP, basta dar um nome para o RRD, o OID e o tipo de dados e colocá-lo em um grupo para o tipo de dispositivo ao qual a estatística se aplica.
mtinberg
15

O Zenoss Core é de alguma utilidade. Estamos usando (por cerca de um ano) para monitoramento leve de servidores, comutadores de rede e no-breaks.

O Zenoss Core é um premiado produto de monitoramento de TI de código aberto que gerencia efetivamente a configuração, a integridade e o desempenho de redes, servidores e aplicativos por meio de um único pacote de software integrado.

gimel
fonte
Se você usa a versão gratuita do Zenoss Core, esteja pronto para fazer muitos ajustes no SNMP MIB. Também descobri que ele se recusava firmemente a coletar dados do sistema operacional em alguns dos meus servidores e é surpreendentemente difícil de configurar para tarefas simples, como verificar o conteúdo de uma página da Web.
Gareth_bowles #
Pode simpatizar com problemas do MIB, mas a verificação de páginas da web pode ser feita com os plug-ins do Nagios no Zenoss.
Gimel 5/05
12

O Nagios é ótimo, pois é gratuito e há muitos plugins para isso. No entanto, a interface do usuário e a configuração são muito difíceis.

É exatamente o oposto nos prós / contras, que também é ótimo: o Microsoft System Center Operations Manager (SCOM), que não é gratuito, tem menos plug-ins, mas a instalação e a configuração são brilhantes e fáceis.

Devo admitir que se eu estivesse em uma empresa principalmente da Microsoft, tivesse requisitos de dependência muito altos (ou seja, não posso pagar pelo monitoramento para interromper) ou tivesse que pensar em conseguir que os desenvolvedores trabalhassem com ele, o SCOM seria minha recomendação sobre o Nagios.

Robert MacLean
fonte
12

Eu usei:

  • Nagios - requer alguma configuração de linha de comando antiga, não bonita, mas robusta e funcional. Ele foi substituído por:
  • Zenoss - requer muito menos trabalho de pés para configurar, tem uma variante comercial. Uma vez em execução, o restante é controlado através de um navegador. Muito poderoso, mas requer algum trabalho MIB, se você usar a versão gratuita.
  • Intermapper - programa comercial, dispendioso se você tiver muitos nós para monitorar. Parece ser escrito em Java (para melhor ou para pior).
  • Spiceworks - não tentei a versão mais recente. As versões mais antigas precisavam de um pouco mais de humildade para responder, mas, caso contrário, funciona bem. Versão gratuita vem com anúncios irritantes.
Avery Payne
fonte
Usamos o Intermapper extensivamente.
sysadmin1138
Eu uso o InterMapper também. O cliente do console é gravado em Java. O servidor está escrito em Python. O Postgres é usado como banco de dados back-end para agregação de dados e geração de relatórios.
Lsiu
11

Usamos o AlertFox há algumas semanas e estamos muito felizes. Ele não apenas verifica nosso tempo de atividade e desempenho, mas também monitora o carrinho de compras, o login do usuário e outras partes críticas do site por meio de scripts de transação (baseados no iMacros).

Para nosso monitoramento interno (espaço em disco, etc), usamos o Nagios .

David Meiers
fonte
10

Monitor de rede PRTG - não posso dizer grandes coisas sobre isso. Impressionante front-end da Web e especialmente ótimo para monitorar roteadores (largura de banda etc.) e outros dispositivos através do SNMP e medir o tempo de atividade de SLAs, etc.

www.paessler.com

Brandon
fonte
9

Como pessoa do Windows, MOM. Esperamos atualizar para o Systems Center Operations Manager (SCOM), mas não precisaremos até começar a implantar o Windows 2008.

Richard Gadsden
fonte
Eu também uso o MOM. Eu amo e odeio ao mesmo tempo.
Spoulson 30/04/09
O SCOM é uma excelente plataforma de monitoramento para ambientes empresariais baseados em Windows. O verdadeiro gênio aqui são os Pacotes de Gerenciamento lançados pelos próprios grupos de produtos da Microsoft (isso faz parte dos Critérios de Engenharia Comuns da MS, de que todo produto possui um SCOM MP dentro de 90 dias da RTM). Obter aconselhamento e conhecimento das próprias equipes de produtos pode melhorar muito a capacidade de um departamento de operações de manter as coisas funcionando e saudáveis, sem incomodar os administradores mais seniores de todas as pequenas coisas.
Kevin Colby
8

Faço parte de um projeto de atualização de monitoramento operacional. Vários fornecedores vieram ao local para apresentar alguns grandes sistemas monetários e misturaram algumas alternativas mais baratas para comparar.

Um deles é o Hyperic , que também está disponível como uma solução de código aberto gratuita. Fiquei impressionado com seus recursos e extensibilidade fornecidos para agentes personalizados.

Spoulson
fonte
Embora não seja fácil em recursos, certamente é uma ótima ferramenta de monitoramento!
Vincent De Baere
8

Para monitorar estatísticas (uso de memória, carga, atividade mysql, atividade apache, etc.), eu uso o Munin . Fora da caixa, ele já acompanha muitas coisas e plota gráficos para diferentes intervalos de tempo (últimas 24 horas, últimos 7 dias, mês passado, ano passado). Através de plugins, ainda mais coisas podem ser monitoradas. Sua saída são páginas HTML com gráficos bonitos.

Munin tem uma arquitetura mestre / nó: os nós reúnem estatísticas em um servidor e o mestre armazena os dados e produz HTML e gráficos.

Uso o Monit para acompanhar os processos em execução e para reiniciar ou alertar-me quando surgem determinadas condições configuráveis ​​(alta carga da CPU, alto uso de memória, nenhuma resposta HTTP etc.) O Monit também pode monitorar coisas mais gerais sobre um servidor, como a CPU carga, uso de memória, status do disco rígido ou uso do disco.

O Monit precisa ser configurado para cada serviço ou hardware que você deseja monitorar e como responder quando algo der errado. As opções mais usadas são não fazer nada, enviar um email de alerta ou reiniciar o serviço.

O Monit é ótimo quando funciona, mas às vezes falha ao iniciar, interromper ou reiniciar um serviço e não há muitas informações de diagnóstico disponíveis para lhe dizer o que deu errado. Isso significa que você não sabe se o problema estava no seu serviço ou na configuração do Monit, que é executada em um ambiente mínimo semelhante ao cron.

Ambas as ferramentas estão disponíveis por padrão na maioria das distribuições Linux.

Wes Oldenbeuving
fonte
8

Estou surpreso que ninguém tenha mencionado logwatch ou logcheck para servidores linux - economiza uma tonelada de tempo lendo logs !!

Brent
fonte
Essas ferramentas realmente não fornecem métricas e legibilidade a longo prazo de suas tendências de infraestrutura. Eles são uma boa adição, mas eu não confiaria apenas neles. O Afaik "logwatch" é um tanto ruim, pois relatará apenas erros que você conta, em vez de "logcheck", onde você diz à ferramenta coisas boas conhecidas e relatará todo o resto.
serverhorror
7

Eu uso o Pingdom para monitorar meu servidor. Ele me envia uma mensagem SMS quando o servidor está inacessível.

Jon Tackabury
fonte
7

Nosso projeto usa o Ganglia para mais de 100 clusters de nós. Uma razão pela qual a usamos é porque é a ferramenta de monitoramento que acompanha o Rocks .

É importante que tenhamos uma sobrecarga muito baixa em cada nó, para que o maior número possível de recursos esteja disponível para computação. O Ganglia nos fornece uma boa visão geral do cluster e nos permite detalhar os nós individuais, se necessário. Além de saber o que está acontecendo agora, podemos dar uma boa olhada no que aconteceu durante a última hora, dia, semana, mês e ano. Os gráficos de várias estatísticas são básicos e funcionais.

Jon Ericson
fonte
6

Tudo depende do que você quer dizer com "monitor"!

  • Está (sistema ou serviço) disponível? Nós usamos Nagios .
  • O que isso está fazendo? Usamos munin para servidores linux e cactos para quase todo o resto, mesmo que seja difícil configurar algumas vezes ...
  • O que isso fez? Usamos o syslog-ng para concentrar os syslogs em um único local e, em seguida, executamos um script de verificação de log personalizado diariamente para enviar relatórios por email. Estamos procurando algo semelhante para servidores Windows.
David Mackintosh
fonte
5

Um novo participante em cena para competir com o Cacti e as soluções baseadas no RRDTool é o Graphite ( http://graphite.wikidot.com/ )

O RRDTool é substituído por uma loja de suporte chamada Whisper. Os documentos fornecem uma boa visão geral do motivo pelo qual ela difere e eu realmente gosto da CLI para gráficos ad hoc ao investigar algo.

cclark
fonte
4

Usamos (e gostamos) do WhatsUp da Ipswitch para nossa rede Windows relativamente pequena. É fácil de configurar, e relativamente fácil de gerenciar, e sabe como lidar com servidores Windows e com outras coisas comuns.

Para redes maiores, redes não orientadas para Windows ou redes com muitas coisas variadas, recomendo vivamente o OpenNMS . O software OpenNMS é gratuito e a empresa está mais do que feliz em vender serviços de suporte e implementação. Também é administrado por um amigo muito afiado meu da faculdade!

tomjedrz
fonte
4

Para quem não gosta da interface da web do Nagios, existe o NPC , um plug-in para o Cacti que disponibiliza a interface do Nagios no Cacti, mas com uma aparência melhor (ajax etc.).

Ele lê de um banco de dados fornecido pelo NDO2DB , que é uma ótima maneira de ter sua infraestrutura disponível em um banco de dados para uso em scripts e outras ferramentas.

Cawflands
fonte
4

Atualmente, usamos o PRTG da Paessler . É excelente. Nenhum agente é necessário, excelente interface da web do Ajax, registro histórico, gráficos, WMI, etc. etc. Dinheiro bem gasto.

PowerApp101
fonte
4

Hobbit - é uma versão melhor e mais rápida do Big Brother (que parece ser assustadoramente comercial nos dias de hoje).

http://hobbitmon.sourceforge.net/

dr-jan
fonte
Nós também usamos Hobbit, é incrível, ele lida com mais de 600 servidores com 10 + monitores cada, muitos deles atualização a cada minuto
MarkR
11
Hobbit agora é chamado Xymon. hswn.dk/hobbiton/2008/11/msg00123.html
Clinton Blackmore
4

Se você estiver com pressa e quiser uma ferramenta rápida para monitorar seu servidor MS, use o monitor de desempenho para janelas, configure um log de contador com modelo de monitoramento personalizado e um cronograma de custo (por exemplo: colete dados por 5 minutos a cada hora). Em seguida, baixe o LogParser da Microsoft e a ferramenta Performance Analysis of Logs (PAL) da Codeplex ( http://pal.codeplex.com/ ) para analisar seu log do contador. O PAL gerará um ótimo relatório documentado com links para possíveis documentos / ferramentas para solução de problemas.

Paulo
fonte
3

Eu uso uma combinação de Solarwinds, guias de desempenho do servidor VMware e scripts personalizados.

O Solarwinds Orion Network Performance Monitor é o que eu uso com nosso sistema Windows. administradores nos meus servidores web. Ainda obtendo algumas métricas úteis de aplicativos em execução, mas há boas informações sobre itens básicos no nível da caixa (disco, rede, CPU).

Para meus convidados do VMware, eu amo as guias de desempenho.

Para meus servidores Sun, quando preciso de algo que não esteja disponível no Solarwinds (porque nosso administrador não o adicionou ou o que), escrevo scripts personalizados (geralmente em Perl) para monitorar coisas como saúde do espelho, uso de trocas etc.

Gostaria de falar mais sobre o Solarwinds, mas há apenas 26 horas por dia (ou seja, meu chefe acredita), então acho que isso pode ser um pouco limitador ...

Milner
fonte
3

Usamos o OpsView , que roda em cima do Nagios. A webUI nos ajuda a implantar novas definições de monitor de host sem precisar permitir o acesso SSH, fornece visualizações públicas e registra valores históricos. Isso é útil para provisionar e determinar linhas de base adequadas.

jldugger
fonte
2

Lamento dizer, mas acabei usando muitos scripts personalizados. Embora longe do ideal, duvido que exista uma solução mais comum.

Matt Lacey
fonte
Sempre haverá a necessidade de scripts personalizados!
Techboy
2

Escrevemos nosso próprio software de monitoramento. Nosso código não é tão sofisticado quanto um pacote comercial, mas não precisamos de muita funcionalidade. Era mais fácil escrever nossos próprios do que investigar outros pacotes e aprender a usá-los. O código faz exatamente o que queremos e é fácil de estender.

John D. Cook
fonte
2
Eu acho que é importante pensar nas implicações de uma decisão como essa. Escrever algo do zero pode não ser muito esforço - mas a manutenção no caminho é um urso.
314 Adam
Eu poderia imaginar a manutenção sendo um problema, mas não foi para nós, apesar de rodarmos esse sistema há anos. Como a base de código é pequena e familiar, foi fácil adicionar novas funcionalidades conforme necessário. A manutenção de uma solução comercial também poderia ser um problema ao longo do tempo, enxertia em peças de novos fornecedores quando o produto original não faz tudo que você precisa, etc.
John D. Cook