No momento, estou usando esses valores:
# y = c * p / 100
# y: nagios value
# c: number of cores
# p: wanted load procent
# 4 cores
# time 5 minutes 10 minutes 15 minutes
# warning: 90% 70% 50%
# critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
Mas esses valores são escolhidos quase aleatoriamente.
Alguém tem alguns valores testados?
monitoring
nagios
Sandra
fonte
fonte
standard
outested
valor. Depende da carga de trabalho esperada do servidor. Se você espera uma carga alta, deve aumentar os valores. Caso contrário, seu servidor sempre aparecerá em estado crítico.Respostas:
A carga do Linux é realmente simples. Cada um dos números médios de carga é a soma de toda a carga média do núcleo. Ou seja.
onde
0 < avg load < infinity
.Portanto, se uma carga é 1 em um servidor de 4 núcleos, significa que cada núcleo é usado 25% ou um núcleo está 100% sob carga. Uma carga de 4 significa que todos os 4 núcleos têm carga abaixo de 100%. Uma carga de> 4 significa que o servidor precisa de mais núcleos.
check_load
agora temo que significa que, quando usado, você pode pensar em seu servidor como tendo apenas um núcleo e, portanto, escrever as frações percentuais diretamente, sem pensar no número de núcleos. Com
-r
o aviso e intervalos críticos se torna0 <= load avg <= 1
. Ou seja. você não precisa modificar seu aviso e valores críticos de servidor para servidor.OP tem 5,10,15 para intervalos. Isso esta errado. É 1,5,15.
fonte
Embora seja um post antigo, respondendo agora porque sabia que os valores limite de check_load são uma grande dor de cabeça para os novatos ..;)
Um alerta de aviso, se a CPU for 70% por 5 minutos, 60% por 10 minutos e 50% por 15 minutos. Um alerta crítico, se a CPU for 90% por 5 minutos, 80% por 10 minutos, 70% por 15 minutos.
Todas as minhas descobertas sobre a carga da CPU:
O que se entende por "carga": a Wikipedia diz:
Todos os sistemas Unix e Unix-like geram uma métrica de três números de "carga média" no kernel. Os usuários podem consultar facilmente o resultado atual de um shell Unix executando o comando uptime:
A partir da média de carga de saída acima:
0.06, 0.11, 0.09
significa (em um sistema de CPU única):.
A média de carga acima
1.73 0.50 7.98
em um sistema de CPU única como:Cálculo do valor limite do Nagios:
Para a instalação do Nagios CPU Load, que inclui avisos e críticas:
y = c * p / 100
Onde:
y = nagios value
c = number of cores
p = wanted load procent
para um sistema de 4 núcleos:
Para um sistema de núcleo único:
y = p / 100
Onde:
y = nagios value
p = wanted load procent
Um excelente artigo sobre a análise de carga de CPU do Dr. Gunther http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf Neste artigo on-line, o Dr. Gunther analisa o kernel do UNIX para descobrir como as médias de carga (o “Trigêmeos LA”) são calculados e quão apropriados são como métricas de planejamento de capacidade.
fonte
A menos que os servidores em questão tenham uma carga de trabalho assíncrona em que a profundidade da fila seja a métrica de serviço importante a ser gerenciada, honestamente nem vale a pena monitorar a média da carga de monitoramento. É apenas uma distração das métricas que importam, como tempo de serviço (tempo de serviço e tempo de serviço).
fonte
Um bom complemento também O Nagios é uma ferramenta como o Munin ou o Cacti, que representa graficamente os diferentes tipos de carga de trabalho que seu servidor está enfrentando. Seja load_average, uso da CPU, disco io ou qualquer outra coisa.
Usando essas informações, é mais fácil definir bons valores de limite no Nagios.
fonte
Você sabe em que carga média o desempenho do seu sistema é afetado? Tínhamos servidores no meu último trabalho que ficavam consistentemente na média de carga de 35 a 40, mas ainda assim respondiam. É uma medida que você precisa fazer um pouco de trabalho de detetive para obter números precisos.
Você pode avaliar algumas outras métricas no sistema, como o tempo médio de conexão para SSH ou http; esse pode ser um indicador melhor da carga do seu sistema.
fonte
Para estender a resposta do Invent Sekar: Ao usar check_load e porcentagens, acredito que você precisará do argumento da linha de comando "-r" junto com os outros.
Por exemplo:
fonte