Já aconteceu duas vezes em poucos dias que meu servidor está inoperante completamente, ou seja, http, ssh, ftp, dns, smtp, basicamente TODOS os serviços param de responder, como se o servidor tivesse sido desligado, exceto que ainda responde ao ping , que é o que mais me impressiona.
Eu tenho alguns scripts php que causam uma carga enorme (CPU e memória) no servidor em rajadas curtas, usadas por um pequeno grupo de usuários, mas geralmente o servidor "sobrevive" perfeitamente a essas rajadas e, quando desce, nunca coincidem com esses picos de uso (não estou dizendo que não possa ser relacionado, mas não acontece logo após esses).
Não estou pedindo para que você possa magicamente me dizer a causa final dessas falhas, minha pergunta é: existe um único processo cuja morte pode causar a queda de todos esses serviços simultaneamente? O engraçado é que todos os serviços de rede ficam inativos, exceto o ping. Se o servidor tivesse 100% da CPU consumida por algum processo, também não responderia ao ping. Se o apache travasse por causa de (por exemplo) um script php quebrado, isso afetaria apenas o http, não o ssh e o dns .... etc.
Meu sistema operacional é o Cent OS 5.6
Mais importante, após a reinicialização do servidor, quais logs do sistema devo observar? / var / log / messages não revela nada de suspeito.
fonte
malloc()
1 GB de RAM não significa que você irá usá-lo, então o gerenciador de memória controla a quantidade de memória que seu programa pensa que possui e quanta memória o Na verdade, o programa foi usado e realmente funciona bem, na maioria das vezes. Pelo menos, até que mais de um programa realmente queira usar todos os 1 GB que acha que possui.Geralmente, é um problema de E / S ou subsistema de disco. Muitas vezes, isso será associado a uma média de carga do sistema extremamente alta. Por exemplo, o sistema detalhado no gráfico abaixo ficou sem resposta (ainda era passível de ping) quando um script foi executado incorretamente, bloqueou um monte de arquivos e a carga subiu para 36 ... em um sistema de 4 CPUs.
Os serviços que estão sendo executados na RAM e não exigem acesso ao disco continuam em execução ... Portanto, a pilha de rede (ping) está ativa, mas os outros serviços são interrompidos quando o acesso ao disco é necessário ... SSH quando uma chave é referenciada ou pesquisa de senha necessária. O SMTP tende a desligar quando a média de carga atinge cerca de 30 ...
Quando o sistema estiver nesse estado, tente um controle remoto
nmap
contra o IP do servidor para ver o que está acontecendo.Seu registro provavelmente não funcionará se for um problema de disco ou armazenamento ...
Você pode descrever a configuração do hardware? Esta é uma máquina virtual? Qual é o layout de armazenamento?
Mais do que registrar, você deseja ver se consegue representar graficamente o desempenho do sistema e entender quando isso está acontecendo. Veja se isso se correlaciona com uma atividade específica.
fonte