Eu tenho a configuração de monitoramento em vários dispositivos em nosso escritório. O tempo de resposta do ping para pequenos comutadores de acesso é geralmente de 1 a 4ms ... A partir das 3h desta manhã, isso disparou para 300ms em média.
Onde alguém começa a procurar em uma situação como essa? Que coisas posso observar no switch para encontrar a fonte da latência?
NOTA: Não está relacionado à carga. Todo o uso da largura de banda dos links é normal e não é afetado, a maioria dos links é muito pouco utilizada. Além disso - o monitoramento é local para os dispositivos que relatam a latência, portanto não há fator de WAN aqui.
show proc cpu history
no switch com os altos tempos de ping. Se isso CPU é consistentemente alta, ou spiking alta em uma base regular, executarshow proc cpu sort
Respostas:
Primeiro, a latência não está diretamente ligada à largura de banda. Há muitas razões pelas quais um dispositivo atrasaria um pacote diferente de um link congestionado.
Você já tentou um traceroute? Isso mostrará a latência entre os saltos, se você estiver procurando por um limite L3 como suspeito.
Você também pode verificar se algum dos dispositivos no caminho possui um uso significativo de CPU / RAM.
fonte
se isso é apenas baseado na LAN, há algumas coisas que você pode fazer para começar a tentar descobrir o que está causando isso:
Comando show process cpu history : se o uso da CPU for muito alto, você precisará ver qual processo está causando isso e talvez acessar o google com o processo incorreto.
comando show debug : uma causa comum que encontrei são as pessoas que deixam os comandos debug em execução no switch. Um favorito comum era a contabilidade de IP deixada em dispositivos que já estavam superutilizados. Use "undebug all" para se livrar dos debugs.
Faça uma reinicialização : provavelmente não possivelmente durante o dia, mas use o comando "recarregar" para cronometrar à noite ou no fim de semana. Você ficaria surpreso com quantos problemas uma reinicialização rápida pode corrigir.
portas de tronco fechadas - Se for um switch L3, outro problema comum que eu já vi é muito tráfego usando esse dispositivo para roteamento entre VLANs. Se possível, feche temporariamente algumas das portas do tronco para ver se isso reduz a latência.
É bom estar ciente de que seus pings são de baixa prioridade em relação à latência e também ao serem processados pela CPU. Também pode ser uma boa idéia verificar novamente suas configurações de QoS e garantir que não haja erros bobos causando isso, por mais improvável que seja.
fonte
Eu uso cactos para monitorar a largura de banda e openNMS para monitorar a latência. Se você estiver monitorando todos os dispositivos vinculados a essa opção, poderá ver um corolário entre o uso e a latência. (Eu sei que você disse que não é um problema de largura de banda, mas você nunca agora). Vi interruptores de extremidade inferior caírem sob uso pesado, o que causa muita latência. Você tem dispositivos "burros" alimentando esse comutador que podem ser a fonte da queda, mesmo que esse comutador não esteja passando muito tráfego. Também com cactos, você poderá pesquisar o uso da CPU e poderá ver um pico no momento da latência.
Como mencionado acima, o MTR ou o neotrace também são úteis para ficar de olho na situação e você pode ver onde a latência começa, o que pode não ser essa opção em si.
fonte
Se isso não estiver acontecendo na LAN, você poderá limitar a taxa de transmissão da "porta de entrada", isso forçará um TDM melhor. Experimente algo em torno de 80% do seu rendimento máximo e veja se isso ajuda. Pode ser necessário tweek, dependendo da quantidade de terminais.
fonte