Olá habitantes de falha no servidor
Eu tenho um problema irritante com uma LAN de cerca de 100 computadores, 2 servidores de domínio do Windows e 12 telefones VoIP. Desde sua instalação, há cerca de um ano, semanalmente, notamos um telefone VoIP se redefinindo - ocasionalmente no meio de uma chamada. Simultaneamente, muitas vezes há sinais de perda temporária de conexão nos computadores: congela no explorer ao acessar compartilhamentos de rede, erros em nosso software de administração devido à perda de conexão com o servidor de banco de dados.
Tenho monitorado o Wireshark na conexão entre o PBX VoIP e o restante da rede. O Wireshark pega um monte de pacotes TCP retransmitidos nos momentos em que registramos as reinicializações do telefone. O log do Wireshark mostra cerca de 2 grupos de retransmissões por dia, variando de 5 pacotes a centenas. Os de cada cluster estão principalmente entre o PBX e algum conjunto de telefones VoIP, mas nem sempre o mesmo conjunto. Freqüentemente, as retransmissões são ao mesmo tempo para os telefones conectados ao mesmo comutador, mas às vezes as retransmissões ocorrem juntas nos telefones nas extremidades opostas da rede. Geralmente, existem retransmissões coincidentes na passagem do tráfego TCP, por exemplo, entre máquinas clientes e servidores de arquivos.
Os picos de retransmissões e redefinições de telefone não se correlacionam bem quando a rede está muito carregada. Eles parecem ocorrer um pouco mais durante o dia, mas principalmente à noite, quando o tráfego deve estar diminuindo. Ocorrem razoavelmente frequentemente tarde da noite, quando a maioria dos computadores está desligada e o tráfego deve ser menor.
Você tem alguma idéia que possa ajudar a diagnosticar a causa de problemas como esse? Uma coisa que ainda não tentei, mas deveria ter, é atualizar o firmware de todos os comutadores.
fonte
Respostas:
As retransmissões de TCP geralmente ocorrem devido ao congestionamento da rede. Procure um grande número de pacotes de transmissão no momento em que o problema ocorre. Se a porcentagem de tráfego de broadcast em sua captura for superior a cerca de 3% do tráfego total capturado, você definitivamente terá congestionamento. Procure difusões de camada física (ARP) e de rede (resolução de nomes) na rede. Se você encontrar um alto volume de tráfego de broadcast, poderá rastrear a fonte a partir dos dados de captura.
fonte
arp
- e ver apenas os de transmissão, usando um filtro deeth.addr==ff:ff:ff:ff:ff:ff
A coleta de estatísticas de tráfego para seus comutadores pode mostrar que você tem períodos em que está executando na capacidade ou quase nela. Isso pode levar a novas tentativas quando as respostas não retornam dentro do tempo limite inicial (geralmente 3 segundos). Isso aumenta momentaneamente o congestionamento até que os mecanismos de mitigação do congestionamento entrem em ação.
Procure pessoas usando mídia de streaming, pois isso pode absorver a largura de banda rapidamente.
Talvez você consiga atenuar o problema dos telefones modelando o tráfego. Isso apenas moverá o problema para outros usuários.
fonte
Soa como um loop de árvore estendida ou uma tempestade de transmissão para mim, especialmente se as retransmissões e os problemas estiverem localizados no mesmo switch (o que difere). Quando isso acontece, quais são os estados da porta no seu dispositivo L2? Provavelmente, um switch com defeito ou prioridades de bridge raiz ruins? Problema interessante.
fonte
Você provavelmente resolveu isso, pois faz muito tempo, mas essencialmente precisa habilitar a "porta rápida" nas portas que possuem terminais (telefones voip, estações de trabalho, servidores). Um telefone pode enviar PDUs, portanto, se esse cara for reinicializado, ocorrerá uma convergência STP, fazendo com que a tabela FDB seja liberada e todos os dispositivos passem pelo divertido STP de 4/5 etapas. Ao colocar portas com ponto final em "porta rápida", elas pulam a espera e passam para o modo de encaminhamento.
fonte
Espero que seus telefones estejam em uma sub-rede e VLAN diferentes dos outros computadores?
fonte
Também poderia ser um equipamento defeituoso, como um interruptor defeituoso. As retransmissões estão correlacionadas com telefones / computadores em um switch ou parte da rede específica?
Só para estender um pouco a minha resposta. Nem todos os comutadores são criados iguais, mesmo que tenham as mesmas especificações. Alguns são capazes de lidar com cargas muito mais altas do que outros, porque possuem processadores mais rápidos. Pode ser que seus comutadores não estejam totalmente atualizados.
Eu começaria colocando alguns de seus telefones VOIP mais problemáticos em seu próprio comutador físico e veria se as redefinições nesses continuam. Se desaparecer, você estará pronto para resolvê-lo muito em breve.
fonte