Localizando causa da retransmissão TCP em uma LAN

25

Olá habitantes de falha no servidor

Eu tenho um problema irritante com uma LAN de cerca de 100 computadores, 2 servidores de domínio do Windows e 12 telefones VoIP. Desde sua instalação, há cerca de um ano, semanalmente, notamos um telefone VoIP se redefinindo - ocasionalmente no meio de uma chamada. Simultaneamente, muitas vezes há sinais de perda temporária de conexão nos computadores: congela no explorer ao acessar compartilhamentos de rede, erros em nosso software de administração devido à perda de conexão com o servidor de banco de dados.

Tenho monitorado o Wireshark na conexão entre o PBX VoIP e o restante da rede. O Wireshark pega um monte de pacotes TCP retransmitidos nos momentos em que registramos as reinicializações do telefone. O log do Wireshark mostra cerca de 2 grupos de retransmissões por dia, variando de 5 pacotes a centenas. Os de cada cluster estão principalmente entre o PBX e algum conjunto de telefones VoIP, mas nem sempre o mesmo conjunto. Freqüentemente, as retransmissões são ao mesmo tempo para os telefones conectados ao mesmo comutador, mas às vezes as retransmissões ocorrem juntas nos telefones nas extremidades opostas da rede. Geralmente, existem retransmissões coincidentes na passagem do tráfego TCP, por exemplo, entre máquinas clientes e servidores de arquivos.

Os picos de retransmissões e redefinições de telefone não se correlacionam bem quando a rede está muito carregada. Eles parecem ocorrer um pouco mais durante o dia, mas principalmente à noite, quando o tráfego deve estar diminuindo. Ocorrem razoavelmente frequentemente tarde da noite, quando a maioria dos computadores está desligada e o tráfego deve ser menor.

Você tem alguma idéia que possa ajudar a diagnosticar a causa de problemas como esse? Uma coisa que ainda não tentei, mas deveria ter, é atualizar o firmware de todos os comutadores.

Surreal
fonte
11
Que modelo muda? Como são as estatísticas do processador, memórias, etc? Você está em um domínio de transmissão? quão perto do rendimento máximo você está vendo na rede?
Zypher 20/05/10
Qual protocolo VoIP você está usando? Além disso, usando UDP ou TCP?
Chris S
Todos os switches são 3Com: Linha de base 2924 - PWR Plus (3CBLSG24PWR) x 2, 4200 (3C17304A) x 3, 4200 (3C17304) x 2, 2824-SPF Plus (3C16487), 2250 plus (3C16476CS). Eu não acho que eles fornecem estatísticas sobre processador ou memória, mas eu ficaria muito satisfeito em aprender o contrário. Sim, estamos em um domínio de transmissão. Eu não sei sobre taxa de transferência, tentarei medi-la.
Surreal

Respostas:

17

As retransmissões de TCP geralmente ocorrem devido ao congestionamento da rede. Procure um grande número de pacotes de transmissão no momento em que o problema ocorre. Se a porcentagem de tráfego de broadcast em sua captura for superior a cerca de 3% do tráfego total capturado, você definitivamente terá congestionamento. Procure difusões de camada física (ARP) e de rede (resolução de nomes) na rede. Se você encontrar um alto volume de tráfego de broadcast, poderá rastrear a fonte a partir dos dados de captura.

joeqwerty
fonte
9
Além disso, as retransmissões TCP não são a causa do seu problema, são um sintoma do problema.
Joeqwerty
Eu deveria ter mencionado que dei uma olhada nas transmissões da UDP e elas não se correlacionaram com as retransmissões. Alguns dos eventos de retransmissão coincidem com picos nas transmissões UDP, mas a maioria não. Analisei novamente e descobri que as transmissões UDP não excedem 1,5% do tráfego (cerca de 350 pacotes) em qualquer segmento de 10 minutos, e atingir esse nível é raro. No entanto, eu não tinha visto transmissões via Ethernet. Agora estou executando um script para filtrar todos os meus logs do wireshark. A regra de ouro de 3% para transmissões UDP e Ethernet é individual ou combinada?
Surreal
11
Os 3% não são realmente uma regra de ouro. É o que me disseram e o que vi em meu próprio ambiente. Ouvi números que variam de 10 a 20%, mas descobri que uma vez que excede 3 a 5%, geralmente está causando problemas. Você precisa observar todo o tráfego de difusão: ethernet, rede e difusões de difusão seletiva, pois elas podem causar congestionamento. Basicamente, qualquer tráfego transmitido para todas as portas do switch é tráfego que precisa ser analisado e reduzido ou eliminado.
Joeqwerty 21/05
Ainda não tenho um gráfico bonito para verificar se há uma boa correlação por um longo período, mas as transmissões via Ethernet parecem bastante promissoras. Um registro em que houve retransmissão teve pouco mais de 3% de difusão, outro cerca de 6%. Eu encontrei um problema pelo menos: um servidor antigo está lançando um fluxo constante de pacotes ARP gratuitos.
Surreal
11
Eu encontrei as entradas excessivas ARP usando o filtro Wireshark de arp- e ver apenas os de transmissão, usando um filtro deeth.addr==ff:ff:ff:ff:ff:ff
mlhDev
2

A coleta de estatísticas de tráfego para seus comutadores pode mostrar que você tem períodos em que está executando na capacidade ou quase nela. Isso pode levar a novas tentativas quando as respostas não retornam dentro do tempo limite inicial (geralmente 3 segundos). Isso aumenta momentaneamente o congestionamento até que os mecanismos de mitigação do congestionamento entrem em ação.

Procure pessoas usando mídia de streaming, pois isso pode absorver a largura de banda rapidamente.

Talvez você consiga atenuar o problema dos telefones modelando o tráfego. Isso apenas moverá o problema para outros usuários.

BillThor
fonte
2

Soa como um loop de árvore estendida ou uma tempestade de transmissão para mim, especialmente se as retransmissões e os problemas estiverem localizados no mesmo switch (o que difere). Quando isso acontece, quais são os estados da porta no seu dispositivo L2? Provavelmente, um switch com defeito ou prioridades de bridge raiz ruins? Problema interessante.

McJeff
fonte
Obrigado por me motivar a ler sobre as árvores que medem, sobre as quais sou constrangedoramente ignorante. No entanto, não creio que possa ser um loop de spanning tree, porque não temos links redundantes em nossa rede (possivelmente um problema em si). Por "estados da porta no seu dispositivo L2", estou certo de que portas estão ativadas pelos switches como resultado do algoritmo de spanning tree? Não configuramos manualmente uma ponte raiz, seria uma boa ideia fazê-lo?
Surreal
Familiarizar-se com o STP é uma boa idéia, mas se você tiver certeza de que não possui links redundantes, o STP não será o problema.
Joeqwerty 21/05
Sim, se você não tiver links redundantes, não seria um problema. Por estados de porta, sim, quero dizer quais são encaminhados / bloqueados / aprendendo.
McJeff
2

Você provavelmente resolveu isso, pois faz muito tempo, mas essencialmente precisa habilitar a "porta rápida" nas portas que possuem terminais (telefones voip, estações de trabalho, servidores). Um telefone pode enviar PDUs, portanto, se esse cara for reinicializado, ocorrerá uma convergência STP, fazendo com que a tabela FDB seja liberada e todos os dispositivos passem pelo divertido STP de 4/5 etapas. Ao colocar portas com ponto final em "porta rápida", elas pulam a espera e passam para o modo de encaminhamento.

barak s.
fonte
1

Espero que seus telefones estejam em uma sub-rede e VLAN diferentes dos outros computadores?

Greg Askew
fonte
Não, eles estão na mesma sub-rede IP e tenho certeza da mesma VLAN também. Isto é um problema sério? Certamente parece que seria uma boa ideia. Eu posso ver que separaria os domínios de transmissão para telefones e tudo mais. Teria outras vantagens?
Surreal
Sim, eu definitivamente colocaria os telefones em uma VLAN dedicada.
Greg Askew
1

Também poderia ser um equipamento defeituoso, como um interruptor defeituoso. As retransmissões estão correlacionadas com telefones / computadores em um switch ou parte da rede específica?

Só para estender um pouco a minha resposta. Nem todos os comutadores são criados iguais, mesmo que tenham as mesmas especificações. Alguns são capazes de lidar com cargas muito mais altas do que outros, porque possuem processadores mais rápidos. Pode ser que seus comutadores não estejam totalmente atualizados.

Eu começaria colocando alguns de seus telefones VOIP mais problemáticos em seu próprio comutador físico e veria se as redefinições nesses continuam. Se desaparecer, você estará pronto para resolvê-lo muito em breve.

Matt
fonte
Eu gostaria que eles fizessem. Parece haver mais problemas com os dispositivos conectados a dois comutadores, que estão nas extremidades opostas da rede. No entanto, também existem retransmissões significativas para telefones em outras partes da rede.
Surreal