Venho perseguindo um problema de perda de pacotes e estabilidade de rede para alguns usuários finais em uma rede interna nos últimos dias ... Esses problemas surgiram na semana passada, mas o local foi atingido por um raio há seis semanas.
Eu estava vendo 5 a 10% de perda de pacotes entre uma pilha de quatro Cisco 2960 e vários PCs e telefones do outro lado de uma corrida de 77 metros. Os PCs foram executados em linha com os telefones através de um link troncalizado ( configuração da porta de switch pastebin ). Estávamos vendo chamadas e interrupções nos aplicativos cliente-servidor e conectividade do Microsoft Exchange.
Tentei as etapas normais de solução de problemas remotamente, solicitando que um técnico local fizesse o seguinte durante as quebras na atividade do usuário e de produção:
- Troque os cabos entre a tomada e o dispositivo.
- troque os cabos de conexão entre o painel de conexão e as portas do switch.
- tente portas de switch diferentes na pilha 2960.
- Troque os dispositivos do usuário final por equipamentos conhecidos (novos telefones, PCs diferentes).
- limpe os contadores da interface da porta do switch e monitore de perto os erros incrementais. ( Saída Pastebin de
sh int
) - Debruçado sobre os logs do dispositivo e os gráficos do Observium RRD . Não há problemas de link para cima / baixo no lado do comutador.
- troque as réguas de energia no lado do usuário final.
- cabo de teste é executado no Cisco 2960 usando
test cable-diagnostics tdr int Gi4/0/9
(limpo) * - o cabo de teste é executado com um testador de cabo Tripp-Lite. (limpar \ limpo)
- execute diagnósticos nos membros da pilha do comutador. (limpar \ limpo)
No final, foram necessárias três alterações nas portas do switch para encontrar uma solução estável. A única conclusão lógica é que algumas portas do switch Cisco 2960 são ruins ou esquisitas ... Não estão mortas, mas também não são consistentes no comportamento. Não estou acostumado a ver portas individuais morrerem dessa maneira.
O que mais posso testar ou verificar para determinar se esses dispositivos estão com defeito?
Qual é a abordagem das melhores práticas para verificar isso?
É comum que portas únicas tenham problemas, em vez de um banco de portas contíguo?
BTW - show cable-diagnostics tdr int Gi4/0/14
é muito legal ...
Interface Speed Local pair Pair length Remote pair Pair status
--------- ----- ---------- ------------------ ----------- --------------------
Gi4/0/14 1000M Pair A 79 +/- 0 meters Pair B Normal
Pair B 75 +/- 0 meters Pair A Normal
Pair C 77 +/- 0 meters Pair D Normal
Pair D 79 +/- 0 meters Pair C Normal
fonte
Total output drops: 1461
Respostas:
Embora os bancos de portos geralmente compartilhem um ASIC, cada um deve ter seu próprio PHY separado. Se o PHY foi danificado, ele pode ter um problema, enquanto os vizinhos não.
Dito isto, as quedas de produção são um sintoma estranho para um problema físico - não impossível, mas não típico. Não obstante os links half-duplex, as quedas de saída geralmente têm mais a ver com a exaustão do buffer do que com problemas físicos.
Você pode obter mais informações configurando uma captura de pacotes no outro lado do fio. Espera-se que um PHY ruim se manifeste com algum número de erros da camada física (CRC ruim, runt / gigante etc.) em um ou nos dois lados do link.
Em suma, parece que você eliminou o suficiente para que possa ter passado o ponto de retornos decrescentes. Eu recomendaria uma RMA se você tiver um contrato.
fonte
Sim, uma única porta pode estar ruim, mas, pelo que me lembro, é necessário substituir o módulo inteiro. (Advertência: já faz muito tempo desde que eu fiz um trabalho significativo da Cisco ...)
Não tenho certeza se isso pode ajudar, mas confira o FITB , de Laurie Denness, uma das engenheiras de operações da Etsy.
fonte