Minha porta do switch Cisco está ruim?

Venho perseguindo um problema de perda de pacotes e estabilidade de rede para alguns usuários finais em uma rede interna nos últimos dias ... Esses problemas surgiram na semana passada, mas o local foi atingido por um raio há seis semanas.

Eu estava vendo 5 a 10% de perda de pacotes entre uma pilha de quatro Cisco 2960 e vários PCs e telefones do outro lado de uma corrida de 77 metros. Os PCs foram executados em linha com os telefones através de um link troncalizado ( configuração da porta de switch pastebin ). Estávamos vendo chamadas e interrupções nos aplicativos cliente-servidor e conectividade do Microsoft Exchange.

Tentei as etapas normais de solução de problemas remotamente, solicitando que um técnico local fizesse o seguinte durante as quebras na atividade do usuário e de produção:

Troque os cabos entre a tomada e o dispositivo.
troque os cabos de conexão entre o painel de conexão e as portas do switch.
tente portas de switch diferentes na pilha 2960.
Troque os dispositivos do usuário final por equipamentos conhecidos (novos telefones, PCs diferentes).
limpe os contadores da interface da porta do switch e monitore de perto os erros incrementais. ( Saída Pastebin desh int )
Debruçado sobre os logs do dispositivo e os gráficos do Observium RRD . Não há problemas de link para cima / baixo no lado do comutador.
troque as réguas de energia no lado do usuário final.
cabo de teste é executado no Cisco 2960 usando test cable-diagnostics tdr int Gi4/0/9(limpo) *
o cabo de teste é executado com um testador de cabo Tripp-Lite. (limpar \ limpo)
execute diagnósticos nos membros da pilha do comutador. (limpar \ limpo)

No final, foram necessárias três alterações nas portas do switch para encontrar uma solução estável. A única conclusão lógica é que algumas portas do switch Cisco 2960 são ruins ou esquisitas ... Não estão mortas, mas também não são consistentes no comportamento. Não estou acostumado a ver portas individuais morrerem dessa maneira.

O que mais posso testar ou verificar para determinar se esses dispositivos estão com defeito?

Qual é a abordagem das melhores práticas para verificar isso?

É comum que portas únicas tenham problemas, em vez de um banco de portas contíguo?

BTW - show cable-diagnostics tdr int Gi4/0/14é muito legal ...

Interface Speed Local pair Pair length        Remote pair Pair status
--------- ----- ---------- ------------------ ----------- --------------------
Gi4/0/14  1000M Pair A     79   +/- 0  meters Pair B      Normal              
                Pair B     75   +/- 0  meters Pair A      Normal              
                Pair C     77   +/- 0  meters Pair D      Normal              
                Pair D     79   +/- 0  meters Pair C      Normal

networking cisco hardware switch cisco-catalyst ewwhite
fonte

Você poderia adicionar "show interface gi4 / 0/9" ... também a sua saída tdr é de gi4 / 0/14 ... quantas portas estão com problema?

Mike Pennington

@ MikePennington 4 de 48 interfaces estavam apresentando problemas. Os contadores foram limpos. Mas o único contador que foi incrementando foi:Total output drops: 1461

ewwhite

1461 cai de um total de quantos pacotes de saída? Todas as quatro portas com problemas estão mostrando quedas de saída?

9118 Mike Pennington

A interface @MikePennington pastebin output para duas das portas problemáticas.

ewwhite

Não é uma resposta técnica, mas .. você tem um contrato TAC ativo? Se sim, envolva-o: P

ItsGC

Respostas:

Embora os bancos de portos geralmente compartilhem um ASIC, cada um deve ter seu próprio PHY separado. Se o PHY foi danificado, ele pode ter um problema, enquanto os vizinhos não.

Dito isto, as quedas de produção são um sintoma estranho para um problema físico - não impossível, mas não típico. Não obstante os links half-duplex, as quedas de saída geralmente têm mais a ver com a exaustão do buffer do que com problemas físicos.

Você pode obter mais informações configurando uma captura de pacotes no outro lado do fio. Espera-se que um PHY ruim se manifeste com algum número de erros da camada física (CRC ruim, runt / gigante etc.) em um ou nos dois lados do link.

Em suma, parece que você eliminou o suficiente para que possa ter passado o ponto de retornos decrescentes. Eu recomendaria uma RMA se você tiver um contrato.

rnxrx
fonte

Como isso está ocorrendo em várias portas em vários (2) switches, mas apenas para um pequeno subconjunto de usuários, é esse o caso em que eu precisaria substituir todos os quatro switches? Eu só tenho um lobbying momento difícil para a substituição sem conhecer a questão central, uma vez que a substituição vai exigir tempo de inatividade considerável, recabeamento, etc ..

ewwhite

O raio é um animal muito estranho e seus danos podem se manifestar muito mais tarde e de maneiras imprevisíveis. O tempo de inatividade é chato, é claro, mas pode ser melhorado um pouco, pressionando a chave de substituição, movendo os patches e retirando os antigos. Gostaria que houvesse uma resposta mais fácil, mas se você isolou o problema em algumas portas, não há muito o que fazer.

Rnxrx 10/09/12

O PHY quase sempre está integrado ao ASIC atualmente. É mais barato. Os magnéticos são a única parte que eles realmente não conseguem integrar no ASIC, que pode ser danificada, mas esse não é o PHY. Além disso, é bastante comum o uso de magnetismo Quad, por isso, se o problema estiver em 4 portas, é recomendável essa teoria.

Chris S

Na verdade, não - se você passar pela arquitetura da maioria dos comutadores Cisco (incluindo o em questão), os mesmos ASICs são frequentemente usados para uma ou duas GEs de fibra ou cobre ou algum agrupamento de 100TX. Muito mais da funcionalidade é movida para o ASIC nas arquiteturas de comutação de chip, mas nesses casos ainda há uma camada física sendo manipulada por uma óptica conectável ou algum tipo de mídia de cobre. Dado que o mesmo complexo ASIC pode frequentemente lidar com vários requisitos diferentes de velocidade e potência, não faz muito sentido integrar essa função no mesmo giro?

Rnxrx 13/09/12

Finalmente, substituiu todos os comutadores depois que muitas portas foram degradadas a ponto de serem inutilizáveis. Finalmente, um bom uso para o SmartNet!

ewwhite

Sim, uma única porta pode estar ruim, mas, pelo que me lembro, é necessário substituir o módulo inteiro. (Advertência: já faz muito tempo desde que eu fiz um trabalho significativo da Cisco ...)

Não tenho certeza se isso pode ajudar, mas confira o FITB , de Laurie Denness, uma das engenheiras de operações da Etsy.

gWaldo
fonte