O que causa queda total da saída em uma interface de switch Cisco?

16

Eu tenho um chassi blade HP c7000 que contém os switches Cisco 3120X e Cisco 3120G executando o ios 12.2 (58) SE1. As próprias lâminas são carregadas com pouca carga, mas muitas interfaces em diferentes switches da lâmina no chassi mostram um número bastante alto de quedas de saída. Se eu verificar o número de quedas de saída repetidamente, não só vejo o contador aumentando, mas às vezes diminui. Os números não se correlacionam com os pacotes / s registrados na interface. As configurações de QoS são padrão para a plataforma.

As seguintes amostras foram todas coletadas dentro de um período de 30 segundos:

bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 451110
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 451110
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 902220
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 1353330
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 1804440
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 1804440
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 1804440
bc1019-3120-stack> sh int gi2 / 0/7 | eu saio cai
  Fila de entrada: 0/75/0/0 (tamanho / máx / quedas / descargas); Quedas na produção total: 451490

bc1019-3120-stack> sh int gi2 / 0/7 | i taxa de saída
  Taxa de saída de 5 minutos 301000 bits / s, 119 pacotes / s

1) Há algo mais que possa causar quedas na saída, além do servidor não receber os quadros com rapidez suficiente?

2) Qual é o número máximo de quedas de saída que o contador da interface pode gravar? Ele rola quando atinge o máximo?

3) O que seria considerado uma taxa saudável de queda na produção?

Usuário123456
fonte
Como Leonardo Abdalla assinalou, a saída irregular gotas visto em nosso chassis blade são o resultado de bug CSCtq86186
User123456
É um bug. Chegamos à mesma coisa, atualizamos para c3750e-universalk9-mz.150-2.SE4.bin e está tudo bem. JB

Respostas:

14

A menos que alguém esteja limpando contadores, você nunca deve ver nenhum contador do tipo odômetro (aqueles que aumentam com base em uma ação do pacote) diminuem, eles sempre devem aumentar. Essa parte parece um bug.

No que diz respeito ao que causa queda na produção, há tantas causas diferentes que é muito difícil identificá-la exatamente. Às vezes, há congestionamento no backplane do switch e esses podem aparecer quando a saída cai na interface de saída. Em raras circunstâncias, você também pode obter micro-explosões que não aparecem quando pesquisadas em intervalos de 1 minuto que sobrecarregam rapidamente a interface, mas depois retornam muito rapidamente. Eu sugiro pegar o SNMP OID para queda de saída e, em seguida, representar graficamente isso e ver como ele corresponde ao contador da CLI.

De um modo geral, você não deseja nenhuma queda na saída, pois indica um pacote que não chegou ao seu destino. Mas, se você estiver usando seus links em alta (o que você diz não), eles são inevitáveis ​​até certo ponto, principalmente devido ao buffer interno do comutador etc.

Aaron
fonte
Gostaria de saber se há tantas desistências nesse caso, os contadores se espalham.
Nos
11
Eles são contadores de 32 bits, então você não chega nem perto dos limites. (e possivelmente 64bit internamente)
Ricky feixe
8

Meu primeiro pensamento é a inundação unicast, especialmente se os contadores aumentarem em uníssono em várias portas na mesma vlan. Concordo com Aaron que o decréscimo do contador soa como um bug. O contador provavelmente rolará para 2 ^ 64, mas isso não acontecerá em segundos. Eu consideraria uma taxa saudável de queda de produção como zero, mas isso não é realista - mesmo no datacenter. Você está fazendo uplinks 10G?

Dennis Olvany
fonte
Sim, uma ligação ascendente 10Gig de cada um dos dois 3120X de lâmina no chassi (uma porta bloqueada devido à STP)
User123456
Assim como um link ascendente de 1G sobrecarrega facilmente um downlink de 100M, tenho certeza que o mesmo vale para 10G / 1G. Isto é especialmente verdade quando ocorre inundação unicast. Duvido que a inundação unicast seja evidente nas estatísticas de largura de banda / pps.
Dennis Olvany
5

Parece que você está atingindo o bug CSCtq86186. Esse bug foi encontrado nas 3750 e 2960, mas também pode estar afetando os comutadores blade.

Leonardo Abdalla
fonte
Este é exatamente o bug que estamos enfrentando em nossos 3120 - corrigido no 15.0 (2) SE. Obrigado!
User123456
4

Se você estiver enfrentando uma inundação unicast, executar o wireshark em um dos hosts ou estender uma das portas deve mostrar isso rapidamente.

Parece que você tem núcleos redundantes em uma topologia quadrada? Nesse caso, tente adicionar este comando à sua interface vlan:

arp timeout 300

As tabelas CAM mantêm as entradas por 5 minutos, enquanto as tabelas ARP são mantidas por quatro horas (padrões). Definir o ARP para corresponder ao CAM pode eliminar a inundação unicast às custas de um ligeiro aumento na CPU. Solução de problemas de tabela ARP ou CAM dos switches Catalyst 6500/6000

Pedro
fonte
1

Quedas de saída são bastante comuns em switches menores com buffers pequenos, pois qualquer burst esgotará o buffer. Eu não estou realmente familiarizado com o 3120, então não posso falar pelo tamanho de seu buffer, mas pelo menos esse é um motivo comum até que alguém possa obter quedas de saída.

Os motivos específicos são o bloqueio de chefe de linha (HOLB), em que várias portas de origem estão enviando para um destino e, portanto, temos congestionamento. Outro motivo comum é quando passa de uma velocidade de porta mais alta para uma mais baixa, ou seja, 10G para 1G ou 40G para 10G.

Eu recomendo que você execute show controllers ethernet-controller X em que X é a sua porta. Você deve obter algumas informações sobre quedas de saída, como se algo estivesse tentando gerar saída para quadros grandes, o que poderia acontecer se você não tivesse MTU consistente em sua rede.

kll
fonte