ASR920 e queda de produção - surpreendentemente, IPTV parece funcionar bem

7

Talvez minha pergunta seja um pouco incomum, porque não perguntarei por que algo não funciona. Em vez disso, perguntarei por que as coisas parecem funcionar bem.

Eu tenho o ASR-920-24SZ-IM conectado ao ASR9ks upstream com links 2x10G. O dispositivo a jusante é o Cisco 4948E atuando como um dispositivo de acesso (conectado através de outro link 10G). Os serviços entregues ao 4948E são acesso à Internet, um monte de E-LINEs e IPTV.

Uplinks são moderadamente utilizados - ~ 20% e 10%. No entanto, observo quedas de saída na interface em direção ao 4948E.

 Last clearing of "show interface" counters 01:52:25
 Input queue: 0/375/0/0 (size/max/drops/flushes); Total output drops: 122398
 Queueing strategy: fifo

Como não há configuração de QoS na interface ASR920 para 4948E, deve haver 120kB de buffer disponível nessa porta. Se minha matemática estiver correta, isso significa que o ASR920 é capaz de armazenar em buffer ~ 0,1 ms no tráfego durante o burst de taxa de linha proveniente de links 10G upstream.

O interessante é que os clientes de IPTV e o sistema de monitoramento não relatam problemas com o tráfego multicast, que é sensível a quedas de pacotes. Cada canal IPTV é um fluxo de 10 a 20 Mbps (taxa de bits variável ou constante) com tamanho de pacote de 1358 bytes.

Como é possível que o multicast não pareça sofrer apesar da queda na produção?

EDITAR:

Após 48 horas, os contadores ficam abaixo:

Last clearing of "show interface" counters 2d05h
Input queue: 0/375/0/0 (size/max/drops/flushes); Total output drops: 1217201
Queueing strategy: fifo
Output queue: 0/40 (size/max)
30 second input rate 576849000 bits/sec, 243662 packets/sec
30 second output rate 3706610000 bits/sec, 374245 packets/sec
 29523227831 packets input, 8591353468212 bytes, 0 no buffer
 Received 44508 broadcasts (0 IP multicasts)
 0 runts, 0 giants, 0 throttles 
 0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
 0 watchdog, 977069 multicast, 0 pause input
 50286674450 packets output, 62508590137876 bytes, 0 underruns

Infelizmente não sei qual é o codec, mas vou tentar descobrir.

O fluxo de teste é a taxa de bits constante e o intervalo entre pacotes é de 500 nós.

Timestamp: 0.523377 Diff: 0.000544 Sender: 10.200.200.207:34620 Size:1316
Timestamp: 0.523866 Diff: 0.000489 Sender: 10.200.200.207:34620 Size:1316
Timestamp: 0.524424 Diff: 0.000558 Sender: 10.200.200.207:34620 Size:1316
Timestamp: 0.524935 Diff: 0.000511 Sender: 10.200.200.207:34620 Size:1316
Timestamp: 0.525474 Diff: 0.000539 Sender: 10.200.200.207:34620 Size:1316
Timestamp: 0.525977 Diff: 0.000503 Sender: 10.200.200.207:34620 Size:1316

Há apenas uma explicação que me vem à mente no momento: as explosões são menores que 500 nós. Eu sei que as quedas de produção estão lá e são necessários mais de 100 nós para diminuir a queda. Se as rajadas tiverem de 200 a 300 nós, causará quedas na saída, mas não afetarão o multicast.

Abaixo, forneço algumas saídas conforme solicitado.

ASR920#show interfaces te0/0/27 stats
TenGigabitEthernet0/0/27
      Switching path    Pkts In   Chars In   Pkts Out  Chars Out
           Processor          0          0      22354    8324046
         Route cache          0          0          0          0
   Distributed cache          0          0          0          0
               Total          0          0      22354    8324046

O comando sh interfaces te0/0/27 switchnão parece ser suportado nesta plataforma.

mkurek
fonte
11
Qual codec você está usando? h.264 SVC por acaso?
sergeyrar 02/09
11
A saída do comando sugere que ~ 122k pacotes foram descartados em menos de 2 horas. Isso pode não ser tanto assim. Quantos pacotes foram transmitidos durante o mesmo período de tempo?
Marc 'netztier' Luethi 02/09
4
217201/50286674450 = 24E-6 ou 24 de 1.000.000 pacotes. Eu suspeito que você não notaria.
Ron Trunk
Na próxima semana vou realizar testes adicionais com fluxo mais "pesado" e vou ver se as gotas causam algum impacto. No entanto, tenho certeza de que isso requer um pouco de ajuste.
mkurek 5/09
Qual versão do código você está usando?
YLearn

Respostas:

4

Conforme apontado nos comentários, enquanto a contagem de gotas parece alta, quando comparada ao tráfego total, na verdade, é bastante baixa. A taxa de queda de saída é de 2,4e-5 ou 0,0024%, portanto, se as quedas ocorrerem em intervalos regulares, seu fluxo de teste experimentará um pacote perdido aproximadamente a cada 41,7k pacotes enviados. Mesmo o multicast não deve ter problemas para se recuperar de uma taxa de queda tão baixa e um usuário final provavelmente não notará nada para reclamar. Isso também pressupõe que algumas ou todas as descargas sejam multicast.

Você também parece estar tentando entender como / por que as gotas estão ocorrendo e olhando para as rajadas como uma fonte das gotas. Existe alguma razão para você acreditar que esse seja o caso? Você não forneceu sua versão do código ou a configuração do ASR, mas eu me inclinaria mais para algo como um bug, como CSCuw45886, para ser a fonte dos seus problemas.

YLearn
fonte
Obrigado pela sua resposta. Estou executando o 15.5 (3) S4 no momento. Eu acho que o bug que você mencionou deve ser corrigido nesta versão. Suspeito que as quedas possam ter sido causadas por tráfego intenso, porque temos muitos clientes residenciais lá e o tamanho padrão do buffer nessa plataforma é relativamente pequeno. Após 5 dias, a taxa de queda da produção é de 0,04%. Por que você está assumindo que as quedas ocorrem em intervalos regulares?
Mkurek # 6/17
@mkurek, sim, ele deve ser corrigido (a menos que tenha sido reintroduzido acidentalmente), mas pode haver outros erros. Não faço suposições sobre o seu problema, mas você não forneceu nenhuma informação sobre a natureza das gotas, se elas ocorrem regularmente ou em rajadas. No entanto, passar de ~ 30-35% (seus uplinks relatados mais um%) de um link de 10G sendo usado para estourar mais de 100% por apenas microssegundos por vez parece um pouco exagerado. Talvez se você estivesse pressionando 60% ou mais ....
YLearn
11
Quanto a quedas ocorrendo constantemente / a intervalos / dependendo da hora do dia ... Você tem um sistema NMS em execução que o SNMP coleta e representa graficamente a contagem de gotas (ou contagens de delta-de-gota em um determinado intervalo de pesquisa) )? O gráfico pode ajudar a revelar se a ocorrência de quedas é realmente constante, relacionada ao horário de expediente (ou seja, atividade do usuário relacionada, possivelmente não multicast) ou se está relacionada a outros padrões (ou seja, tráfego multicast acima de um determinado limite).
Marc 'netztier' Luethi
-2

A taxa de queda foi tão baixa que pode ser ignorada

Sanagi
fonte