Solução de problemas de conexões "Down BGP"

21

Nossa rede sofreu uma falta de energia quando uma de nossas rotas BGP caiu por um curto período ontem. Felizmente, nossas conexões falharam em nossa rota BGP secundária após alguns minutos, e a rota principal tornou-se operacional após um fechamento / não fechamento no lado do ISP.

Estamos executando 2 switches Cisco 3750e empilhados (backplane) executando o iOS 12.2 58.

Na minha conversa com nosso ISP, eles não conseguiram dar respostas definitivas à causa. Existe algo que possamos fazer para identificar a causa de nossa parte para evitar esse problema no futuro?

Log no momento do erro

172258: May  6 14:43:06: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Down BGP Notification sent
172259: May  6 14:43:06: %BGP-3-NOTIFICATION: sent to neighbor xxx.xxx.12.34 4/0 (hold time expired) 0 bytes
172260: May  6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Multicast topology base removed from session  BGP Notification sent
172261: May  6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Unicast topology base removed from session  BGP Notification sent

Registre quando o ISP fechou / não fechou para redefinir o BGP do lado deles

172542: May  6 15:04:15: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to down
172543: May  6 15:04:16: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to down
172544: May  6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 DOWN on interface GigabitEthernet2/0/49 non DR
172545: May  6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 UP on interface GigabitEthernet2/0/49 
172546: May  6 15:04:16: %PIM-5-DRCHG: DR change from neighbor 0.0.0.0 to xxx.xxx.12.35 on interface GigabitEthernet2/0/49
172547: May  6 15:04:18: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to up
172548: May  6 15:04:19: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to up

Registre quando a conexão BGP finalmente passou de inativa para Up

172828: May  6 15:27:33: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Up

Interface BGP do nosso lado (nota: sem CRC, quedas, colisões relatadas ...)

GigabitEthernet2/0/49 is up, line protocol is up (connected)
Hardware is Gigabit Ethernet, address is xxxx.xxxx
Internet address is xxx.xxx.12.35/31
MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec,
reliability 255/255, txload 1/255, rxload 3/255
Encapsulation ARPA, loopback not set
Keepalive not set
Full-duplex, 1000Mb/s, link type is auto, media type is 1000BaseLX SFP
input flow-control is off, output flow-control is unsupported
ARP type: ARPA, ARP Timeout 04:00:00
Last input 00:00:09, output 00:00:12, output hang never
Last clearing of "show interface" counters never
Input queue: 0/75/52/0 (size/max/drops/flushes); Total output drops: 0
Queueing strategy: fifo
Output queue: 0/40 (size/max)
5 minute input rate 14536000 bits/sec, 1655 packets/sec
5 minute output rate 1010000 bits/sec, 640 packets/sec
413176726 packets input, 428902543141 bytes, 0 no buffer
Received 143495 broadcasts (0 IP multicasts)
0 runts, 0 giants, 0 throttles
0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
0 watchdog, 139275 multicast, 0 pause input
0 input packets with dribble condition detected
125748632 packets output, 42915625632 bytes, 0 underruns
0 output errors, 0 collisions, 0 interface resets
0 unknown protocol drops
0 babbles, 0 late collision, 0 deferred
0 lost carrier, 0 no carrier, 0 pause output
0 output buffer failures, 0 output buffers swapped out
John Lee
fonte
note que há uma discussão no Meta (já!) sobre tags. Por favor, considere (ou vá para meta e carrilhão) transformar sua tag de número de modelo Cisco em um MODELSERIES MANUFAC ... não tenho certeza sobre o 3750e, mas talvez seja a série 3700? Então, "cisco-3700" para a tag. Caso contrário, será um mar de sopa de modelo de hardware. Guarde também a tag 'cisco', para que as pessoas possam pesquisar / seguir / assinar o 'cisco' também.
Craig Constantine
Feito como sugerido.
John Lee
Não há menção se os dois pares de BGP estão conectados diretamente ou não. Se houver outro dispositivo entre eles, uma série de outros problemas possíveis poderá ser gerada por eles.
noaru
redesenhado como cisco-3750 como o 3700 é um roteador de modelo mais antigo. Os switches Catalyst são 3750.
Dave Noonan
@noaru os 2 pares BGP estão conectados diretamente.
John Lee

Respostas:

19

172259: 6 de maio 14:43:06:% BGP-3-NOTIFICATION: enviado ao vizinho xxx.xxx.12.34 4/0 (tempo de espera expirado) 0 bytes

Isso geralmente significa que o outro lado da conexão não respondeu a nenhuma atividade de manutenção dentro do temporizador de espera (padrão 180 segundos). Há uma variedade de problemas que poderiam ter causado isso. Geralmente é um problema de alcançabilidade da camada3. Se isso acontecer novamente, você deve descartar o problema da camada3 testando para o par via ping e telnet (telnet para a porta 179, veja se ele responde).

Se não for um problema de alcançabilidade da camada3, houve um problema com uma extremidade do bairro (provavelmente o lado mais distante nesse caso).

Justin Seabrook-Rocha
fonte
4

Se você está simplesmente procurando por 'causa raiz' esse problema:

Você pode perguntar ao seu provedor se houve alguma alteração na configuração final imediatamente antes de isso ocorrer. Há casos em roteadores Cisco (que não têm 100% de certeza sobre o código revertido no momento) em que as sessões BGP serão alteradas quando um lado remover e adicionar novamente um "mapa de rotas" com um "mpls-ip" e / ou um "mtu "configuração no peering do BGP. Embora esse tipo de manutenção não deva causar problemas na sessão de emparelhamento, ouvi histórias desse acontecimento.

Além disso, não tenho certeza de que eles precisariam ir tão longe quanto largar a interface e trazê-la de volta para 'corrigir' o problema. Eu acho que simplesmente redefinir a sessão de emparelhamento seria suficiente, mas se não houvesse tráfego sendo passado no momento da falha, alguém poderia argumentar que não importa se eles abandonaram a interface para que as coisas rolassem novamente.

GoatAtWork
fonte
Não ouvi falar de redefinir a sessão de peering. É semelhante ao que é mencionado aqui? link Além disso, é algo que posso fazer para redefinir a conexão?
John Lee
1
É apenas um simples 'clear ip bgp nei xx.xx.xx.xx', também conhecido como 'limpando a sessão'. Simplesmente redefine o bairro vizinho do BGP (a limpeza clara reduz a sessão e a restabelece).
Justin Seabrook-Rocha
Pergunta rápida: o 'clear ip bgp nei' precisa ser feito no final do ISP ou poderíamos ter iniciado também?
John Lee
Qualquer extremidade pode iniciar a limpeza da sessão. Às vezes, quando coisas "estranhas" estão acontecendo, como o caso aqui, vale a pena tentar nos dois lados. Eu faria cada extremidade uma de cada vez, simplesmente por uma questão de solução de problemas.
GoatAtWork
Vale ressaltar que você pode fazer uma reinicialização por software (basta adicionar a palavra-chave 'soft' no final do comando) - ele força o reenvio de atualizações sem reduzir a conexão (e o relacionamento com o vizinho).
noaru
4

Pode ser um problema no MTU. Teve isso há um tempo atrás. Começa bem, mas quando uma atualização com muitas rotas é recebida, ela se perde devido à incompatibilidade da MTU. Além disso, se você tiver dispositivos L2 (alternar? Conversor de mídia?) Entre seus dois roteadores, é possível que a conexão seja interrompida sem que a interface seja desativada.

Sebastian Wiesinger
fonte
0

Não pelo que estou vendo. O roteador do seu provedor de serviços de Internet parou de responder às mensagens de saudação do seu roteador, e é por isso que você perdeu sua conexão BGP. Também é possível que seu roteador pare de ouvir as mensagens de saudação do ISP, mas não estou vendo nada óbvio nas mensagens que ajudem a identificar o problema. Talvez alguém mais focado na faixa ISP possa comentar e lançar alguma luz?

Avery Abbott
fonte
Você quer dizer keepalives, não olá mensagens - esse é o BGP, não o OSPF.
Niels
Obrigado sim. Às vezes fico um pouco confuso.
Avery Abbott