Nossa rede sofreu uma falta de energia quando uma de nossas rotas BGP caiu por um curto período ontem. Felizmente, nossas conexões falharam em nossa rota BGP secundária após alguns minutos, e a rota principal tornou-se operacional após um fechamento / não fechamento no lado do ISP.
Estamos executando 2 switches Cisco 3750e empilhados (backplane) executando o iOS 12.2 58.
Na minha conversa com nosso ISP, eles não conseguiram dar respostas definitivas à causa. Existe algo que possamos fazer para identificar a causa de nossa parte para evitar esse problema no futuro?
Log no momento do erro
172258: May 6 14:43:06: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Down BGP Notification sent
172259: May 6 14:43:06: %BGP-3-NOTIFICATION: sent to neighbor xxx.xxx.12.34 4/0 (hold time expired) 0 bytes
172260: May 6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Multicast topology base removed from session BGP Notification sent
172261: May 6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Unicast topology base removed from session BGP Notification sent
Registre quando o ISP fechou / não fechou para redefinir o BGP do lado deles
172542: May 6 15:04:15: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to down
172543: May 6 15:04:16: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to down
172544: May 6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 DOWN on interface GigabitEthernet2/0/49 non DR
172545: May 6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 UP on interface GigabitEthernet2/0/49
172546: May 6 15:04:16: %PIM-5-DRCHG: DR change from neighbor 0.0.0.0 to xxx.xxx.12.35 on interface GigabitEthernet2/0/49
172547: May 6 15:04:18: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to up
172548: May 6 15:04:19: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to up
Registre quando a conexão BGP finalmente passou de inativa para Up
172828: May 6 15:27:33: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Up
Interface BGP do nosso lado (nota: sem CRC, quedas, colisões relatadas ...)
GigabitEthernet2/0/49 is up, line protocol is up (connected)
Hardware is Gigabit Ethernet, address is xxxx.xxxx
Internet address is xxx.xxx.12.35/31
MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec,
reliability 255/255, txload 1/255, rxload 3/255
Encapsulation ARPA, loopback not set
Keepalive not set
Full-duplex, 1000Mb/s, link type is auto, media type is 1000BaseLX SFP
input flow-control is off, output flow-control is unsupported
ARP type: ARPA, ARP Timeout 04:00:00
Last input 00:00:09, output 00:00:12, output hang never
Last clearing of "show interface" counters never
Input queue: 0/75/52/0 (size/max/drops/flushes); Total output drops: 0
Queueing strategy: fifo
Output queue: 0/40 (size/max)
5 minute input rate 14536000 bits/sec, 1655 packets/sec
5 minute output rate 1010000 bits/sec, 640 packets/sec
413176726 packets input, 428902543141 bytes, 0 no buffer
Received 143495 broadcasts (0 IP multicasts)
0 runts, 0 giants, 0 throttles
0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
0 watchdog, 139275 multicast, 0 pause input
0 input packets with dribble condition detected
125748632 packets output, 42915625632 bytes, 0 underruns
0 output errors, 0 collisions, 0 interface resets
0 unknown protocol drops
0 babbles, 0 late collision, 0 deferred
0 lost carrier, 0 no carrier, 0 pause output
0 output buffer failures, 0 output buffers swapped out
fonte
Respostas:
172259: 6 de maio 14:43:06:% BGP-3-NOTIFICATION: enviado ao vizinho xxx.xxx.12.34 4/0 (tempo de espera expirado) 0 bytes
Isso geralmente significa que o outro lado da conexão não respondeu a nenhuma atividade de manutenção dentro do temporizador de espera (padrão 180 segundos). Há uma variedade de problemas que poderiam ter causado isso. Geralmente é um problema de alcançabilidade da camada3. Se isso acontecer novamente, você deve descartar o problema da camada3 testando para o par via ping e telnet (telnet para a porta 179, veja se ele responde).
Se não for um problema de alcançabilidade da camada3, houve um problema com uma extremidade do bairro (provavelmente o lado mais distante nesse caso).
fonte
Se você está simplesmente procurando por 'causa raiz' esse problema:
Você pode perguntar ao seu provedor se houve alguma alteração na configuração final imediatamente antes de isso ocorrer. Há casos em roteadores Cisco (que não têm 100% de certeza sobre o código revertido no momento) em que as sessões BGP serão alteradas quando um lado remover e adicionar novamente um "mapa de rotas" com um "mpls-ip" e / ou um "mtu "configuração no peering do BGP. Embora esse tipo de manutenção não deva causar problemas na sessão de emparelhamento, ouvi histórias desse acontecimento.
Além disso, não tenho certeza de que eles precisariam ir tão longe quanto largar a interface e trazê-la de volta para 'corrigir' o problema. Eu acho que simplesmente redefinir a sessão de emparelhamento seria suficiente, mas se não houvesse tráfego sendo passado no momento da falha, alguém poderia argumentar que não importa se eles abandonaram a interface para que as coisas rolassem novamente.
fonte
Pode ser um problema no MTU. Teve isso há um tempo atrás. Começa bem, mas quando uma atualização com muitas rotas é recebida, ela se perde devido à incompatibilidade da MTU. Além disso, se você tiver dispositivos L2 (alternar? Conversor de mídia?) Entre seus dois roteadores, é possível que a conexão seja interrompida sem que a interface seja desativada.
fonte
Não pelo que estou vendo. O roteador do seu provedor de serviços de Internet parou de responder às mensagens de saudação do seu roteador, e é por isso que você perdeu sua conexão BGP. Também é possível que seu roteador pare de ouvir as mensagens de saudação do ISP, mas não estou vendo nada óbvio nas mensagens que ajudem a identificar o problema. Talvez alguém mais focado na faixa ISP possa comentar e lançar alguma luz?
fonte