CPU ProCurve a 100% por vários minutos após a reinicialização

9

Venho fazendo atualizações de firmware nos switches HP. Dois modelos diferentes foram atualizados:

  • ProCurve Switch 5406zl Intelligent Edge (J8697A): atualizado de K.15.06.0008 para K.15.12.0012
  • Switch HP 2520-24G-PoE (J9299A): atualizado de J.14.54 para J.15.09.0021

Verificando cada opção logo após a inicialização da nova imagem, observei algo:

  1. Os switches carregaram a nova imagem de firmware sem erros e a conectividade foi recuperada assim que o switch foi inicializado. Nesse ponto, o uso da CPU era baixo (menos de 10%)
  2. Poucos segundos depois, o uso da CPU aumentou até 100% e permaneceu ali por vários minutos. Não pude detectar nenhum problema neste momento, além da CLI através do SSH ser um pouco lenta: conectividade normal, sem mensagens de log ...
  3. Após cinco a dez minutos a 100%, a CPU voltou ao normal sem nenhuma alteração do meu lado.

Ambos os modelos estavam tendo esse comportamento. Revirei uma unidade de cada modelo para a imagem anterior do firmware e eles se comportaram da mesma maneira.

Apesar desse pico de CPU logo após a inicialização não ter causado nenhum problema, pergunto-me se o comportamento normal da rede poderia ser a causa desse pico, mas acho que não. Eu considerei os seguintes aspectos:

  1. Logo após a inicialização, o STP inicia a execução, gerando BPDUs e alternando todas as portas no switch pelos estados Bloking, Listening, Learning e Forwarding. No entanto, mesmo com o 802.1D, esse processo não leva mais que 1 minuto com os cronômetros padrão. Além disso, eu estava verificando os switches através do SSH, para que todos os cálculos de STP já estivessem concluídos no momento em que eu pudesse conectar-me ao switch.

  2. Logo após a inicialização, a tabela de endereços MAC está vazia e é necessária a difusão para que os primeiros quadros sejam encaminhados. Mas duvido que essa transmissão levasse 100% da CPU, muito menos por 5 minutos, em um switch de 24 portas.

  3. Como todos os switches que atuam como dispositivos L2, nenhuma funcionalidade L3 é ativada, descarto o roteamento e outros processos L3.

Estou faltando algo "normal" nas operações de rede que pode explicar esse uso da CPU por 5 minutos após a reinicialização, mantendo a conectividade? Talvez seja algum tipo de processo em segundo plano que o switch seja executado logo após a reinicialização?

Daniel Yuste Aroca
fonte

Respostas:

8

Isso levou menos de 2 segundos no Google: portal de rede HP

Switch HP ProCurve 5400zl Series - Alta utilização da CPU (99-100%) após o problema de inicialização

Logo após o switch ser iniciado, é observada uma alta utilização da CPU (99-100%). Solução

Quando o switch é inicializado, uma das tarefas de inicialização é a criação de chaves de criptografia. A criação prévia das chaves significa que, mais tarde, quando um recurso como SSL ou SSH que usa as chaves for configurado ou usado, haverá um atraso mínimo na disponibilidade. Essa tarefa leva alguns segundos para ser executada, dependendo do modelo do comutador, da configuração que está sendo carregada e da revisão do software. Embora a tarefa consuma até 100% da CPU, ela é executada com uma prioridade muito baixa. Portanto, se outra tarefa que requer ciclos de CPU for iniciada, essa tarefa de baixa prioridade será desativada. Se essa tarefa de inicialização / geração de chaves for executada ininterruptamente por tarefas de prioridade mais alta, leva cerca de 10 minutos para ser concluída. Se a CPU estiver ocupada com outras tarefas, o tempo de conclusão será estendido.

Para verificar se a CPU elevada que está sendo vista é de fato o que foi descrito aqui e não algo que exija solução de problemas, use os comandos documentados abaixo.

task-monitor cpu (this command was introduced in K.13.04)

show uptime

show cpu

A saída será semelhante à seguinte.

Switch # task-monitor cpu Tempo de atividade do show # 0000: 00: 01: 42.36 Switch # show cpu

99 percent busy, from 27 sec ago
1 sec ave: 100 percent busy
5 sec ave: 100 percent busy
1 min ave: 66 percent busy

Task usage for last 5 sec
 % CPU | Description
-------+--------------------------
   0.3 | Sessions & I/O
  99.7 | System Services
Ron Trunk
fonte
Concordo que isso parece descrever o problema que experimentei. Mas então uma nova pergunta vem à minha mente. Como eu disse, eu estava trocando os interruptores através da conexão SSH. Se as chaves SSH estiverem sendo geradas alguns segundos após o login: como eu poderia iniciar a sessão SSH antes que as chaves estivessem prontas?
Daniel Yuste Aroca
2
No Guia de segurança do Procurve Access: Quando você gera um par de chaves de host no comutador, o comutador coloca o par de chaves na memória flash (e não no arquivo running-config). Além disso, o switch mantém o par de chaves nas reinicializações, incluindo os ciclos de energia. A remoção (zeragem) do par de chaves pública / privada do comutador torna o comutador incapaz de se envolver na operação SSH e desativa automaticamente o IP SSH no comutador.
Daniel Yuste Aroca