Telefones em alguns switches não podem concluir o processo DHCP

16

fundo

Eu tenho um servidor DHCP do Windows (Server 2008 R2) distribuindo endereços para vários escopos. Um desses escopos é para alguns telefones IP da Mitel. Os telefones estão configurados para usar a opção dhcp 125 para obter informações de configuração. Quando um telefone é inicializado, ele não sabe qual vlan usar e, portanto, obtém a vlan padrão (sem marcação) de qualquer porta à qual está conectada. O servidor dhcp fornece uma resposta que inclui informações da opção 125 e o telefone pode ler qual vlan deve usar nessa resposta. O telefone libera seu endereço original e solicita uma nova concessão dhcp usando a tag vlan correta. Os telefones também costumam ter computadores conectados a uma porta de passagem. Os pacotes dos computadores nunca são marcados e, portanto, os PCs permanecem na vlan original (sem marcação) da porta. Isso tem funcionado para nós há anos.

Problema e sintomas

Em algum lugar nas últimas semanas, algo mudou e não sei ao certo o que. Os telefones continuarão funcionando enquanto não reiniciarem, o que significa que as solicitações de renovação dhcp devem ser processadas corretamente. Telefones conectados a determinados switches podem até sobreviver a um reinício. Telefones conectados a outros comutadores, no entanto, falharão ao concluir o processo quando reiniciarem. Todos os nossos telefones estão usando PoE com backup de um no-break, portanto faz muito tempo que nenhum deles foi reiniciado. Isso significa que não tenho idéia de quando o problema apareceu pela primeira vez. O que eu sei é que um telefone falhou quando foi reiniciado ontem e, na solução de problemas hoje, redefinimos esse armário de comutação. Agora, nenhum dos telefones nesse comutador está funcionando (felizmente ainda é um número pequeno). Eu também sei que as coisas estavam funcionando perto do final de janeiro,

Enquanto assisto a um telefone inicializar, vejo-o obter o primeiro endereço com êxito. Em seguida, ele lê com êxito as informações da opção 125, define a tag vlan correta e libera a concessão de IP original. É até capaz de receber e aceitar uma oferta na vlan correta do servidor . No entanto, é aí que as coisas param. O telefone tem uma mensagem na tela que diz " DHCP: Offer 2 ACC", mas o servidor DHCP do Windows não registrou a concessão e o telefone nunca segue em frente. Só posso supor que o pacote DHCP REQUEST nunca chegue ao servidor Windows e, portanto, o telefone aguarda o ACK final do Windows que é aceitável continuar.

Gambiarra

Finalmente consegui colocar um telefone funcionando novamente. Para fazer isso, primeiro tive que desconectar o computador. Em seguida, defino a porta do switch do telefone para não ser marcada na vlan do telefone, sem associação à vlan do PC. O telefone agora será reiniciado corretamente. Nesse momento, posso colocar a configuração da porta do switch de volta onde deveria estar e, desde que ninguém tente ligar para esse número enquanto estou redefinindo a porta, o telefone nunca perde uma batida. Então eu posso reconectar o computador. Obviamente, esse não é um processo ideal, embora desde que os telefones sejam reiniciados tão raramente eu seja capaz de usá-lo para que as pessoas trabalhem novamente até encontrar a causa raiz. Os escritórios estão fechados agora para a semana e, portanto, esse problema será permitido no final de semana (não tenho chaves para escritórios individuais onde os telefones estão).

Esse telefone que consertei é o telefone de serviço na sala do servidor, conectado diretamente ao nosso switch principal. É possível que o problema seja um problema com as tags de roteamento ou processamento no comutador principal, de modo que a solução alternativa não seja eficaz nos escritórios remotos onde os pacotes passam pela primeira vez (marcados por) outros comutadores, mas ficarei muito surpreso se isso acontecer, como eu sei que deve estar processando corretamente as renovações dhcp e as conversas telefônicas reais.

Uma reviravolta é que deixar a porta marcada na vlan do PC significa que o telefone falha com a mensagem " DHCP: Offer 1 ACC". Preciso remover completamente essa vlan para que isso seja bem-sucedido.

Nota: Confirmei agora que a solução alternativa é eficaz em edifícios remotos. Isso me leva a suspeitar que meus dispositivos não estão de alguma forma atribuídos à vlan correta. O fato de eu ter enfrentado o problema no meu comutador principal e que aconteceu em vários locais da rede aproximadamente ao mesmo tempo indica que o comutador principal pode ser o problema. Sem nada específico para analisar, estou agendando uma janela de manutenção no final da semana para reiniciar o switch. Também posso atualizar o firmware.

Meio Ambiente

Nosso switch principal é um HP 5406zl. Esse switch lida com o roteamento entre vlan. O servidor DHCP do Windows está conectado diretamente ao comutador. Os comutadores de ponto final são conectados ao comutador principal por meio de SFPs de fibra e essas portas são marcadas para todas as vlans nas duas extremidades. O switch principal configura cada vlan com uma ip helper-addressconfiguração que aponta para o servidor DHCP e uma dhcp relay-option 82 replacelinha para que o servidor dhcp saiba qual escopo usar. Essas configurações e as configurações de porta nos comutadores de terminal não foram alteradas em pelo menos 16 meses. Tivemos outras redefinições de switch e telefone nesse período.

A maioria dos nossos switches de endpoint é da série HP 2530. Esses comutadores parecem funcionar corretamente (telefones em 3 diferentes 2530 foram reiniciados corretamente hoje). São switches mais antigos que têm problemas. Temos um 3Com 4200 antigo e um 4210 que não funcionam. O telefone de serviço conectado diretamente ao switch principal mencionado anteriormente também não funcionaria.

Questão

Neste ponto, meu melhor palpite é que uma atualização do Windows no servidor dhcp alterou o comportamento, mas não consigo ver como. Ou, possivelmente, o comutador principal não está manipulando esse pacote PEDIDO corretamente, mas tenho certeza de que nada mudou lá e não explica por que apenas alguns comutadores de terminal são afetados. Como posso resolver esse problema?

Atualizar:

Aqui está um trecho de log dhcp de um telefone com falha:

10,03 / 06 / 15,12: 40: 40, Atribuir, 10.1.2.158,, 08000F197844,, 3189088995,0 ,,, 11,03 / 06 / 15,12: 40: 40, Renovar, 10.1.2.158, , 08000F197844,, 3189088995,0 ,,, 12,03 / 06 / 15,12: 40: 41, Lançamento, 10.1.2.158,, 08000F197844,, 3189088995,0 ,,, 15,03 / 06 / 15,12: 40: 45, NACK, 10.1.2.154,, 08000F197844,, 0,6 ,,, 15,03 / 06 / 15,12: 40: 45, NACK, 10.1.2.154,, 08000F197844,, 0,6 ,,,

Os endereços 10.xxx são a vlan do PC (essa opção é anterior a mim neste local). Os telefones devem receber esse tipo de endereço no início, então isso é esperado. No entanto, após a mensagem de lançamento, também espero encontrar uma oferta para um endereço no intervalo 192.168.16.x, porque posso ver no telefone que uma oferta foi aceita (a menos que eu esteja interpretando incorretamente "ACC"). É interessante nunca ver o servidor tentar emitir um endereço como esse, mesmo que o telefone pense que recebeu um.

Eu considerei a idéia de que existe um servidor dhcp desonesto na rede (ele entrega um endereço antes do servidor Windows, mas sem as opções dhcp necessárias para o telefone continuar), mas isso não explica por que os telefones funcionam se e somente se Eu removo completamente qualquer caminho para a vlan do PC. Vou testá-lo de qualquer maneira pela manhã conectando meu laptop a uma porta configurada para a vlan do telefone, mas se alguém tiver uma explicação melhor nesse meio tempo, eu adoraria ouvi-lo.

Aqui está uma cópia da configuração do switch:

http://pastebin.com/veXjCRXu

Joel Coel
fonte
Você adivinhou que o pacote de solicitação de DHCP nunca chega ao servidor. Agora aumente o nível de log no servidor DHCP ou cheire algum tráfego e verifique seu palpite. Não fique preso. Você consegue fazer isso.
Skyhawk
11
Não tenho uma resposta para você, mas +1 para uma pergunta bem pensada e testada.
Grant
11
@ Skyhawk Parara para jantar, mas esse era o meu próximo passo. Os resultados estão em questão.
Joel Coel
Você pode me passar a versão do software do seu ProCurve 5406zl?
ewwhite
11
Costumo executar essas opções em uma revisão específica por 6 a 12 meses. Tenho switches semelhantes em uso com telefones Shoretel usando o mesmo conceito. Seria interessante ver uma configuração higienizada.
ewwhite

Respostas:

2

Corrigi o problema hoje removendo a tag vlan da vlan do telefone na porta conectada ao nosso servidor dhcp. É muito estranho para mim que isso funcionou, pois outros sistemas que usam um esquema semelhante (também conhecido como SSIDs de Wi-Fi usando 802.1q) exigem a tag ou os clientes não conseguem obter endereços. Funcionou, então não vou parecer muito difícil, mas estaria interessado em ver respostas com teorias sobre por que é assim.

Joel Coel
fonte
0

Você deve considerar executar uma captura de pacote em ambos os lados do (s) comutador (es) problemático (s) e depois revisar isso no Wireshark. Isso lhe permitirá dizer 1) se o tráfego está sendo interceptado por um servidor DHCP não autorizado (com base no endereço MAC) e 2) se algo está sendo modificado ou descartado (por exemplo, talvez você precise de retransmissão DHCP). Isso pode exigir espelhamento de porta ou o 3com pode suportar a captura diretamente no comutador.

James Shewey
fonte
0

Se você achar que esse problema aparece novamente, convém verificar o tamanho do seu escopo DHCP e quantas concessões estão em uso. Se as concessões DHCP antigas não estiverem sendo destruídas, o servidor poderá pensar que não há endereços restantes no pool e não conseguir atribuir novos endereços. Isso é verdade mesmo se não houver dispositivos respondendo na vlan. Se o seu escopo DHCP for de 7 dias, poderá levar até 7 dias para que você possa obter uma nova concessão. Da mesma forma, alterar sua configuração resolveria o problema, pois haveria um novo intervalo de endereços que poderia ser distribuído ou poderia liberar as concessões, dependendo das alterações na configuração. Eu sugeriria definir o tempo de vida da concessão para algo muito baixo, como uma hora para esse escopo, se esse for o caso.

James Shewey
fonte