Por que a conectividade da minha VM HyperV está perdendo aleatoriamente?

10

Eu tenho um problema de conectividade intermitente estranho acontecendo uma vez a cada duas semanas.

Primeiro minha configuração: estou executando um cluster de failover do HyperV com dois hosts físicos (node01 e node02). Os hosts estão executando o servidor Windows Server 2008 R2 HyperV (o gratuito) com o SP1. Nesses hosts, estou executando duas VMs, cada uma executando o Windows Server 2008 R2 Web Edition com SP1. Meu servidor de armazenamento é o Windows Storage Server 2008 conectado via iSCSI. Tanto os hosts quanto o servidor de armazenamento estão executando os drivers de rede mais recentes baixados diretamente do site da Intel.

Aqui está o problema: 99,99% do tempo, tudo funciona perfeitamente. Cerca de uma vez a cada duas ou três semanas, as VMs perdem simultaneamente a conectividade de rede, de entrada e de saída. Quando isso acontece,

  1. Não consigo fazer RDP em nenhuma VM.
  2. Eu posso RDP em qualquer host.
  3. Posso conectar-me a qualquer VM no Gerenciador de Cluster de Failover clicando com o botão direito do mouse no nó e selecionando 'Conectar-se à Máquina Virtual'
  4. Depois de me conectar à VM, conforme descrito no item 3 acima, não consigo acessar sites ou máquinas na LAN. Desabilitar e reativar a conexão de rede virtual dentro da VM não resolve o problema.
  5. Se eu mover a VM para um nó diferente, isso resolverá o problema (pelas próximas duas semanas).
  6. Se eu reiniciar o host e mover a VM de volta para ele, isso resolverá o problema (pelas próximas duas semanas).
  7. Quando isso acontece, o cluster de failover NÃO realiza failover automaticamente da VM.
  8. Não há entradas incomuns no log de eventos em nenhum dos hosts ou VMs.

Isso aconteceu cerca de 5 vezes com os mesmos sintomas descritos acima. Suspeito de um problema de driver ou hardware de rede, mas como já estou executando os drivers mais recentes, não sei o que fazer.

Este é realmente um arranhão de cabeça ... alguma idéia?

Atualizar

Encontrei um caso muito semelhante aqui: o Virutal Machine perde a conectividade de rede no Hyper V Cluster

Atualização 29/07/2011

Depois de instalar os hotfixes e atualizar os drivers de rede, ainda estou enfrentando o mesmo problema. Em resposta ao comentário solicitando detalhes do hardware, o servidor é um Intel SR1670HV, que é um chassi de 1U contendo duas placas-mãe S5500HV independentes. A comunicação é feita através das placas de rede integradas das placas-mãe, que são Intel 82574L. O driver de rede é a versão 16.2.49.0.

Mike
fonte
você pode adicionar detials sobre o seu hardware (número de nics)
Jim B
Qual marca / modelo de NICs você possui no servidor?
Chris S
Informações sobre hardware e NICs adicionadas acima.
29511 Mike
Com que chave de marca / modelo você está se conectando?
ErnieTheGeek 29/07
Eu tive um problema semelhante com imagens do CentOS em um servidor MS hyperV. Você possui NICs dedicadas para cada máquina ou uma NIC compartilhada? Uma vez que nós mudamos para nics dedicado este problema foi embora ... que não é um verdadeiro correção embora ...
n8whnp

Respostas:

7

Costumávamos ter um problema como este em que estou. Não me lembro dos detalhes exatos, mas a solução final tinha a ver com um endereço MAC conflitante atribuído dinamicamente a um adaptador de rede virtual. Fixar aqueles que não eram dinâmicos ajudou muito. Você normalmente não deseja fazer isso porque pode dificultar a transferência de uma máquina virtual para um host diferente, mas nos ajudou nesse caso.

A outra parte é que as placas de rede físicas foram feitas pela broadcom e também tivemos um erro de configuração, onde um administrador anterior tentou incorretamente usar o utilitário broadcom para fazer o entroncamento das duas placas no host para melhorar a largura de banda / taxa de transferência. Removemos essa instalação e configuramos uma das placas de rede para que ela não tivesse nenhum IP na máquina host, mas ainda podia ser usada para transmissão para convidados virtuais. Em seguida, configuramos cada máquina virtual para usar apenas um nic ou outro, equilibrando a carga com base no tráfego histórico. Obviamente, isso significa que não há failover se um adaptador ou conexão cair, e não seguimos o processo para verificar se o tráfego permaneceu equilibrado ao longo do tempo, mas está estável desde então.

Joel Coel
fonte
5

Estou ciente de que essa é uma pergunta antiga, mas encontrei o mesmo problema e perdi tanto tempo resolvendo que pensei em compartilhar a solução que funcionou para mim. Encontrei a solução para o meu problema aqui:

http://invendows.wordpress.com/2008/03/06/network-issue-with-hyper-v/

A solução na minha situação foi desativar o TCP Offloading nas VMs. Vou citar a seção relevante no link:

Para desativar o TCP Offloading, tive que criar e definir um novo valor de registro em cada VM conectada à NIC Broadcom 8507 Nextreme II.

Usei a seguinte alteração no registro para desativar o TCP Offloading:

Chave: HKLM \ SYSTEM \ CurrentControlSet \ Services \ Tcpip \ Parameters

Valor (DWORD): DisableTaskOffload = 1

Depois de desativar a transferência de TCP em cada VM, todos os problemas terminaram e eu pude conectar várias VMs a uma porta da NIC da NIC Broadcom 5708 Nextreme II.

Meu servidor possui Broadcom NetExtremeplacas de rede, portanto, para mim, a causa desse problema foi definitivamente relacionada ao driver, mas a configuração DisableTaskOffload= 1 resolveu o problema completamente para mim. Espero que essas informações economizem horas para outras pessoas!

BruceHill
fonte
1
+1, obrigado por esta dica, estou em execução há alguns dias sem nenhum problema.
precisa saber é o seguinte
1
Não tem problema, m0dest0. Fico feliz em saber que isso ajudou você. :)
BruceHill
3

Encontrei algo semelhante em um ambiente Hyper-V muito mais simples e deparei com este artigo na Microsoft. Parece se adequar à sua situação se os servidores da web forem muito usados.

http://support.microsoft.com/kb/974909 - A conexão de rede de uma máquina virtual Hyper-V em execução é perdida sob tráfego intenso de rede de saída em um computador com Windows Server 2008 R2

Christopher
fonte
O artigo KB que você referência foi pré-SP1, mas eu fiz um similar pós-SP1 que parece promissor: support.microsoft.com/kb/2263829
Mike
1
Eu removi isso como resposta porque instalei o hotfix, mas o problema ainda está ocorrendo. Portanto, esta questão permanece sem resposta ...
Mike
2

Tivemos o mesmo problema, embora no nosso caso fosse a cada 24 a 48 horas. Gostaria de verificar se o seu produto antivírus / firewall oferece suporte especial ao Server 2008 com Hyper-V; caso contrário, tente um produto diferente (ou removendo temporariamente, se possível) o seu produto antivírus / firewall como teste para verificar se o problema desaparece. .

Após uma ligação para a Microsoft e vários uploads de arquivos de despejo / log posteriormente, eles determinaram que o TrendMicro OfficeScan era o culpado no nosso caso. Estávamos usando uma versão que não era explicitamente suportada no Hyper-V. Depois de fazer o upgrade para a versão mais recente, o problema desapareceu.

Jesse
fonte
2

Isso acabou por ser um problema de hardware - eu isolei o problema em um comutador gerenciado Netgear GSM7224v2, substituí-o por um D-Link DGS-1024D e tudo tem funcionado bem desde então.

Como uma "lição aprendida", neste caso, provavelmente gastei 99% do meu esforço de diagnóstico para solucionar problemas de configurações de software pelo que acabou sendo um problema de hardware. Paguei até US $ 259 ao Suporte da Microsoft (e gastei muito tempo no telefone com eles) para me ajudar a descobrir, procurando nas configurações do software. Eu acho que a moral da história é suspeitar do seu hardware tanto quanto do seu software.

Mike
fonte
1

Nas propriedades do adaptador de rede para o convidado da VM, você desabilitou os Pacotes Jumbo e a Transferência de Envio Grande? Com base na minha experiência com essas configurações, eu definitivamente tentaria.

Greg Askew
fonte