Quadros enormes entre o convidado e o host da KVM?

11

Estou tentando implementar uma MTU de 9000 bytes para comunicação de armazenamento entre convidados KVM e o sistema host. O host possui uma ponte ( br1) com uma MTU de 9000 bytes:

host# ip link show br1
8: br1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9000 qdisc noqueue state UP 
    link/ether fe:54:00:50:f3:55 brd ff:ff:ff:ff:ff:ff
    inet 172.16.64.1/24 brd 172.16.64.255 scope global br1
    inet6 fe80::21b:21ff:fe0e:ee39/64 scope link 
       valid_lft forever preferred_lft forever

Os convidados têm uma interface conectada a esta ponte que também possui uma MTU de 9000 bytes:

guest# ip addr show eth2
4: eth2: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9000 qdisc pfifo_fast state UP qlen 1000
    link/ether 52:54:00:50:f3:55 brd ff:ff:ff:ff:ff:ff
    inet 172.16.64.10/24 brd 172.16.64.255 scope global eth2
    inet6 fe80::5054:ff:fe50:f355/64 scope link 
       valid_lft forever preferred_lft forever

Posso fazer ping do host para o convidado:

host# ping -c4 172.16.64.10
PING 172.16.64.10 (172.16.64.10) 56(84) bytes of data.
64 bytes from 172.16.64.10: icmp_seq=1 ttl=64 time=1.15 ms
64 bytes from 172.16.64.10: icmp_seq=2 ttl=64 time=0.558 ms
64 bytes from 172.16.64.10: icmp_seq=3 ttl=64 time=0.566 ms
64 bytes from 172.16.64.10: icmp_seq=4 ttl=64 time=0.631 ms

--- 172.16.64.10 ping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3000ms
rtt min/avg/max/mdev = 0.558/0.727/1.153/0.247 ms

Mas se eu aumentar o tamanho do pacote de ping além de 1490 bytes, não tenho mais conectividade:

host# ping -c4 -s 1491 172.16.64.10
PING 172.16.64.10 (172.16.64.10) 1491(1519) bytes of data.

--- 172.16.64.10 ping statistics ---
4 packets transmitted, 0 received, 100% packet loss, time 3000ms

Um rastreamento de pacote mostra que esses pacotes nunca chegam ao convidado. Tudo o que li indica que a interface de ponte do Linux e a virtiorede suportam todos os jumbo-frames, mas isso certamente me parece um problema de MTU.

Estou perdendo algo realmente óbvio?

Atualizar

Mostrando o lado do host da interface do convidado:

host# brctl show
bridge name bridge id       STP enabled interfaces
br1     8000.fe540050f355   no      vnet2

host# ip addr show vnet2
11: vnet2: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9000 qdisc pfifo_fast master br1 state UNKNOWN qlen 500
    link/ether fe:54:00:50:f3:55 brd ff:ff:ff:ff:ff:ff
    inet6 fe80::fc54:ff:fe50:f355/64 scope link 
       valid_lft forever preferred_lft forever
larsks
fonte
Qual é o MTU na interface tun da VM no host?
mgorven
Isso também é 9000 bytes; Atualizei a pergunta com a saída de brctle ip addr showpara essa interface.
Larsks 26/12/12
Exatamente o que é o sistema host?
Michael Hampton
Arch Linux, com Linux 3.6.10 (x86_64), qemu-kvm 1.2.0, libvirt 1.0.1.
Larsks 26/12/12

Respostas:

7

Embora esse fosse um problema da MTU, verifica-se que não tinha nada a ver com as configurações da MTU em nenhum dos dispositivos componentes. Como mostrei na pergunta original, a ponte do host, a interface de ajuste do host e a interface do convidado tinham a mesma configuração de MTU (9000 bytes).

O problema real era um problema de configuração da libvirt / kvm. Por padrão, libvirt não usa virtiodispositivos. Na ausência de uma configuração explícita, você acaba com uma placa de rede RealTek RTL-8139. Esta NIC virtual não suporta frames jumbo .

Para usar virtiodispositivos, você precisa especificar um modelo explícito. Ao usar virt-install:

virt-install ... -w bridge=br1,model=virtio

Ou após o fato, adicionando uma <model>tag ao <interface>elemento apropriado no XML do domínio:

<interface type="bridge">
  <model type="virtio"/>
  <source bridge="br1"/>
  <target dev="vnet2"/>
</interface>

Com essa mudança, tudo funciona como pretendido.

larsks
fonte
0

para que o MTU maior funcione, toda a pilha precisa ter o MTU mais alto, que inclui os convidados, os tapdevs e as NICs físicas às quais a ponte está conectada (se você tiver títulos e vlans a caminho - eles também)

dyasny
fonte
Você sabe se exemplos específicos, como GigaEthernet e além, onde isso seria o resultado da negociação automática? Este post talvez seja uma duplicata: google.com/…
ArrowInTree
não, tem que ser feito manualmente, todo o conjunto de pilha para o maior MTU de qualquer componente
dyasny
Sim, eu percebo isso; isso está bem documentado em todo o lugar. Como você pode ver na pergunta, os convidados, os tapdevs e a ponte têm o MTU mais alto. Você vê algo mal configurado nos exemplos que eu dei?
Larsks 26/12/12
Para usar configurações de MTU não padrão, tudo deve aderir à MTU não padrão. Que, de cima para baixo, deve ser a NIC convidada, a torneira, a ponte, eth (+ vlan + bond) sob a ponte e, é claro, a porta do switch. Eu testei-o há apenas alguns minutos e funciona perfeitamente no RHEL com kvm
dyasny
Certo, e acho que mostrei claramente na pergunta o valor em todas as partes da pilha. Você vê alguma informação ausente ou algo que não está configurado corretamente?
Larsks 27/12/12