Nós recentemente teve um pequeno problema com a rede em que vários servidores seria intermitentemente perder conectividade de rede de uma forma bastante dolorosa-se resolve (obrigatório hard reboot). Isso acontece há cerca de duas semanas, aparentemente aleatoriamente, em diferentes servidores. Nenhum padrão particular que pudéssemos discernir.
Após algumas pesquisas, vimos que o switch estava relatando 100 Mbps para a porta com problema:
Isso soa notavelmente como o que aconteceu no artigo de Joel Spolsky, Cinco Porquês
Michael passou algum tempo fazendo um post-mortem e descobriu que o problema era um simples problema de configuração no comutador. Existem várias velocidades possíveis que um comutador pode usar para se comunicar (10, 100 ou 1000 megabits / segundo). Você pode definir a velocidade manualmente ou permitir que o comutador negocie automaticamente a velocidade mais alta com a qual os dois lados podem trabalhar. O comutador que falhou foi definido para negociação automática. Isso geralmente funciona, mas nem sempre, e na manhã de 10 de janeiro, não funcionou.
Agora desativamos a negociação automática em nosso hardware de rede e o definimos para uma taxa fixa de 1000 Mbps (gigabit).
Minhas perguntas para aqueles com mais experiência em rede de hardware de servidor:
- Quão comum são os problemas de negociação automática com o hardware de rede moderno?
- É uma boa prática padrão de rede desabilitar a negociação automática e definir velocidades fixas ao configurar a rede?
fonte
Respostas:
Ainda estou vendo um problema com a negociação automática de velocidades de rede que não é causada por (a) uma incompatibilidade de manual em uma extremidade do link e automática na outra ou (b) por um componente com falha do link ( cabo, porta, etc).
Isso depende do administrador, mas minha experiência me mostrou que, se você especificar manualmente as velocidades do link e as configurações duplex, será provável que encontre incompatibilidades de velocidade. Por quê? Porque é quase impossível documentar as várias conexões entre comutadores e servidores e siga essa documentação ao fazer alterações. A maioria das falhas que eu vi são por causa de 1 (a) e você só entra nessa situação quando começa a definir manualmente as configurações de velocidade / duplex.
Como mencionado na documentação da Cisco :
A menos que você esteja preparado para configurar um sistema de gerenciamento de alterações para alterações na rede que exija a verificação de velocidade / duplex (e não se esqueça do controle de fluxo) ou esteja disposto a lidar com incompatibilidades ocasionais decorrentes da especificação manual dessas configurações em todos os dispositivos de rede, depois fique com a configuração padrão de auto / auto.
No futuro, considere monitorar os erros nas portas do switch com o MRTG para poder detectar esses problemas antes de ter um problema.
Edit: Eu vejo muitas pessoas referenciando falhas de negociação em equipamentos antigos. Sim, isso foi um problema há muito tempo, quando os padrões estavam sendo criados e nem todos os dispositivos os seguiam. Suas NICs e switches têm menos de 10 anos? Nesse caso, isso não será um problema.
fonte
Muito comum, tive vários problemas ao longo dos anos com vários tipos de hardware.
Na minha opinião, se a configuração é estática (ou seja, um rack de servidor) e você não acha que haverá alterações, é uma boa ideia configurar as velocidades e os duplex manualmente. Desde que esteja bem documentado, para que problemas futuros possam ser evitados.
EDITAR:
Só para esclarecer, eu não estou defendendo o uso de velocidades manuais em toda a sua rede, eu diria que 95% das vezes auto / auto é o caminho a percorrer. Só estou dizendo que tive problemas com o duplex / velocidade e há pequenas porções da minha rede (ou seja, um dos racks de servidor) que possuem configurações principalmente manuais. Operamos uma LAN com controle muito rígido, com portas não utilizadas sendo desligadas e filtros MAC na maioria das portas, portanto, acompanhar as velocidades não é muito difícil.
fonte
Acredito que se a negociação automática estava funcionando por uma hora por dia ou por mês e, por algum motivo, "alguma coisa acontece" que definir o link para velocidade fixa "corrige", existe um problema que não está sendo resolvido, mas contornado. Acho que vejo a configuração do link como fixa como uma solução temporária até que o problema real seja corrigido.
fonte
Portanto, as etapas de solução de problemas (suponha que você pare após cada uma e aguarde o problema reaparecer):
Nesse ponto, você eliminou a configuração, as portas físicas nas quais está conectado e o cabeamento entre elas. Se ainda estiver acontecendo, outras causas podem ser:
Histórico / por que minha resposta é mais impressionante: trabalho como engenheiro de rede / sistemas no setor financeiro, e aqui está minha experiência com nossa pequena rede global (15 filiais, 8 datacenters):
Todas as nossas portas LAN são de registro automático, porque controlamos o equipamento nas duas extremidades e temos algum tipo de acesso aos dois lados - o que pode ser tão simples quanto conectar o telefone a alguém e fazer com que ele verifique as configurações. Em três anos, apenas uma de nossas portas internas falhou devido à falha no autoneg, e isso foi devido a um cabo defeituoso - ele desapareceu após a substituição do cabo.
Tivemos muito mais problemas em que os antecessores haviam codificado 100 / full em suas placas de rede e não documentamos esse fato. Redefina tudo para auto / auto na próxima janela de manutenção e não tenha tido problemas com eles desde então.
Nos dois lugares em que obtivemos transferência de cobre de uma operadora para nossa WAN? Você deve esperar uma conexão WAN / Internet de cobre o tempo todo - em parte porque você não tem idéia do que está do outro lado. Algum switch Extreme antigo que possui firmware com bugs para autoneg, mas faz a marcação MPLS? Um conversor de mídia de US $ 5 porque o dispositivo de ponta Ciena de US $ 200 mil do seu ISP é simplesmente incrível demais para fornecer Ethernet sobre par trançado? Decida com antecedência como isso será tratado e cumpra-o, e espere que alguma coisa dentro da transportadora o altere às 22h de um sábado, porque a configuração acordada nunca foi documentada e eles têm alguma política a seguir.
Sério, no entanto, obtenha uma transferência de fibra do seu ISP.
fonte
A rede pela qual sou responsável (juntamente com alguns outros funcionários) é composta por ~ 40 servidores, mais de 1000 estações de trabalho (espalhadas por um campus bastante grande) e ~ 1000 WAPs também espalhadas por uma grande área com tipos e idades variados de equipamento de rede.
Como o dimitri.p disse, quando algo de repente falha ao interromper a negociação automática, geralmente é uma indicação de outro problema. Definir a porta manualmente é semelhante a colocar um bandaid em alguém que foi esfaqueado no intestino - isso pode parar o sangramento, mas certamente haverá danos por baixo.
Minha lista de verificação habitual:
Como regra, nunca desabilitamos o autoneg em servidores (ou qualquer outra coisa no data center), a menos que seja uma situação em que todas as outras causas possíveis tenham sido eliminadas, mudamos as portas do switch, trocamos os cabos, testamos a NIC, etc. e não há outra escolha Nesse caso, é documentado até a morte. Isso acontece muito raramente, e geralmente em dispositivos que não conseguimos acessar para verificar as configurações do BIOS e do sistema operacional.
As estações de trabalho e os APs, por outro lado, são uma história diferente. O autoneg com falha é um sinal clássico de um mau funcionamento do cabo, e muitas vezes temos que definir manualmente a velocidade e o duplex até a temporada de verão com novos cabos na parede.
fonte
Isso é mito da rede. Nossa equipe de rede jura por esse absurdo, porque em 1998 os switches Bay não negociavam com a Cisco ou algo assim. Portanto, em vez de usar o padrão para 99,999% dos equipamentos do mundo, temos esse exercício ridículo de gerenciamento de configurações e um ótimo bode expiatório para aqueles momentos em que uma atualização de driver da NIC redefine as configurações para negociação automática e tudo acontece.
Tornou-se mais divertido porque muitos de nossos servidores usam recursos duvidosos, como a formação de equipes da NIC, que evitam a perda de acesso à rede no improvável evento de falha de um switch, enquanto o expõem à muito mais provável falha de software. (Os motoristas sempre são péssimos)
Em defesa dos caras da rede, muitos servidores estão em execução com os drivers de NIC padrão do Windows, que geralmente são péssimos. Se você tiver problemas com a negociação automática e seu equipamento não for da administração Clinton, atualize os drivers da NIC.
fonte
Você deve negociar automaticamente. Se você possui uma opção que não negocia automaticamente de maneira confiável, compre uma opção melhor.
O gigabit deve negociar automaticamente, e isso inclui a detecção de cruzamento automático (MDI-X).
É garantido que o 100baseT falhará se uma extremidade estiver definida como automática e a outra definida como manual, e isso é conforme as especificações. Se você forçar uma extremidade a 100 / full depois a outra extremidade vai negociar automaticamente para 100 / half, dando-lhe uma incompatibilidade duplex.
fonte
Normalmente, eu configuro os servidores para serem corrigidos, pois vi o equipamento de rede negociar para 10 / half em vez de 1000 / full.
Além disso, alguns CoLos configuram seus switches para não negociar, mas apenas para fazer o link em 1000 / full.
fonte
Desabilitar a negociação automática em uma configuração inicial não testada é semelhante à programação vodu - você está mudando algo sem uma boa razão. Se, após o teste, você perceber que há uma incompatibilidade de duplex ou velocidade ou erros excessivos na porta, envolva-se em outra solução de problemas e, finalmente, corrija a configuração, se necessário.
Quando você atualiza um driver ou substitui o hardware, não há garantias de que suas configurações serão mantidas no servidor.
Defina os dois lados do link para negociar ou corrija os dois lados. Quando você corrige as configurações de velocidade e duplex em alguns dispositivos, eles não anunciam mais seus recursos aos pares. Não sei o que o padrão Ethernet diz sobre o que fazer quando um lado anuncia recursos e o outro não, e isso provavelmente significa que muitos implementadores também não sabem. Alguns escolherão o denominador comum mais baixo, que é 10 vezes e outros assumirão que está tudo bem e escolherão a velocidade mais rápida possível.
Existem algumas peças de hardware contemporâneas que não oferecem suporte à negociação automática na Ethernet de cobre gigabit, como (pelo menos alguns) switches Cisco com SFPs de cobre.
fonte
Muitos anos atrás, passei algum tempo trabalhando para a 3com fazendo suporte técnico para praticamente todos os equipamentos de rede. É incrível a frequência com que esse problema surgiu e era praticamente um procedimento padrão definir tudo manualmente.
fonte
Eu tive muitos problemas com a negociação automática. Muitos, é claro, significa um a cada poucos meses, mas esse é um problema demais no meu livro.
É difícil encontrar problemas de negociação automática, principalmente quando as pessoas que lidam com rede, servidores, aplicativos e bancos de dados são quatro equipes diferentes. Geralmente, os dois últimos gastam muito tempo indo e voltando, acusando um ao outro de mau desempenho e mentindo sobre medições, e às vezes chutam isso para o pessoal do servidor, que analisará devidamente a saída de "top" e dirá que está tudo bem. bem com o servidor.
Isso continua até que o assunto evolua até o ponto em que um "especialista" (na verdade, alguém que é generalista e, assim, entenda redes, hardware, sistemas operacionais, bancos de dados, estruturas e aplicativos) seja designado ao problema e encontre o problema dentro de cinco ou dez minutos.
Portanto, minha regra geral, sempre que tenho a capacidade de fazer algo a respeito, é SEMPRE definir velocidades fixas em servidores de produção, comutadores e roteadores. Servidores que não sejam de produção também, se eles estiverem segregados o suficiente para que as pessoas que o usam não tenham acesso root.
Os comutadores que lidam com o acesso à área de trabalho / notebook podem ser deixados para negociação automática e há exceções à regra. Apenas para mencionar uma, se houver muitas mudanças acontecendo na rede, é melhor deixá-la no modo automático e ficar de olho nas coisas.
Outro ponto que pode ser útil, independentemente da escolha que você faça em relação à negociação automática , é monitorar a coisa. Basta configurar o Nagios ou o que você tem para ficar de olho no estado de qualquer porta importante. Você já está monitorando esse equipamento de rede, não é?
fonte
Áspero. Eu vi placas de rede de 100Mb 3com que não se conectariam a nada acima de 10Mb se você aumentasse a velocidade ou duplex. Você só conseguia velocidade máxima ao negociar automaticamente, mesmo que o driver tivesse configurações de 100Mb Full e 100Mb Half.
Muitos drivers de NIC não permitem especificar 1000Mb. As únicas opções são 10, 100, Auto. Mais uma vez, forçando-o a fazer o Auto, se você quiser velocidade máxima. por exemplo, o driver Broadcom netXtreme 57xx Gigabit se comporta dessa maneira.
Você pode facilmente forçar o Gigabit a mudar, mas acho que você será forçado a deixar a maioria das NICs negociar automaticamente.
fonte
Na minha experiência (principalmente equipamentos 3Com e HP, não muito Cisco), a negociação automática não causa muitos problemas.
Da mesma forma que mrdenny, normalmente coloco os servidores na velocidade mais rápida (ainda temos alguns a 100), full duplex e depois deixo o comutador em automático. Como temos uma mistura de velocidades nos servidores e nas estações de trabalho, prefiro deixar os comutadores no modo automático e deixá-los se adaptar ao ponto de extremidade.
fonte
Eu tive alguns problemas com a negociação automática em uma instalação doméstica e o problema era a fiação, em particular os cabos de rede enrolados em um loop com um diâmetro muito pequeno ou colocando-o muito perto dos cabos de energia.
Mas acho que essas sugestões são um pouco triviais para sua configuração. ;)
fonte
Recentemente, eu estava lendo sobre isso no Network Warrior de Gary Donahue. Com base neste manual, para que a negociação automática funcione corretamente, o comutador e a NIC devem estar configurados para negociação automática. Definir a NIC para um modo específico de velocidade e duplex e deixar o servidor na negociação automática não funcionará corretamente - a negociação automática é um protocolo e os dois lados precisam falar para que as configurações funcionem corretamente.
Se você deseja definir explicitamente a velocidade e o modo duplex, é necessário fazê-lo nas duas extremidades da conexão.
fonte
A Cisco discute alguns casos em que você pode configurar manualmente a velocidade da porta e o duplex, em vez de usar a negociação automática, ao usar dispositivos de segurança PIX / ASA: http://www.cisco.com/en/US/products/hw/vpndevc/ps2030/ products_tech_note09186a008009491c.shtml # solucionar problemas
fonte
Minha regra geral é usar a negociação automática para tudo, exceto os links do roteador, a menos que você tenha um problema específico (como placas Broadcom recentes ... BAH!)
Se você tiver dois roteadores conectados via Ethernet, por exemplo, defina manualmente a velocidade nas duas extremidades.
fonte