Interrupção irregular da Internet: certas imagens e JS não estão sendo carregados

11

primeira vez no ServerFault, e eu tenho um pequeno enigma.

Desde alguns meses, estamos tendo problemas com nossa conectividade com a Internet.

Meio Ambiente:

Servers: 2 Terminal Servers as an RDSFarm running Windows Server 2008 R2
Browser: Internet Explorer 9
Test/debug browser: Chrome
AntiVirus: Avast 7.0.1455

Problema:

Em intervalos irregulares, os sites se recusam a carregar, dando um erro dizendo que a página não estava acessível ou que algumas imagens não são carregadas completamente. Além disso, após a inspeção, os arquivos .js do servidor não são carregados.

insira a descrição da imagem aqui

Constatações e o que tentamos:

Primeira impressão:

Quando eu uso o Chrome durante esse intervalo, o site retorna um net :: Error 101 ou Error 103 após algumas atualizações. Em outros momentos, se não houver erro, várias imagens não serão visíveis e exibirão uma imagem X. O IE apenas diz que a página não pode ser exibida.

insira a descrição da imagem aqui

Usando as Ferramentas do desenvolvedor do Chrome:

Ele mostra no console que vários recursos não estão disponíveis, mas quando clico com o botão direito do mouse nas imagens ausentes e seleciono "Mostrar imagem", elas são exibidas. Quando abro as imagens via URL direto, elas também são exibidas.

insira a descrição da imagem aqui

Auditoria por meio das Ferramentas do desenvolvedor do Chrome:

Fiz uma auditoria em uma página quando ela estava no estado de buggy e descobri que alguns arquivos .js não carregavam junto com alguns arquivos .png, .jpg e .gif. Imagens diferentes são carregadas para o Chrome e o IE.

insira a descrição da imagem aqui insira a descrição da imagem aqui

Arquivos JS ofuscados e Avast:

Depois de verificar isso, descobri que a maioria desses arquivos .js é ofuscada por arquivos JS e, como estamos executando o Avast 7.0.1455, fiquei pensando se o Web Shield não estragaria tudo.

Então, novamente, isso está acontecendo apenas no primeiro TS, não no segundo.

Então, desliguei o WebShield por um dia e verifique se alguma coisa melhorou. Isso não aconteceu. De volta à estaca zero.

Nenhuma expiração de cache nos arquivos:

Vários desses arquivos que não estão sendo carregados foram indicados como sem validade de cache.

Armazenamento em cache:

Um de nossos administradores de sistema alterou o tamanho do cache do IE para 10 MB há algum tempo, o que eu pensei que poderia ter sido a fonte do problema. Ele mudou para 65 MB, mas ainda assim as pessoas têm problemas com suas imagens. Também acontece em 1 TS e também no Chrome, então não acho que a Diretiva de Grupo que dita esse cache afetaria o Chrome, não é?

insira a descrição da imagem aqui

Problema de rede: Eu também pensei que poderia ser um problema de rede ou roteamento, mas os dois servidores TS estão na mesma NIC agrupada e o outro está funcionando bem.

Socorro!

Se alguém tiver algumas dicas sobre onde procurar problemas ou precisar de mais informações, ajude-me. Isso me incomoda há semanas de servidor agora.

EDITAR E ATUALIZAR

O problema ainda persiste, e apenas em nossos 2 servidores de terminal.

Aqui está o que eu e um colega fizemos até agora:

  • Desligue o antivírus por um dia em um servidor para ver se isso não aconteceu. Problema ainda ocorreu.

  • Verificado o tamanho da MTU
    É a configuração padrão (esqueci o valor exato: P) Problema ainda ocorreu.

  • Atualizações instaladas do Windows, problema no IE10 ainda ocorreu.

  • Verificado se havia algum proxy.
    O AV coloca um proxy como o chamado WebShield. Desativamos o serviço e o programa em um servidor por um dia. Problema ainda ocorreu.

  • Reinstalou a equipe da NIC enquanto estava ficando bagunçada. (Também reinstalou os drivers da NIC) Problema ainda ocorreu.

  • Diretivas de grupo verificadas Aparentemente, nos dois servidores de terminal, havia uma política de máquina local que ativava o modo de preferência no IE, que tinha alguma personalização estranha. Desativou isso e ... Problema ainda ocorreu.

Agora, chegou ao ponto de as pessoas terem problemas para carregar e baixar arquivos do SharePoint, e muitos sites que estamos usando não estão funcionando devido a isso.

Hunches

Tem a ver com o WebShield que interrompe a conexão quando encontra algo peculiar, mas não deve acontecer quando o AV está desligado.

Pode ser que os redirecionamentos sejam confusos de alguma forma, ou há algo no cache. Estranho, porém, que o mesmo problema ocorra no Chrome e no IE9 e IE10.

Se alguém tiver alguma idéia, seria muito apreciada.

Agradeço a HopelessN00b por me ajudar!

ATUALIZAR:

Estamos recebendo alguns erros no Visualizador de eventos como este em um dos nossos TS originais:

Error: (04/04/2013 08:44:42 AM) (Source: Application Error) (User: )
Description: Faulting application name: iexplore.exe, version: 9.0.8112.16470, time stamp: 0x510c8801
Faulting module name: MSHTML.dll, version: 9.0.8112.16470, time stamp: 0x510c9046
Exception code: 0xc0000005
Fault offset: 0x002d0174
Faulting process id: 0x21728
Faulting application start time: 0xiexplore.exe0
Faulting application path: iexplore.exe1
Faulting module path: iexplore.exe2
Report Id: iexplore.exe3

E às vezes isso aparece, mas aparentemente isso é porque alguns terminais WYSE são muito antigos (substituindo-os pelos Raspberry Pi em breve).

Error: (04/04/2013 11:21:46 AM) (Source: TermDD) (User: )
Description: The Terminal Server security layer detected an error in the protocol stream and has disconnected the client.
Client IP: [IP REDACTED].

Espero que isto ajude.

blaa
fonte
1
Isso me lembra dos problemas que vimos de uma perspectiva completamente diferente, basicamente relacionada à configuração da MTU, em algum lugar o encapsulamento de pacotes não havia sido levado em consideração e os pacotes fragmentados não estavam sendo remontados adequadamente, portanto, algo maior que um único o pacote simplesmente não carregava .. se a página fosse https, nada carregaria.
21413 NickW
1
Não é um problema, eu tentaria executá-lo em algum lugar entre o TS e as máquinas que estão tendo problemas. Talvez o seu funcionário da rede possa espelhar a porta em que o TS está conectado (ou a máquina da qual você está testando) para poder colar uma máquina com o wireshark para ver o tráfego.
NickW
1
Sim, isso não deve causar muitos problemas.
NickW
1
BTW, você olhou em algo parecido com esse direito: community.spiceworks.com/topic/...
NickW
4
há duas coisas que eu tentaria quando isso acontecesse. Se for apenas o domínio e o JS, verifique as rotas para os servidores em que eles estão (o caminho é bem organizado) - pois, se são apenas alguns elementos, vale a pena descobrir o que é comum e por que eles falham. Há também uma pequena chance de seu um erro de configuração ISP - a minha casa ISP fez isso, e foi uma dor absoluta na bunda para rastrear, e foi fixado inteiramente aleatoriamente um dia
Journeyman Geek

Respostas:

0

Tente sem ligar as NICs. Configure apenas uma NIC e veja se as coisas ainda funcionam. Caso isso ocorra, verifique se a configuração da porta do switch e a configuração do Teaming estão alinhadas.

Grim76
fonte
Parece-me que isso deveria ser um comentário, e não uma resposta. Boa ideia, no entanto. Eu vi uma equipe defeituosa da NIC causar, muitas questões estranhas no meu tempo.
precisa
Ao reinstalar a equipe da NIC, tentamos executar sem uma equipe, em apenas uma NIC. Também não funcionou.
blaa
0

Para diagnosticar o problema sem uma mensagem de erro precisa, você precisa executar:

  • tcpdump no lado do cliente (o wireshark tem uma boa exibição)
  • tcpdump no lado do servidor (veja o que o servidor está realmente enviando).
  • aguarde o problema ocorrer
  • examine os pacotes e veja onde a comunicação está sendo interrompida. Se você precisar de ajuda para examinar o rastreio, grave-o em um arquivo.

Eu suspeito que você encontrará uma consulta DNS sem resposta. Se o seu ISP estiver filtrando seu tráfego por meio de um proxy, você poderá encontrar rastros dele no tráfego, principalmente comparando a captura do lado do servidor à captura do cliente.

Se houver um problema de qualidade da rede, você poderá observá-lo mais diretamente com o traceroute. Se o despejo de rede mostrar que as comunicações ocorreram sem problemas, mas o navegador não pode exibir os dados fornecidos, seu problema é engraçado na área de trabalho no servidor de terminal.

Você deve executar a captura de pacotes no servidor de terminal que está fazendo a conexão do navegador que não está funcionando.

Des Cent
fonte
0

Os problemas foram "resolvidos" pelo ISP. Todas as imagens e JS estão aparecendo normalmente agora por uma boa semana. O site externo que não pode ser acessado foi resolvido pelo ISP, colocando um proxy entre todos.

Infelizmente, a razão exata pela qual ou como isso aconteceu ainda permanece um mistério, mas é uma aposta segura que algo que meu provedor de Internet tenha mudado que fez o truque.

Obrigado a todos pelo apoio e, embora muitas respostas tenham sido muito úteis, não posso escolher uma delas para ser a correta, daí a minha.

Obrigado novamente por todo o seu tempo e esforço, e espero que ninguém mais tenha que lidar com essa estranheza de rede.

blaa
fonte
1
Eu estava esperando ver algo assim um dia!
NickW