- Placa-mãe: GA-B85M-DS3H-A
- CPU: Core i5 4430
- Memória RAM: PNY XLR8 DDR3 32GB (4x8GB) 1600MHz (MD32768K4D3-1600-X9)
- PSU: EVGA 500 W1 80+
O problema
Com todos os 32 GB de RAM instalados, o sistema falha no MemTest86 + 6.2 de forma consistente. A falha sempre ocorre durante a primeira passagem e os erros aumentam rapidamente para milhões de erros. Tentar executar o Windows resulta em reinicializações aleatórias e erros de parada (como seria de esperar com erros de RAM).
O que eu tentei
- Teste um único módulo PNY de 8 GB no soquete DIMM1. Conclui com êxito 4 passagens do MemTest.
- Teste um único módulo PNY de 8 GB no soquete DIMM2. Conclui com êxito 4 passagens do MemTest.
- Teste um único módulo PNY de 8 GB no soquete DIMM3. Conclui com êxito 4 passagens do MemTest.
- Teste um único módulo PNY de 8 GB no soquete DIMM4. Conclui com êxito 4 passagens do MemTest.
- Teste todos os quatro DIMMs PNY de 8 GB separadamente, individualmente, no soquete DIMM1. Todos os módulos concluem com êxito 4 passagens do MemTest.
- Teste dois módulos PNY de 8 GB nos soquetes DIMM1 e DIMM2. Conclui com êxito 4 passagens do MemTest.
- Teste dois módulos PNY de 8 GB nos soquetes DIMM3 e DIMM4. Conclui com êxito 4 passagens do MemTest.
- Teste a placa-mãe com quatro DIMMs de 2 GB em bom estado em todos os soquetes. Conclui com êxito 4 passagens do MemTest.
- Troque a ordem dos DIMMs PNY nos soquetes. Nenhuma alteração - os erros do MemTest ainda ocorrem.
- Aumente a tensão da RAM da placa-mãe de 1.5v para 1.65V. Nenhuma alteração - os erros do MemTest ainda ocorrem.
- Jogue com várias combinações das configurações manuais da RAM no utilitário de configuração - ativando / desativando o perfil XMP, definindo a predefinição de "maior estabilidade", etc. Nenhuma alteração, os erros do MemTest ainda ocorrem.
Eu acho que posso descartar com segurança RAM ruim e soquetes de RAM ruins. A única vez que os testes do MemTest falham é se todos os quatro módulos de 8 GB forem instalados simultaneamente.
Eu medi tensões saindo da fonte de alimentação e tudo parece estável mesmo com os quatro mancais instalados.
Enquanto escrevo isso, tentei uma opção de último recurso de reduzir manualmente a velocidade da RAM para 1066MHz no BIOS. Até agora, o MemTest concluiu uma passagem e está na segunda sem erros. (Todos os testes acima foram realizados na velocidade de RAM nativa de 1600 MHz.) Isso pode me permitir usar o sistema, embora com velocidades de RAM um pouco mais lentas, mas isso não parece ser uma correção permanente.
Sempre que ocorrem erros do MemTest, eles sempre ocorrem na mesma posição exata no barramento de endereço de 64 bits:
Bit Error Mask: 00000000FF000000
Além disso, NUNCA ocorrem erros abaixo da barreira de 4 GB. Em outras palavras, todos os erros ocorrem no espaço de endereço entre 4 GB e 32 GB.
Estou deduzindo que isso seja algum tipo de problema estranho de interação ou tempo com a CPU, a RAM e a placa-mãe, uma vez que os erros são muito consistentes, ocorrem apenas em uma configuração específica e parecem atenuados, diminuindo a velocidade da RAM e somente ocorrem acima da barreira de 4 GB. Minha pergunta é: É mais provável que minha CPU ou minha placa mãe seja a culpada?
Eu pretendia atualizar esta máquina para um Core i7-4790K, portanto, se a CPU for a provável culpada (eu sei que o controlador de memória está na CPU nesses modelos mais recentes), funcionará bem porque estou planejando atualizar de qualquer maneira, mas estou me perguntando se há uma chance de a própria placa-mãe também fazer parte do problema. ou seja, eu não gostaria de gastar o dinheiro na CPU i7 apenas para experimentar exatamente o mesmo problema e descobrir que também tenho que substituir a placa-mãe ...
Conselhos?
EDIT: A velocidade mais lenta da RAM ainda produziu erros, mas apenas quando o teste atingiu a terceira passagem. Reiniciei o teste com apenas uma CPU ativa apenas para testar uma interação na própria CPU.
fonte
Respostas:
Isso não parece que nenhum componente esteja com defeito; você está usando uma combinação incompatível.
Ter vários soquetes no mesmo barramento de memória preenchido aumenta a capacitância em cada linha de dados e diminui o tempo de subida, o que pode fazer com que as transições cheguem tarde e sejam mal detectadas. Esse fenômeno é conhecido pelos engenheiros elétricos como "fan-out".
Isso é ainda mais complicado devido à abertura interna do módulo de memória. O número e a topologia dos dispositivos DRAM no módulo, chamados "rank", afetarão quantos módulos você poderá conectar com êxito em paralelo.
As placas-mãe de servidor que suportam muitos soquetes de memória, na verdade, requerem memória em buffer, que usa uma rede em cascata de buffers para limitar a fan-out (e, portanto, a capacitância) vista por cada um. Há um atraso causado pelos próprios buffers, mas apenas aumenta logaritmicamente com o número de cargas, enquanto que, para a memória sem buffer, a capacitância aumenta linearmente.
A Wikipedia discute isso: https://en.wikipedia.org/wiki/Memory_rank
Alguns manuais da placa-mãe chamam esse tipo de coisa. Para outros, você pode deduzir as informações das listas de compatibilidade de RAM. Como exemplo, a placa-mãe ASUS Z170-A mostra que o ranking duplo (chamado DS = frente e verso no manual) só pode ser usado em dois slots ao mesmo tempo nessa placa, em oposição à capacidade de usar quatro DIMMs de classificação única ao mesmo tempo .
fonte
Isso soa como um problema no controlador de memória integrado do processador .
Nos sistemas modernos, as placas-mãe não desempenham realmente um papel no gerenciamento de memória, além de apenas fornecer um caminho entre os módulos de memória e o processador. A memória está diretamente conectada ao processador para minimizar a latência; a " ponte norte " que conecta a memória ao processador em sistemas mais antigos agora faz parte do próprio processador. (O firmware ou PCH pode controlar como o processador executa a RAM, mas não faz sentido causar erros de bits do tipo que você descreve, pois é de responsabilidade do processador.) Portanto, a primeira coisa que eu faço ' suspeite que, em uma situação como esta, um IMC com defeito.
Na verdade, eu ficaria muito surpreso se a placa-mãe ou o firmware do sistema fosse responsável pelos problemas que você está enfrentando.
fonte
Vejo alguns comentários ruins para o BIOS nessa placa-mãe. Eu começaria verificando uma atualização do BIOS. Nunca economize na placa-mãe.
fonte
É possível que a RAM também esteja com defeito, mesmo que não pareça. Eu tive um problema recente com meu servidor doméstico envolvendo um acidente fatal com um chá gelado ...
Passei por todo o processo de substituição de cada parte individualmente (2 CPUs, mobo, powersupply e 2 bancos de 16 GB (2x8GB) de RAM) e tudo testou bem quando usei um único banco de RAM por uma única CPU (exceto por 1 CPU que foi torrada).
Não importava qual configuração eu usava, sempre funcionava quando eu tinha uma única CPU e banco de RAM (se eram 16 GB ou 32 GB de RAM), mas quando eu colocava a 2ª CPU e dividia a RAM para 16 GB por banco, o servidor falhou ao inicializar.
Não foi até eu substituir um banco de RAM completamente que ele finalmente inicializou e funcionou corretamente, e tem sido desde então.
tl; dr : Como o @moab afirmou em seu comentário, você nunca pode ter certeza até testar todos os componentes em um sistema compatível
fonte