Testes de RAM inconsistentemente - qual é o culpado mais provável? (ou seja, o que devo gastar dinheiro na substituição)

20
  • Placa-mãe: GA-B85M-DS3H-A
  • CPU: Core i5 4430
  • Memória RAM: PNY XLR8 DDR3 32GB (4x8GB) 1600MHz (MD32768K4D3-1600-X9)
  • PSU: EVGA 500 W1 80+

O problema

Com todos os 32 GB de RAM instalados, o sistema falha no MemTest86 + 6.2 de forma consistente. A falha sempre ocorre durante a primeira passagem e os erros aumentam rapidamente para milhões de erros. Tentar executar o Windows resulta em reinicializações aleatórias e erros de parada (como seria de esperar com erros de RAM).

O que eu tentei

  • Teste um único módulo PNY de 8 GB no soquete DIMM1. Conclui com êxito 4 passagens do MemTest.
  • Teste um único módulo PNY de 8 GB no soquete DIMM2. Conclui com êxito 4 passagens do MemTest.
  • Teste um único módulo PNY de 8 GB no soquete DIMM3. Conclui com êxito 4 passagens do MemTest.
  • Teste um único módulo PNY de 8 GB no soquete DIMM4. Conclui com êxito 4 passagens do MemTest.
  • Teste todos os quatro DIMMs PNY de 8 GB separadamente, individualmente, no soquete DIMM1. Todos os módulos concluem com êxito 4 passagens do MemTest.
  • Teste dois módulos PNY de 8 GB nos soquetes DIMM1 e DIMM2. Conclui com êxito 4 passagens do MemTest.
  • Teste dois módulos PNY de 8 GB nos soquetes DIMM3 e DIMM4. Conclui com êxito 4 passagens do MemTest.
  • Teste a placa-mãe com quatro DIMMs de 2 GB em bom estado em todos os soquetes. Conclui com êxito 4 passagens do MemTest.
  • Troque a ordem dos DIMMs PNY nos soquetes. Nenhuma alteração - os erros do MemTest ainda ocorrem.
  • Aumente a tensão da RAM da placa-mãe de 1.5v para 1.65V. Nenhuma alteração - os erros do MemTest ainda ocorrem.
  • Jogue com várias combinações das configurações manuais da RAM no utilitário de configuração - ativando / desativando o perfil XMP, definindo a predefinição de "maior estabilidade", etc. Nenhuma alteração, os erros do MemTest ainda ocorrem.

Eu acho que posso descartar com segurança RAM ruim e soquetes de RAM ruins. A única vez que os testes do MemTest falham é se todos os quatro módulos de 8 GB forem instalados simultaneamente.

Eu medi tensões saindo da fonte de alimentação e tudo parece estável mesmo com os quatro mancais instalados.

Enquanto escrevo isso, tentei uma opção de último recurso de reduzir manualmente a velocidade da RAM para 1066MHz no BIOS. Até agora, o MemTest concluiu uma passagem e está na segunda sem erros. (Todos os testes acima foram realizados na velocidade de RAM nativa de 1600 MHz.) Isso pode me permitir usar o sistema, embora com velocidades de RAM um pouco mais lentas, mas isso não parece ser uma correção permanente.

Sempre que ocorrem erros do MemTest, eles sempre ocorrem na mesma posição exata no barramento de endereço de 64 bits:

Bit Error Mask: 00000000FF000000

Além disso, NUNCA ocorrem erros abaixo da barreira de 4 GB. Em outras palavras, todos os erros ocorrem no espaço de endereço entre 4 GB e 32 GB.

Estou deduzindo que isso seja algum tipo de problema estranho de interação ou tempo com a CPU, a RAM e a placa-mãe, uma vez que os erros são muito consistentes, ocorrem apenas em uma configuração específica e parecem atenuados, diminuindo a velocidade da RAM e somente ocorrem acima da barreira de 4 GB. Minha pergunta é: É mais provável que minha CPU ou minha placa mãe seja a culpada?

Eu pretendia atualizar esta máquina para um Core i7-4790K, portanto, se a CPU for a provável culpada (eu sei que o controlador de memória está na CPU nesses modelos mais recentes), funcionará bem porque estou planejando atualizar de qualquer maneira, mas estou me perguntando se há uma chance de a própria placa-mãe também fazer parte do problema. ou seja, eu não gostaria de gastar o dinheiro na CPU i7 apenas para experimentar exatamente o mesmo problema e descobrir que também tenho que substituir a placa-mãe ...

Conselhos?


EDIT: A velocidade mais lenta da RAM ainda produziu erros, mas apenas quando o teste atingiu a terceira passagem. Reiniciei o teste com apenas uma CPU ativa apenas para testar uma interação na própria CPU.

fdmillion
fonte
A única maneira de confirmar se é memória, mobo ou cpu é testar o ram em outro sistema compatível.
Moab
2
Se o problema não se mover quando você move chips de RAM, a placa-mãe é lançada.
27716 Joshua
11
Quando você estiver executando essa memória em modo duplo ou com 4 módulos (8g), você poderá retirá-lo do SPD (automático) e ajustar os tempos um pouco e fazê-lo funcionar. digamos que seja 10,11,10,24, ajuste-o para 11,12,11,32 e teste assim. (sim, isso é suposição) Se isso funcionar 100% sem parar, é menos provável que seja um problema de calor ou um problema na placa-mãe. Pessoas com módulos 4x8gig tiveram problemas que você descreveu antes, se houver suporte à regulação de tensão e a CPU não tiver pinos dobrados, pode ser uma maneira de fazer com que as coisas que não estão na lista de compatibilidade funcionem. então teste isso e volte para nós.
Psycogeek 27/03
2
"A velocidade mais lenta da RAM ainda produziu erros, mas apenas uma vez que o teste atingiu a terceira passagem" Durante alguma dessas etapas, você está tomando medidas extras para testar o resfriamento do carneiro? Mesmo um ventilador temporário adicionado ou ventilador externo movendo o ar através do aríete e suas regulações de voltagem cursam coisas, poderia testar se o calor é um dos problemas.
Psycogeek 27/03
@Psycogeek +1 por sugerir uma modificação de tempo. Alguns módulos de RAM não funcionam bem com os outros no que diz respeito aos tempos (até a mesma marca ou tipo de módulo). Eu tive um problema semelhante ao OP e resolvi definindo horários manualmente.
Amziraro 27/03

Respostas:

18

Isso não parece que nenhum componente esteja com defeito; você está usando uma combinação incompatível.

Ter vários soquetes no mesmo barramento de memória preenchido aumenta a capacitância em cada linha de dados e diminui o tempo de subida, o que pode fazer com que as transições cheguem tarde e sejam mal detectadas. Esse fenômeno é conhecido pelos engenheiros elétricos como "fan-out".

Isso é ainda mais complicado devido à abertura interna do módulo de memória. O número e a topologia dos dispositivos DRAM no módulo, chamados "rank", afetarão quantos módulos você poderá conectar com êxito em paralelo.

As placas-mãe de servidor que suportam muitos soquetes de memória, na verdade, requerem memória em buffer, que usa uma rede em cascata de buffers para limitar a fan-out (e, portanto, a capacitância) vista por cada um. Há um atraso causado pelos próprios buffers, mas apenas aumenta logaritmicamente com o número de cargas, enquanto que, para a memória sem buffer, a capacitância aumenta linearmente.

A Wikipedia discute isso: https://en.wikipedia.org/wiki/Memory_rank

Alguns manuais da placa-mãe chamam esse tipo de coisa. Para outros, você pode deduzir as informações das listas de compatibilidade de RAM. Como exemplo, a placa-mãe ASUS Z170-A mostra que o ranking duplo (chamado DS = frente e verso no manual) só pode ser usado em dois slots ao mesmo tempo nessa placa, em oposição à capacidade de usar quatro DIMMs de classificação única ao mesmo tempo .

insira a descrição da imagem aqui

Ben Voigt
fonte
Supondo que essa seja a causa do problema, ajudaria a desativar o SPD e ajustar as configurações de temporização um pouco mais devagar para compensar os tempos de subida / queda mais lentos?
brhans
11
Não tenho certeza se isso está realmente correto. Os processadores Consumer Haswell geralmente oferecem suporte a quatro níveis de memória por canal, o que é suficiente para permitir quatro módulos de dois lados em dois canais de memória. Por que esse seria o problema? Isso também não parece explicar o fato de que os problemas só acontecem acima da barreira de 4 GB. Além disso, o manual da placa - mãe afirma que o chipset B85 subjacente suporta 32 GB de memória e não menciona nenhuma limitação quanto ao número de classificações de memória.
bwDraco
2
@bwDraco: Embora o controlador de memória esteja na CPU, a placa-mãe também é importante. O layout da placa de circuito impresso pode afetá-lo, a correspondência subótima do comprimento diminuirá a margem da fase nos sinais (é também por isso que os erros se correlacionam com certos bytes ou posições de bits). O fato de o manual da placa-mãe não falar sobre classificações não significa que todas as combinações são suportadas, apenas significa que é um manual de porcaria que não entra em detalhes.
Ben Voigt
11
@brhans: Não são os parâmetros de tempo que importam, mas a frequência do clock da memória, porque o problema está na transferência entre a CPU e os DIMMs, não internos à DRAM. O SPD geralmente possui um número de perfis correspondentes a diferentes frequências de clock; escolher um diferente seria melhor do que ir totalmente manual.
Ben Voigt
11
Definitivamente, parece um problema de integridade do sinal da placa-mãe. Os módulos maiores podem ter maior capacitância por pino do que os módulos menores, especialmente se os módulos forem de classificação dupla. Isso pode causar exatamente esse problema quando você preencher completamente as fileiras. É possível que um módulo tenha mais de uma classificação. Portanto, quatro fileiras por canal poderiam facilmente ser dois módulos de alta densidade com classificação dupla. Isso pode ser exacerbado pelas características elétricas e roteamento dos traços na placa-mãe. Minha sugestão: tente outra placa-mãe.
28916 alex.forencich
9

Isso soa como um problema no controlador de memória integrado do processador .

Nos sistemas modernos, as placas-mãe não desempenham realmente um papel no gerenciamento de memória, além de apenas fornecer um caminho entre os módulos de memória e o processador. A memória está diretamente conectada ao processador para minimizar a latência; a " ponte norte " que conecta a memória ao processador em sistemas mais antigos agora faz parte do próprio processador. (O firmware ou PCH pode controlar como o processador executa a RAM, mas não faz sentido causar erros de bits do tipo que você descreve, pois é de responsabilidade do processador.) Portanto, a primeira coisa que eu faço ' suspeite que, em uma situação como esta, um IMC com defeito.

Na verdade, eu ficaria muito surpreso se a placa-mãe ou o firmware do sistema fosse responsável pelos problemas que você está enfrentando.

bwDraco
fonte
Que tal um pino dobrado?
Michael Hampton
6
@ Michael: Um pino dobrado resultaria em falhas no teste de módulos individuais também.
Ben Voigt
4

Vejo alguns comentários ruins para o BIOS nessa placa-mãe. Eu começaria verificando uma atualização do BIOS. Nunca economize na placa-mãe.

Atoadaso
fonte
BIOS está atual. É certo que a RAM não está na lista "qualificada", mas possui os mesmos tempos de muitos outros módulos listados lá.
Fdmillion 27/03/16
Gostaria de substituir a placa-mãe então. Ele não precisa estar no topo da linha, basta começar com uma faixa de preço que você pode pagar e procurar os que têm mais comentários (leia-os também). Aqueles com a maior base de usuários têm muito mais probabilidade de ter suporte a longo prazo para atualizações de BIOS e chipset.
Atoadaso 27/03
Você verificou se essa placa-mãe é capaz de lidar com 32 GB de memória de uma só vez corretamente? Além disso, você pode encontrar o chip do gerenciador de memória na placa-mãe e verificar a quantidade de memória esperada para poder manipular corretamente.
milesrf
1

É possível que a RAM também esteja com defeito, mesmo que não pareça. Eu tive um problema recente com meu servidor doméstico envolvendo um acidente fatal com um chá gelado ...

Passei por todo o processo de substituição de cada parte individualmente (2 CPUs, mobo, powersupply e 2 bancos de 16 GB (2x8GB) de RAM) e tudo testou bem quando usei um único banco de RAM por uma única CPU (exceto por 1 CPU que foi torrada).

Não importava qual configuração eu usava, sempre funcionava quando eu tinha uma única CPU e banco de RAM (se eram 16 GB ou 32 GB de RAM), mas quando eu colocava a 2ª CPU e dividia a RAM para 16 GB por banco, o servidor falhou ao inicializar.

Não foi até eu substituir um banco de RAM completamente que ele finalmente inicializou e funcionou corretamente, e tem sido desde então.

tl; dr : Como o @moab afirmou em seu comentário, você nunca pode ter certeza até testar todos os componentes em um sistema compatível

Taegost
fonte