Alguém sabe sobre estatísticas ou estudos sobre a frequência com que os computadores têm RAM com defeito?
Atualização: Meu computador está bem! Não tenho problemas de RAM, estou interessado nas estatísticas. Eu recebo relatórios de erros do meu software cuja causa pode estar com defeito no RAM do computador do usuário e gostaria de saber qual é a probabilidade disso.
Obrigado!
Carl
Respostas:
Em uma população de máquinas da classe 36 do servidor, vejo uma falha corrigível detectada pelos circuitos do ECC uma vez a cada 3 meses.
Se você suspeitar de falha na memória, deve executar
memtest86
, que vem incluído em quase todas as distribuições populares de linux atualmente.fonte
Das taxas de erro DRAM de Robin Harris : Pesadelo na rua DIMM :
Harris cita um estudo realizado ao longo de 2,5 anos na frota de servidores do Google . Observe que os servidores geralmente usam a RAM do EEC, que executa alguma correção de erro. Os computadores no nível do consumidor geralmente não têm isso.
Berke Durak, da Lambda Diode, calcula :
Não vou rir da próxima vez que um colega disser "raio cósmico" quando não conseguirmos identificar a causa de um acidente ...
fonte
Você pode inicializar o computador com o memtest86 + e executar uma verificação durante a noite. É assim que eu encontro problemas.
Sim, eu vi pedaços de memória ficarem ruins onde eles apenas falhariam com um padrão específico de gravação de memória. O BIOS do computador não detectou o problema, mas o memtest86 o encontrou durante a noite.
Eu vi duas barras de RAM com defeito em cerca de cinquenta computadores que usei nos últimos dez anos. Isso acontece, mas não com frequência.
fonte
Você pode dar uma olhada neste estudo do Google :
Mas eles estão falando sobre a RAM do ECC, e não sobre a RAM do usuário todos os dias
fonte
Vi vários módulos de memória falharem totalmente em servidores operacionais na última década e um número um pouco maior de falhas ao gravar o Memtest86 em testes em hardware recém-entregue. Estes são sistemas de servidor, quase todos com memória ECC de um tipo ou de outro, portanto, esperaria problemas muito mais frequentes em sistemas clientes com RAM sem correção de erros. No entanto, não tenho um grande conjunto de amostras para trabalhar, temos algumas dezenas de servidores próprios e, em termos de comissionamento de sistemas de clientes, eu diria que já trabalhei em cerca de cem em um nível em que eu ' eu realmente estaria prestando atenção na RAM.
No lado do cliente, tenho um pouco mais de experiência em escala corporativa - fui engenheiro sênior de um grupo que gerenciava PCs com 50k de usuários finais há alguns anos e nunca vimos falhas de disco rígido ou RAM como um problema significativo, certamente não era. algo que afetou qualquer porcentagem mensurável de sistemas. Isso não quer dizer que não aconteceu, apenas que eu ficaria muito surpreso se fosse um problema que afetasse mais de 1% dos desktops e notebooks de classe empresarial. Alguns modelos específicos demonstrariam taxas de falha realmente altas relacionadas ao controle de qualidade, o primeiro lote do IBM Thinkpad T30 teve um problema com seu segundo slot DIMM, o que nos levou a reparar e substituir alguns milhares de máquinas em determinado momento.
Esta publicação no blog de Larry Osterman, da Microsoft, de 2005, pode dar uma explicação possível para alguns deles - sua análise de alguns erros estranhos relatados no conjunto de dados bastante grande que vem do Relatório de Erros do Windows indica que muitos desses problemas estranhos são causados por relógio. Se é provável que um número significativo de usuários finais esteja usando o kit de nível de consumidor com overclock, isso pode estar relacionado aos seus erros.
fonte
Você tem a opção de usar 'memória espelhada' em seu sistema - isso informaria se você tem problemas de memória ou não - com isso, há MUITO menos chance de que algum erro seja devido a problemas de memória física.
fonte
Se você estiver executando o Linux:
Se você não deseja reiniciar o memtest86 +, poderá obter alguns resultados executando o memtester para testar a memória para descobrir se está com defeito ou não. Realiza um trabalho realisticamente bom para encontrar as falhas irregulares, assim como as falhas não determinísticas. Ele possui vários testes para detectar o limite da memória e produz um relatório detalhado das falhas localizadas, os testes executados e o tempo necessário para encontrar as falhas no computador. Não é necessário reiniciar, você pode executá-lo em um sistema Linux em execução.
Não encontrei nenhum link para o aplicativo, mas aqui estão as informações do pacote debian :
fonte