RAM de modo espelhado: vale a pena?

18

Não estou familiarizado com o "Modo de canal espelhado" da Intel para uma configuração do servidor blade (seu banco de dados MySQL OLTP típico, moderadamente pesado, executando no blade bare metal; sem virtualização no momento).

Nos documentos da Intel, eu pude encontrar:

O processador Intel Xeon série 5500 e o processador Intel Xeon série 5600 oferecem suporte ao espelhamento de canal para configurar os canais disponíveis de DDR3 DIMMs na configuração espelhada. A configuração espelhada é uma imagem redundante da memória e pode continuar a operar, apesar da presença de erros incorrigíveis esporádicos. O espelhamento de canal é um recurso RAS no qual são mantidas duas imagens idênticas de dados da memória, proporcionando assim redundância máxima.

Nas placas para servidor Intel baseadas nos processadores Intel Xeon Processor série 5500 e Intel Xeon Processor série 5600, o espelhamento é obtido através dos canais. Os canais ativos mantêm a imagem principal e os outros canais mantêm a imagem secundária da memória do sistema. O controlador de memória integrado nos processadores Intel Xeon Processor série 5500 e Intel Xeon Processor série 5600 alterna entre os dois canais para transações de leitura. As transações de gravação são emitidas para os dois canais em circunstâncias normais.

No entanto, eu realmente não estou pegando o que eles estão deitado aqui. Perco metade da minha capacidade de armazenamento, mas ganho "redundância" de memória e ganho possível de benefícios de desempenho de leitura / gravação? Como RAID 1 para RAM? Alguém tem alguma experiência prática com essa configuração?

gravyface
fonte

Respostas:

7

Pessoalmente, eu usaria antes alguma forma de cluster, em vez do nível de resiliência de hardware. Faz sentido que componentes baratos, como discos, dobrem sobre eles, mas o espelhamento de memória é interessante, mas não tão útil. Quero dizer, o que é mais provável que falhe; uma CPU, seu sistema operacional, seu software, seu mobo, seu PSU / s. Eu colocaria o dinheiro mais cedo no cluster.

Chopper3
fonte
11
Penso exatamente: embora certamente seja útil para um ponto de falha muito específico, eu poderia marcar muito mais "caixas" de HA seguindo a rota de cluster com outro blade ou dois (e provavelmente outro chassi em outro data center).
gravyface
11
o agrupamento não o ajudará quando os cálculos tiverem de ser feitos dentro do cronograma ou dentro de um quadro. Em algumas situações, o failover leva mais tempo do que a operação necessária para ser executada
Jim B
7

"RAID 1 para RAM" é uma descrição precisa. Na minha experiência, não há muitos benefícios de desempenho, mas, dependendo da velocidade do barramento versus a velocidade dos módulos, sua milhagem pode variar.

No que diz respeito à redundância ... bem, não é muito terrível que um módulo fique ruim.

Pessoalmente, desativo o espelhamento sempre que o vejo ativado.

Shane Madden
fonte
2
obrigado Shane. Você já fez algum benchmarking antes / depois?
gravyface
@gravyface Não posso dizer que sim, infelizmente; só não percebi um desempenho discernível diferente on vs off (em servidores de banco de dados e hosts vm). Alguns números concretos definitivamente seriam bons.
Shane Madden
2
Vou fazer alguns benchmarks então. Veja se isso faz diferença. Não posso dizer que o benefício de correção de erros parece um benefício tangível, mas estou curioso para ver como ele se sai. Vou esperar alguns dias por algumas respostas adicionais e marcar isso como correto.
gravyface
Vejo dimms ir mal failrly regualarly, no entanto, dado o tamanho do ambiente que eu deveria ver um DIMM cada 2 semanas (estatisticamente falando)
Jim B
4

Eu li que esse tipo de coisa (você também pode fazer isso com CPUs) é muito útil nos enormes clusters de supercomputadores.

Alguns desses clusters estão executando tantas máquinas que haverá uma falha na máquina a cada duas horas. Mais rápido que os trabalhos podem ser concluídos. Isso realmente atrapalha a computação. Adicionar redundância como essa a cada nó pode mais que dobrar o tempo entre falhas.

Zan Lynx
fonte
então esse é um material de alta qualidade que agora chega ao mainstream, eu entendo. Não estou vendo muito valor para minhas necessidades. Obrigado embora.
gravyface
Sim, é de ponta. Espere até você obter CPU's hot plug AND CPU MIRRORING (!) Em um PC;) Os mainframes podem mudar para outro processador quando um falhar.
TomTom
3

Esse modo de memória foi realmente projetado para situações em que você precisa de alta disponibilidade. Você não deve ver muita diferença de desempenho (já que a perda de um canal provavelmente não é perceptível em operações normais), no entanto, você perde bastante memória RAM. Com o espelhamento ativado, apenas um terço da memória total está disponível para uso porque dois slots DIMM são o canal principal, dois slots DIMM são o canal de backup e dois slots DIMM não são usados. (pelo menos é assim nas IBMs)

Normalmente, recomendo que seja desativado (se você tiver um aplicativo ou sistema operacional que goste de ram - e convenhamos: existe um que não goste?) Ou economize para atualizar para o chipset ex5 da IBM (hp e outros em breve a seguir com ofertas semelhantes) que adicionam um barco a mais QPI.

Ocasionalmente, "esse servidor precisa ser ativado, independentemente do número de disparos disparados", e esse tipo de redundância ajuda. Além disso, se você comprou menos do que um RAM de qualidade estelar, isso pode salvá-lo de uma tela azul ou 2.

Jim B
fonte
Sim, não vejo muita necessidade disso agora. Obviamente, ninguém gosta de tempo de inatividade, mas quando abordarmos a HA, veremos certamente o clustering.
gravyface
11
isso em resposta ao seu "veja um DIMM ruim a cada duas semanas" - com que frequência você vê DIMMs ruins após o período de carência? Não me lembro de ter tido RAM ruim uma vez em produção; Normalmente, noto nas primeiras horas / dias sob carga de trabalho típica.
gravyface
Nossos resultados refletem a taxa que o google vê em cs.toronto.edu/~bianca/papers/sigmetrics09.pdf . Também configuramos servidores - placas totalmente preenchidas com muitos dimms e aplicativos que consomem muita memória. Ao analisar um dos meus ambientes de vmware, vejo 3 dimms ruins em 18 hs22vs IBM (324 dimms) totalmente preenchidos Esses servidores estão em funcionamento há cerca de um ano.
Jim B