Devo usar "Raid 5 + spare" ou "Raid 6"?

12

O que é "Raid 5 + Spare" (excerto do Manual do Usuário, Seção 4.17.2, P.54 ):

RAID5 + Spare: RAID 5 + Spare é uma matriz RAID 5 na qual um disco é usado como sobressalente para reconstruir o sistema assim que um disco falhar (Fig. 79). São necessários pelo menos quatro discos. Se um disco físico falhar, os dados permanecerão disponíveis porque são lidos nos blocos de paridade. Os dados de um disco com falha são reconstruídos no disco sobressalente. Quando um disco com falha é substituído, a substituição se torna o novo hot spare. Nenhum dado é perdido no caso de uma única falha no disco, mas se um segundo disco falhar antes que o sistema possa reconstruir os dados para o hot spare, todos os dados na matriz serão perdidos.


O que é "Raid 6" (excerto do Manual do Usuário, Seção 4.17.2, P.54 ):

RAID6: No RAID 6, os dados são distribuídos em todos os discos (mínimo de quatro) e dois blocos de paridade para cada bloco de dados (p e q na Figura 80) são gravados na mesma faixa. Se um disco físico falhar, os dados do disco com falha poderão ser reconstruídos em um disco de substituição. Este modo Raid pode suportar até duas falhas de disco sem perda de dados. O RAID 6 fornece uma reconstrução mais rápida de dados de um disco com falha.


"Raid 5 + spare" e "Raid 6" são tão parecidos ... Não sei dizer a diferença.

Quando o "Raid 5 + Spare" seria o ideal?

E quando "Raid 6" seria o ideal?

O manual embaraça o ataque diferente com 5 classificações de estrelas. "Raid 5 + Spare" recebe apenas 4 estrelas, mas "Raid 6" recebe 5 estrelas. Se eu confiasse cegamente no manual, concluiria que "Raid 6" é sempre melhor. "Raid 6" é sempre melhor?

Trevor Boyd Smith
fonte
1
ServerFault tem uma boa discussão sobre isso.
18710 Brian As
1
O que quer que você acabe fazendo, invada apenas com um controlador de invasão, não com o controlador interno que acompanha o seu mobo. Se o seu mobo sair, você está pedindo problemas.
sound2man
O ataque está sendo interrompido por um controlador de hardware (lol, eu ouvi muitas coisas contra controladores de ataque de software).
Trevor Boyd Smith

Respostas:

17

Em resumo:

  • Se a segurança é sua principal preocupação, vá com o RAID6, pois ele pode sobreviver a qualquer uma das duas unidades que falham ao mesmo tempo. Se uma unidade falhar em um arranjo sobressalente do R5 +, você não estará seguro de outra falha até que a reposição seja atualizada, o que pode levar algum tempo com unidades grandes (e isso não é inédito para uma unidade que foi desligada por eras, como o seu de reposição, falhar ao girar quando finalmente for chamado).

  • Se o desempenho for superior, use 5 ou mais sobressalentes, pois o desempenho de gravação será melhor quando a matriz não estiver em um estado degradado - embora a diferença de desempenho entre R5 e R6 seja significativamente menor que a diferença entre R5 e outras soluções, se você tiver um bom controlador (isto é, uma vez que faz uma operação de gravação de bloco parcial "duas / três leituras simultâneas e depois a paridade calcula, em seguida, duas / três gravações simultâneas" na maioria das vezes em vez de "ler e ler (e depois ler) e depois paridade -calc-then-write-then-write (-then-write) ", que é o que alguns controladores e softwares RAID mais baratos podem fazer.

Edit: Eu perdi um ponto potencialmente importante na primeira vez:

  • Se o consumo de energia for uma preocupação, o R5 + spare terá uma vantagem extra se o seu controlador manter a unidade sobressalente desligada até que seja necessário.
David Spillett
fonte
Muito bem escrito / conciso. (Indica os prós / contras óbvios nas duas primeiras palavras de cada ponto ... muito, muito bom).
Trevor Boyd Smith
Eu seria curioso para saber quando, ou nunca, o consumo de energia de uma única unidade extra é realmente vai ser uma "preocupação" em relação a tudo o mais no centro de dados / sala de servidor / etc
Warren
Uma única unidade em uma única máquina, provavelmente não. Mas no colo onde você obtém X-amperes por rack e paga muito por qualquer excesso (ou excesso simplesmente não é permitido - às vezes, se você passar por cima, fica escuro), pode ser perceptível. A energia "consumida" também é um golpe duplo: é convertida em ruído e calor e você acaba precisando de mais energia para afastar o calor. E para uma gaiola inteira ou um conjunto maior de kits, o consumo total de uma unidade extra por unidade de computação logo adiciona algo que um contador suficientemente exigente pode perceber.
David Spillett
7

RAID 5 + hot spare:

  • em hardware igual ao do controlador, melhor desempenho que RAID 6
  • você não pode perder 2 discos ao mesmo tempo . quando você perde um disco, há um tempo de reconstrução (com o hot spare) no qual você não tem redundância . Qualquer coisa que falhe nesse momento cria uma perda completa ( exceto enviar tudo para uma boa empresa de resgate de dados e pagar realmente $$$$)

RAID 6:

  • desempenho pior que o RAID 5 (dependendo do controlador, pode variar de muito perceptível a praticamente nenhuma diferença)
  • você pode perder 2 discos ao mesmo tempo

Para qualquer RAID 5 ou 6, você deve ter cuidado ao usar discos que não são da mesma execução de produção. Pode acontecer (eu já vi!) Que, após uma única falha ao reconstruir, o (s) próximo (s) disco (s) falham devido ao aumento do estresse. Os discos da mesma execução têm exatamente o mesmo firmware e provavelmente propriedades físicas muito semelhantes.

Editar: O que escolher

(Isso também depende dos requisitos de desempenho do servidor e do risco tolerável.)

Se o ambiente dos servidores for bastante agradável para hardware (climatizado, climatizado etc.), você estará bem com o hot spare RAID5 +.

Se o ambiente aumentar a probabilidade de mais de um disco falhar em pouco tempo (vibrações, umidade, sujeira), vá para o RAID 6.

Sempre tenha também um backup e recuperação de teste adequados .

Edição 2: Controladores RAID decentes têm limpeza , que verifica periodicamente todos os setores.

knitti
fonte
+1 para "ter uma recuperação de backup e teste adequada". Essa é a PRIMEIRA coisa que todo mundo deveria ter antes de começar a se preocupar com os níveis de RAID.
Warren
3

O RAID5 usa uma faixa de paridade. É necessário calcular a correção de erros de Reed Solomon e escrever duas faixas para RAID6 vs. uma para RAID5. O RAID5 é usado para aplicativos de banco de dados intensos, onde o armazenamento é enorme por causa do custo do RAID10. O custo do RAID5 varia de 67% a 94% da disponibilidade do disco, onde o RAID10 é de 50% (custos de armazenamento muito mais altos). Embora o RAID6 tenha uma latência de leitura menor em uma quantidade muito pequena devido à latência de rotação, o RAID6 é entre 25 e 31% mais lento nas gravações devido a o cálculo da correção de erros e a gravação adicional do bit de paridade.

Usando o tempo médio entre falhas (MTBF) para as unidades, a probabilidade de duas unidades falhando um após o outro ou ao mesmo tempo é de cerca de (0.1% x 0.1%)*12ou 0.001 x 0.001 * 12; se você tiver 1000 unidades em execução, perderá em média ~ 1,2 unidades por ano. Duas unidades falharão uma após a outra a cada 8,3 anos. Agora, como a falha da unidade não é uma distribuição Poisson devido às cargas pesadas na unidade durante a reconstrução, é mais provável que ocorra uma falha de uma segunda unidade durante esse período, e a distribuição está mais próxima de uma distribuição Gamma com valores ligeiramente mais altos após um falha ocorre.

A conclusão é que o desempenho do RAID5 é superior ao RAID6 nas gravações e no aplicativo DB - muito melhor. Para um aplicativo geralmente lido, como um servidor da Web, não faz diferença e você deve usar o RAID6. Os benefícios de custo do uso de RAID5 sobre RAID10 são enormes para armazenamento grande. Se você puder pagar a sobrecarga, use o RAID10 para aplicativos com uso intenso de disco. O RAID10 sempre terá um desempenho melhor.

O maior resultado final perdido é o RAID NÃO é um backup, mas uma maneira de limitar o tempo de inatividade, fornecendo redundância. Se os dados forem críticos, você deve fazer backup (e testar seu processo de recuperação).

Se uma matriz RAID de 10 unidades SAS de 2 TB falhar, a recuperação custará milhares de dólares e levará semanas para ser recuperada, se é que isso pode ser feito.

Todas as matrizes RAID acabam falhando!

Dr. Bombilious
fonte
1

Falando estritamente do ponto de vista da integridade dos dados, sim. Você pode perder com segurança quaisquer duas unidades, embora seja uma ocorrência rara a perda de duas juntas devido a um trauma físico grave no sistema.

Financeiramente, não tanto. O hot spare pode ser desligado até ser necessário, o que significa que ele não usa energia e não gera desgaste.

E, como sempre, o RAID não substitui um plano de backup externo apropriado.

Ignacio Vazquez-Abrams
fonte
1

Você já considerou 10? Se você tiver discos suficientes para o raid 6, terá o suficiente para fazer um volume de 10. Na maioria dos casos, 10 é mais rápido e mais redundante (ao custo de algum espaço em disco).

Joel Coehoorn
fonte
10 suporta apenas 4 discos. então o ataque 10 não é uma opção IMO.
Trevor Boyd Smith
1
@Trevor RAID 10 suporta qualquer número par de discos de> = 4. Se você pode fazer RAID 6, você pode fazer RAID 10.
Joel Coehoorn
1

Essas respostas parecem incorretas porque são baseadas apenas no desempenho teórico da unidade. Considere que, se você tiver um controlador RAID com 1 GB de cache, a gravação (geralmente sob carga normal - não é um cenário de alta carga não normal) é imediata da perspectiva do usuário ou do aplicativo - ela foi para a memória e depois o a gravação 'real' ocorre no desempenho da unidade.

No entanto, a leitura não pode ser "falsificada" (acelerada com um cache), a menos que os mesmos dados tenham sido carregados recentemente ou habitualmente. O Raid 6 é melhor para leitura e é mais tolerante (2 versus uma unidade). O Raid 5 é mais lento na escrita e muito lento na reconstrução.

Portanto, embora o RAID 5 seja lento na gravação real, ele ficará oculto com um bom controlador de ataque - onde a gravação ocorre na memória da perspectiva do usuário / aplicativo. No entanto, o Raid 5 é uma leitura mais lenta que o Raid 6 e isso não será aprimorado com um controlador, a menos que os dados já tenham sido carregados ou um algoritmo mantenha um registro de leituras repetidas. Na vida real - o ataque 6 vence.

Em conclusão, a gravação do Raid 5 é lenta, mas oculta com um bom controlador e isso torna o RAID 5 ou 6 basicamente o mesmo com o desempenho 'percebido' na gravação (existem algumas exceções). No entanto, o Raid 6 lê mais rápido e os controladores provavelmente não ajudarão na carga de trabalho da vida real para melhorar o desempenho da leitura. Agora acrescente que o Raid 6 pode sofrer duas falhas e o Raid 5 + 1 apenas um. É fácil escolher o Raid 6 como uma opção melhor: não esqueça que a reconstrução do Raid 5 também é muito lenta. Eu também aprendi que as unidades Raid 6 são usadas (testadas da maneira correta) e as unidades que falham tendem a falhar muito rapidamente. Quando uma matriz está em funcionamento por mais de 30 dias, ela tende a durar anos. Um hot spare não foi testado e pode realmente falhar imediatamente quando necessário.

Trevor
fonte
0

Estes são os fatos do caso e são incontestáveis ​​(por quem sabe do que está falando):

  1. O hotspare de RAID5 + é, literalmente, a pior escolha possível de RAID possível.
  2. O RAID10 deve ser a opção padrão se você se importa com seus dados (o que significa que você depende deles, por exemplo, para manter seus negócios em andamento).

Se você considerar todas as opções possíveis de RAID, não há nenhum caso em que o hotspare de RAID5 + seja a melhor escolha, principalmente porque se você tiver um hotspare de RAID5 +, significa que você tem 4 unidades e, com 4 unidades, você pode fazer RAID6 ou mesmo melhor, você pode fazer RAID10.

Com 4 unidades, você obtém o mesmo armazenamento utilizável de todas as opções (R5 + HS, R6, R10).

Se seu objetivo é desempenho, o RAID10 será superior ao RAID5 e RAID6.

Se seu objetivo é segurança, o RAID6 ou o RAID10 são superiores ao RAID5 com ou sem um hotspare. É discutível qual é o mais seguro (6 vs 10). O RAID6 pode suportar duas falhas de unidade, mas devido a erros de leitura irrecuperáveis ​​(UREs), também é possível que uma única falha de unidade em um RAID6 mate toda a matriz.

O RAID10, por não ser baseado em paridade, não tem o mesmo problema com os UREs. Se um RAID de paridade (R5, etc) perder uma unidade e encontrar um URE, toda a matriz será perdida. Com RAID1 ou RAID10, se uma unidade for perdida e um URE for encontrado no disco espelhado, apenas o setor ilegível será perdido.

Veja aqui uma explicação detalhada de por que o RAID5 é a pior escolha possível . Consulte também aqui uma lista de opções razoáveis ​​de RAID por número de unidades . Observe que, em nenhum caso, o RAID5 é a melhor opção (independentemente do hotspare).

user1594322
fonte
2
Discordo. O RAID5 tem seus usos. (por exemplo, quando um orçamento é apertado e você realmente precisa de espaço em disco). E como o RAID não substitui um backup que sobrevive a uma falha de disco, é suficiente para mantê-lo até as 17h, quando as pessoas saem do escritório e você faz a manutenção emergencial.
Hennes 23/09
Há uma diferença entre "a melhor escolha" e "a melhor escolha que você pode pagar". O RAID5 nunca é a melhor escolha, nunca. As pessoas vêm aqui para obter a melhor resposta e devem sair daqui sabendo que o RAID5 é sempre menor que o melhor. É matematicamente comprovável que, em alguns casos, o RAID0 é mais confiável que o RAID5. É assim que o RAID5 é assustador. Em muitos casos, o RAID5 pode não chegar às 17h. Há uma grande diferença entre a teoria e o mundo real quando se trata de RAID5. Veja aqui
user1594322
Não está claro para mim por que você diz que um RAID10 não tem o mesmo problema com os UREs. Com uma configuração RAID10 de quatro unidades, se você perder uma unidade e sofrer um URE no espelho correspondente, você estará igualmente na mangueira.
ChrisInEdmonton
Se o RAID10 tiver uma unidade com falha e, em seguida, tiver um URE na unidade sobrevivente, você perderá apenas o setor ilegível, não toda a matriz. Atualizado a resposta.
user1594322