O que conta como uma matriz 'grande' de ataque 5?

11

Um problema recente com um NAS Buffalo TeraStation aqui no meu escritório me levou a investigar o Raid 5.

Encontrei alguns artigos diferentes falando sobre a inadequação do uso do RAID 5 em matrizes grandes ou com discos grandes

Aqui está um artigo de exemplo que fala sobre problemas com a reconstrução de uma matriz com grandes unidades consumidoras.

Estou tentando descobrir o que conta como 'grande'?

O NAS que temos aqui é uma configuração de Raid 5 de 4 unidades, cada unidade é de 1 TB. Uma unidade falhou e foi substituída, a matriz está sendo reconstruída no momento.

Essa configuração é tão grande quanto provavelmente terá um problema durante a reconstrução?

Qual é a confiabilidade dessa configuração para o uso diário?

Roubar
fonte
2
Dada a carga normal do sistema, quanto tempo o controlador espera que a reconstrução leve? Qual é o MTBF dos HDDs? Se você tem esses dois números, sabe a chance de uma segunda - e catastrófica - falha durante a reconstrução do RAID. Lembre-se de que os HDDs são mais estressados ​​durante a reconstrução, portanto o resultado acima será uma subestimação da chance de falha dupla.
21414 MadHatter
3
Como um aparte, você sabe que o RAID não é backup, certo?
CJC
5
@cjc, você adiciona essa pérola de sabedoria a todas as perguntas sobre RAID no SF, ou algo sobre isso faz você pensar que o OP acha que o RAID é um backup?
precisa saber é o seguinte
Sim, eu estou ciente disso. Está tudo feito em backup, eu só queria ter o trabalho de restaurar tudo porque a matriz de ataque não se reparou adequadamente.
28714 Rob

Respostas:

18

Projetando a confiabilidade de uma matriz de disco:

  1. Encontre a taxa de URE da sua unidade (os fabricantes não gostam de falar sobre a falha de suas unidades, por isso, talvez seja necessário cavar para encontrar isso. Deve ser 1/10 ^ X onde X é geralmente entre 12 e 18).
  2. Decida qual é uma taxa de risco aceitável para suas necessidades de armazenamento †. Normalmente, isso tem <0.5% de chance de falha, mas pode ser de vários por cento em um armazenamento "zero" e pode ser <0.1 para dados críticos.
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    Para matrizes com mais de um disco de paridade ou espelhos com mais de um par de discos no espelho, altere 1depois de Unidades na matriz para o número de discos com paridade / espelho.

Então, eu tenho um conjunto de quatro unidades WD Green de 1 TB em uma matriz. Eles têm uma taxa de URE de 1/10 ^ 14. E eu os uso como armazenamento temporário. 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%risco de falha na reconstrução da matriz após a morte de uma unidade. Eles são ótimos para armazenar meu lixo, mas não estou colocando dados críticos nele.

† Determinar falha aceitável é um processo longo e complicado. Pode ser resumido como Budget = Risk * Cost. Portanto, se uma falha custar US $ 100 e tiver 10% de chance de ocorrer, você deverá ter um orçamento de US $ 10 para evitá-la. Isso simplifica bastante a tarefa de determinar o risco, os custos de várias falhas e a natureza das possíveis técnicas de prevenção - mas você entendeu. [Data Drives] = [Total Drives] - [Parity Drives]. Um espelho de dois discos (RAID1) e RAID5 possui 1 unidade de paridade. Um espelho de três discos (RAID1) e RAID6 possui 2 unidades de paridade. É possível ter mais unidades de paridade com RAID1 e / ou esquemas personalizados, mas atípicos.


No entanto, esta equação estatística vem com suas ressalvas:

  • Essa taxa de URE é a taxa anunciada e geralmente é melhor na maioria das unidades que saem da linha de montagem. Você pode ter sorte e comprar uma unidade com ordens de magnitude melhores que as anunciadas. Da mesma forma, você pode obter um impulso que morre de mortalidade infantil.
  • Algumas linhas de fabricação têm execuções ruins (onde muitos discos na execução falham ao mesmo tempo), portanto, obter discos de diferentes lotes de fabricação ajuda a distribuir a probabilidade de falha simultânea.
  • Os discos mais antigos tendem a morrer sob o estresse de uma reconstrução.
  • Fatores ambientais têm um custo:
    • Os discos que são submetidos a ciclos de calor geralmente têm maior probabilidade de morrer (por exemplo, ligando / desligando-os regularmente).
    • A vibração pode causar todos os tipos de problemas - veja o vídeo do YouTube gritando em uma matriz de discos .
  • "Existem três tipos de mentiras: mentiras, mentiras condenadas e estatísticas" - Benjamin Disraeli
Chris S
fonte
A unidade que tirei / saí / do dispositivo é uma unidade Samsung HD103SI de 1 TB. Acredito que as outras três unidades restantes sejam iguais. A unidade de substituição é de um fabricante diferente, não tenho os detalhes em mãos.
28414 Rob
Parece que a taxa para essa unidade é 1/10 ^ 15 de acordo com este: - comx-computers.co.za/HD103SI-specifications-28474.htm
Rob
1
Acabei de corrigir as equações, o exemplo estava correto, agora as duas estão. Sua matriz seria 1-(1-1099511627776*0.000000000000001)^3=> 0,00329. Você tem um suporte do lado de fora de ^3onde deveria estar do lado de dentro; e deve haver mais um zero nessa coisa de 1/10 ^ 15.
Chris S
2
Uma unidade de 1 TB teria 1000000000000 bytes, portanto, funciona um pouco menos que 3% | 0,3%, dependendo da sua taxa de URE.
precisa saber é o seguinte
1
@IanRingrose Isso é estatisticamente válido. Eu já resolvi suas preocupações específicas. Você tem algo relevante a acrescentar além do que já foi mencionado?
Chris S
9

A razão pela qual esse artigo existe é chamar a atenção para Taxas de erro de bits irrecuperáveis ​​nos HDDs. Especificamente, seus discos baratos para 'PC doméstico'. Eles normalmente têm uma especificação de fábrica de 1/10 ^ 14. São cerca de 12,5 TB de dados, que se você estiver executando um RAID-5 com discos de 2 TB ... será atingido rapidamente.

Isso significa que você deve:

  • use grupos RAID menores e aceite maior espaço desperdiçado.
  • Use o RAID-6 e aceite a penalidade adicional de gravação. (50% maior que o RAID5)
  • Compre discos mais caros - 'server grade' tem uma especificação UBER de 1/10 ^ 16, o que significa que este é um ponto discutível. (1.2PB é melhor que 12.5TB)

Eu sugeriria tipicamente que o RAID-6 é o caminho a seguir em geral, mas isso lhe custará desempenho.

Sobrique
fonte