Procurando uma experiência real de falha na unidade RAID 5 2? [fechadas]

15

Gostaria de saber se alguém tem alguma experiência pessoal de falha da unidade RAID 5 2 com unidades grandes?

Pelo que entendi, a teoria é que, com unidades grandes de 1-2 TB, se uma unidade falhar no conjunto de invasões, ela precisará reconstruir tudo, atingindo todas as outras unidades com muita força e a chance de outra falha aumenta, especialmente se as unidades fossem do mesmo lote de fabricação. E se você perder outra unidade, perderá todos os dados.

Isso geralmente é explicado após a declaração "RAID não é backup", com a qual concordo.

A teoria disso faz sentido, e eu entendo, mas isso realmente acontece?

Brian
fonte
Infelizmente, acabamos de receber uma nova pergunta com a experiência ao vivo disso. :( superuser.com/questions/516844/…
Hennes

Respostas:

15

Sim, já aconteceu comigo. Um conjunto de 4 unidades WD 500 (de qualidade para o consumidor) ficou ruim ao longo de cerca de uma semana. Demorei a substituir o primeiro, não coloquei a matriz offline e perdi todos os meus dados quando o segundo falhou. Reutilizei os dois restantes, e um deles falhou no próximo mês. Todos foram devidamente resfriados e tratados. Só posso dizer que agora acredito na retórica do "lote ruim".

Em um incidente separado, eu tive três unidades separadas de marcas e modelos diferentes falhando dentro de um mês um do outro, embora eu tenha certeza de que o motivo pelo qual eles falharam foi devido à ventilação inadequada. Não cozinhe suas unidades!

Paul McMillan
fonte
3
Como corolário, tenha um sobressalente sentado para quando uma unidade der errado. Além disso, cuidado com a corrupção silenciosa ... é fácil perder dados em uma unidade que apenas finge funcionar.
217 Paul PaulMMillan
Esse é outro motivo pelo qual você não deve instalar unidades pertencentes ao mesmo lote em uma matriz RAID - elas têm tempos de falha correlacionados (você sabe, como taxas padrão de títulos hipotecários subprime garantidos).
Andrew Mao
4

Isso realmente aconteceu comigo, no entanto, não era realmente a maneira mais comum de uma unidade falhar. Eu tinha 4 unidades sata externas de 500GB no RAID 5. Elas foram conectadas a um servidor IBM montado em rack antigo e barato. Toda a instalação estava escondida embaixo da escada e um dia, um rato ou um coelho, mas algo mastigou alguns cabos de alimentação e duas unidades foram danificadas. Todas as unidades estavam em gabinetes externos baratos, então acho que não deveria ter ficado tão surpreso.

AdamB
fonte
3

Você está perguntando se pode perder 2 unidades consecutivas? Claro, tudo pode acontecer. O RAID 5 permite grande disponibilidade e aumento de desempenho para acesso a dados, mas o RAID 5 não faz backup de nada. Simplesmente ajuda a impedir o uso de seus dados devido a uma perda de hardware de uma única unidade. Não é uma cópia dos seus dados. Você não pode recuperar uma cópia antiga, uma revisão antiga ou simplesmente uma cópia do seu trabalho atual. Além disso, não protege contra corrupção de dados. Há mais coisas que podem dar errado do que simplesmente perder uma unidade. O vírus pode corromper todos os seus dados, a irmãzinha gosta de ver a lata de lixo na sua área de trabalho ficar cheia e vazia enquanto ela joga arquivos nela, um amigo estúpido deixa um refrigerante na sua máquina, etc.

Além disso, lembre-se, você pode perder o controlador de ataque do disco rígido. E você não pode simplesmente mover o array para outro controlador aleatório. Você normalmente tem que usar exatamente o mesmo e ainda assim, algo pode dar errado. Alguns controladores RAID armazenam informações a bordo e outras enviam informações de configuração para o array conectado. É uma aposta quando essa situação surge.

Mesma pergunta no SF: /server/2888/why-is-raid-not-a-backup

Precisa de mais razões?

EDIT: Sua idéia está correta e pode acontecer com qualquer pessoa. Pessoalmente, não vi mais de uma unidade falhar, mas vi algumas morrerem muito próximas. Nenhum deles estava nessa janela de reconstrução, mas é tecnicamente um risco. Mas você tem um backup, caso algo aconteça, certo? haha Algumas pessoas aprendem da maneira mais difícil sobre isso às vezes. O Raid 6 leva para o próximo nível com dupla paridade e pode perder até 2 unidades. Em qualquer configuração de invasão, a probabilidade de falha aumenta com o tamanho (número de unidades) e a complexidade da matriz. Mais unidades = mais pontos de possível falha

Troggy
fonte
desculpe, eu entendo tudo isso, só perguntando se já aconteceu com alguém e qual foi o cenário?
Brian
3

Você está certo, em um cenário RAID-5, se você perder um disco e depois reconstruí-lo, o sistema deverá ler com êxito todos os setores de todas as unidades sobreviventes no conjunto RAID. A NetApp alega que, em algumas situações (eles podem executar conjuntos de RAID de até 28 unidades de alguns tipos), suas chances de atingir uma segunda falha podem chegar a uma em cada dez. Assim, eles fazem uma "Dupla Paridade", que acredito estar relacionada ao RAID-6.

Obviamente, quanto mais unidades você tiver em um conjunto RAID, e quanto maiores elas forem, maior a probabilidade de encontrar um problema. Para um conjunto pequeno de RAID (de 3 a 5 discos), as chances provavelmente não foram tão grandes quanto ao uso do RAID-5.

Mas eu sempre faço o Raid-DP no NetApps, onde posso.

David Mackintosh
fonte
Eu nunca havia pensado no fato de "dever ler com sucesso todos os setores de todas as unidades sobreviventes".
AaronLS 20/10/09
2

Nenhuma experiência pessoal , mas ouvi os gritos daqueles que tiveram isso acontecendo com eles. Qualquer sistema de armazenamento - seja uma unidade única, uma chave USB, fita, uma enorme instalação RAID ou Amazon S3 - acabará por falhar da maneira que for mais inconveniente para você. Uma segunda falha ao reconstruir um conjunto RAID 5 é apenas uma das maneiras pelas quais isso pode acontecer.

Além disso, o suporte ao RAID de paridade tripla foi integrado ao OpenSolaris há alguns dias - portanto, pelo menos um fornecedor pensa que permitir duas falhas adicionais durante a reconstrução do RAID de paridade vale o esforço de engenharia.

Stephen Veiss
fonte
1

Isso realmente acontece de fato. É por isso que as soluções de armazenamento da NetApp têm uma implementação do RAID 6. Isso ocorre caso você perca uma segunda unidade durante a reconstrução.

Você pode calcular a probabilidade de uma falha usando as fórmulas padrão listadas na página a seguir texto do link da Ao escalonar para um número cada vez maior de unidades de dados, a probabilidade dessa falha aumenta. Se você tiver discos suficientes, poderá colocar esse número na zona de preocupação se estiver usando um RAID 5 com um grande número de volumes de dados.

Por experiência pessoal, posso dizer que você certamente pode ter duas falhas de unidade na mesma matriz, no mesmo período crítico. O Raid 6 me salvou de ter que restaurar do backup.

Espero que isto ajude

Axxmasterr
fonte
1

Aqui está um cenário: Uma unidade falha no seu array RAID5, mas a sua peça sobressalente já estava parada ou o pedido do novo disco rígido finalmente chegou. Você (ou algum lacaio remoto, talvez) adota uma nova unidade na mão para substituir uma defeituosa. Devido a rotulagem ruim, cansaço ou simplesmente tolice, uma das boas unidades restantes é ejetada em vez da defeituosa ... e há sua segunda falha.

camster342
fonte
1

Eu já vi isso várias vezes como estou no negócio de recuperação de dados. E sim, eles geralmente falham ao mesmo tempo, no entanto, eu não acredito que isso tenha algo a ver com quando eles foram construídos necessariamente, como também já vi isso acontecer com unidades incompatíveis. Na maioria das vezes, esse tipo de falha ocorre logo após uma tempestade, queda de energia ou queda de energia.

Normalmente, o surto danifica as unidades ou o controlador RAID e, em alguns dias, elas começam a falhar. Na verdade, estou trabalhando agora na recuperação de uma matriz que teve duas unidades falharem simultaneamente após uma queda de energia. (parece sem esperança agora)

Uma pequena dica: Os protetores contra surtos realmente não protegem seu equipamento. Sempre conecte seu raid 5 a um bom no-break. Eu nunca vi isso acontecer quando o array estava em um no-break.

Jared
fonte
1

Puxar acidentalmente uma segunda unidade boa de um conjunto de paridade única não deve destruir a matriz com uma boa implementação de RAID. Eu sei que o ZFS RAID-Z congelará qualquer E / S na matriz até você conectá-la novamente.

Sfynx
fonte
0

Outro cenário: um lacaio remoto é solicitado a buscar a fita de backup na unidade de fita. Ela vai até o rack e não puxa a fita para fora da unidade de fita ... mas 2 (dois) HDs estão fora das baias de drive ao mesmo tempo e pronto: falha de 2 unidades.

Você acha que isso é absurdo? Bem, agora estou em um cliente que fez exatamente isso e agora está olhando para uma reconstrução de servidor.

Bom dildo, ela não queimou a fita que estava realmente na fita ou algo assim ;-)

Mathias
fonte