Alta taxa de falhas de unidades grandes?

24

Eu recentemente implantei um servidor com unidades de 5 TB de 1 TB (não vou mencionar a marca deles, mas foi uma das duas grandes). Inicialmente, fui avisado contra a obtenção de unidades de grande capacidade, pois um amigo me aconselhou que eles têm um MTBF muito baixo, e seria melhor obter mais unidades de menor capacidade, pois elas não estão 'sendo levadas ao limite' em termos do que a tecnologia pode suportar.

Desde então, três dos cinco discos falharam. Felizmente, fui capaz de substituir e reconstruir a matriz antes da falha do próximo disco, mas fiquei muito preocupado.

Quais são seus pensamentos? Acabei de colocá-los em um lote ruim? Ou os discos mais novos / com maior capacidade têm maior probabilidade de falhar do que os discos testados e testados?

Mark Henderson
fonte
2
Por que você não menciona a marca? Eu acho que seu lote era 7200.11 cudas, que são conhecidas por ter uma tendência de morte prematura.
9309 Dani
Na verdade, eles eram Digitals ocidentais ...
Mark Henderson
Só para constar, eu peguei todos de volta e peguei todos novos, e eles estão funcionando há dois meses agora sem nenhum problema.
Mark Henderson
Eu tive uma experiência parecida. 16 unidades de 1,5 TB. Nos primeiros 4 meses, 4 com falha total. Nos três anos seguintes, um soft falhou.
David Schwartz

Respostas:

19

Você provavelmente tem um lote ruim. Estou preocupado com a implantação de matrizes criadas a partir de discos do mesmo lote, por esse motivo - é provável que tenham uma vida útil semelhante, o que torna a obtenção de substituições potencialmente muito emocionante quando uma falha.

Não é impossível que exista algum defeito de design nas unidades, o que definitivamente aconteceu antes; no entanto, geralmente a Internet está cheia de reclamações sobre a unidade, se houver realmente algo errado com ela, em oposição ao ruído de fundo habitual que você encontrará sobre qualquer coisa.

David Mackintosh
fonte
6
+1 Tente espaçar suas compras, obter fontes de diferentes comerciantes ou misturar marcas para aliviar isso.
Rob Allen
Ou você pode atenuá-lo "gravando" unidades que são originárias do mesmo local e ao mesmo tempo. Execute um programa intensivo de gravação contra eles por várias horas / dias; escalonar durações para simular o envelhecimento díspar. Eu criei um programa simples chamado DriveTest, que grava dados aleatórios psuedo, depois os lê novamente e verifica para "gravar" e fazer uma simples mesa de teste simultaneamente. Esta dica não é recomendada para SSDs.
rkagerer
13

É uma pergunta difícil de responder, a menos que você tenha os recursos de uma grande organização. Veja a pesquisa do Google sobre falhas no disco rígido .

Ao fazer uma compra significativa de discos, determinarei o tamanho aproximado do disco com o menor custo por byte, que geralmente é uma geração mais antigo que o mais recente. Isso faz sentido que eles melhorem a confiabilidade dessa geração.

Knox
fonte
1
De 1,5 a 2 TB é o ponto mais importante no momento, então 1 TB não atenderia aos seus critérios? Eles são bem baratos.
Mark Ransom
Muito bom ponto.
913 Knox
10

Mais pratos e mais cabeças equivalem a maior chance de falha.

Pegue dois discos rígidos WD comuns

640 GB = dois pratos
1 TB = três pratos

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Esse prato extra = mais ruído, mais consumo de energia, mais calor, menor tempo de preparo da unidade, mais suscetível a danos por choque e mais vibração.

Se eles fizessem o mesmo design de unidade com apenas um prato, teriam especificações ainda melhores. Nesse caso, são unidades de qualidade para o consumidor, mas são unidades de alta qualidade com o dobro do cache e uma garantia de 5 anos. Você verá matemática semelhante se inspecionar atentamente a documentação de qualquer marca ou estilo de disco rígido tradicional (pratos giratórios). É puramente uma questão de física que mais pratos tornam a unidade menos confiável.

Jeff Hengesbach também estava certo quando disse

A principal preocupação com unidades 'grandes' é o tempo de reconstrução em que ocorre uma falha. Quanto maior a unidade, maior a reconstrução, maior a janela para falhas adicionais na unidade e possível perda da matriz. Com unidades "grandes", o valor comercial da disponibilidade deve determinar um nível de risco aceitável (perda de matriz) que conduzirá a seleção do nível de RAID e a contagem de unidades (mais unidades = mais chances de falha da unidade).

adicione uma pequena dose de Graeme Perrow

Uma unidade com cinquenta milhões de setores tem dez vezes mais chances de ter um setor ruim do que uma unidade com cinco milhões de setores. Estou assumindo que a taxa de falhas entre unidades grandes e unidades pequenas seja a mesma aqui, o que provavelmente não é uma boa suposição

Mais travessas = ruins
Mais espaço de armazenamento é um saco misto. Prós e contras são numerosos.
Mais setores são realmente mais chances de erros. Não necessariamente linear em escala, mas definitivamente um fator.

A menos que você precise de mais espaço do que confiabilidade, sugiro manter unidades de prato único ou duplo. É preciso pesquisar e, em alguns casos, ter sorte para saber o que você obterá ao fazer pedidos de unidades, pois alguns fabricantes não apenas evitam publicar o número de pratos, como podem vender mais de uma unidade com o mesmo número de peça.

Tomemos, por exemplo, o WD3200AAKS, existe uma versão de prato único de 320 GB e uma versão de prato duplo de 320 GB (160 GB x 2). Além disso, existem vários rótulos e caixas de unidades sendo usados, para que você não possa olhar facilmente para a unidade e saber qual prato está dentro. A única maneira de saber é pesquisar on-line para saber que WD3200AAKS-00B3A0 e WD3200AAKS-75VYA0 informam qual é o prato único, mas nenhum revendedor indica qual você receberá.

pplrppl
fonte
1
Uau. Isso é algo profundo! Obrigado! Eu ainda não tinha considerado o número de partes móveis (travessas) até agora.
Mark Henderson
3

Acredito que uma taxa de falha maior que o normal é indicativa de qualquer nova tecnologia. Sempre me disseram para nunca comprar o primeiro modelo de um carro, espere até que eles resolvam os erros. Eu diria que a mesma coisa provavelmente se aplica a muitas outras coisas, incluindo discos rígidos.

Logan
fonte
1
Posso atestar toda a analogia do carro (as analogias do carro nunca se perdem, não é?). Admito que estava com pressa e não a pesquisei direito e estou pagando o preço agora!
Mark Henderson
3

Não sei se é justo dizer que discos 'grandes' têm um MTBF maior ou não. Eu tenho um sistema de nome grande com um punhado de unidades de 750 GB e nos últimos 2 anos nenhum falhou (750 era "grande" há 2 anos). Mas eu também conheço um sistema de nomes grandes que foi construído quando os 250 GB eram grandes e esse array caiu algumas vezes. O debate no MTBF é uma espécie de guerra santa.

A principal preocupação com unidades 'grandes' é o tempo de reconstrução em que ocorre uma falha. Quanto maior a unidade, maior a reconstrução, maior a janela para falhas adicionais na unidade e possível perda da matriz. Com unidades "grandes", o valor comercial da disponibilidade deve determinar um nível de risco aceitável (perda de matriz) que conduzirá a seleção do nível de RAID e a contagem de unidades (mais unidades = mais chances de falha da unidade).

Os negócios SATA / RAID surgiram nos últimos anos. Eu não acho que os grandes nomes o ofereceriam se soubessem que seria um grande problema de suporte ou uma fonte de clientes decepcionados. Gostaria de saber sua confiabilidade daqui para frente agora que você substituiu parte do lote original.

Jeff Hengesbach
fonte
1

Eles estão todos no mesmo computador ou controlador de disco? Você disse que tinha que reconstruir a matriz. Se for esse o caso, talvez algo esteja com defeito no controlador, fonte de alimentação ou memória . Caso contrário, eu também acho que um lote defeituoso de unidades. Além disso, pode haver um problema de compatibilidade com quaisquer unidades específicas que você estiver usando com esse controlador específico.

Além disso, eu me pergunto quando as pessoas dizem que discos maiores têm um MTBF mais alto como isso é calculado. Digamos que você tenha discos de 2x250 GB e 1x500 GB. Talvez isso seja ingênuo, mas a unidade que contém duas vezes mais dados poderia falhar? Acho que não sei se o MTBF inclui algum erro de leitura ou gravação incorreta ou se isso significa que o disco fica quebrado mecanicamente. Alguém sabe se existe um padrão industrial rigoroso e uma definição de MTBF para discos rígidos?

Kyle Brandt
fonte
1

Aqui estão algumas coisas que eu verificaria: 1) Os números de série nas unidades estão bem próximos? Nesse caso, você pode ter um lote com defeito 2) Como está o ambiente em que seu servidor vive? Você teve problemas com outro hardware falhando recentemente? 3) As unidades são unidades Seagate Barracuda? Há problemas com essas unidades. Veja este artigo da worldworld sobre ele. 4) Essas unidades vieram como parte de um sistema? ou você comprou você mesmo? Se você comprou unidades OEM, não há como garantir que as unidades sejam manuseadas com cuidado antes de comprá-las.

Eu pessoalmente tive sorte incrível com discos rígidos. Eu só tive duas unidades falharem em mim. Apenas uma dessas falhas estava em uma unidade que eu estava realmente usando. No entanto, ao meu redor, vi muitas pessoas perderem dados nos discos rígidos.

cyberkni
fonte
Hmm, sim, eles são todos muito próximos, mas eram WD de, não Seagates, e sim, eles eram unidades OEM ... algumas coisas que eu não tinha considerado lá ...
Mark Henderson
1

A maior taxa de falhas de unidades grandes pode ser apenas uma função do tamanho das unidades. Uma unidade com cinquenta milhões de setores tem dez vezes mais chances de ter um setor ruim do que uma unidade com cinco milhões de setores. Suponho que a taxa de falhas entre unidades grandes e unidades pequenas seja a mesma aqui, o que provavelmente não é uma boa suposição - como outra pessoa disse, o fato de as unidades terabytes ainda serem relativamente novas, elas provavelmente têm uma taxa de falha maior para começar com.

No seu caso, parece apenas um lote ruim de unidades.

Graeme Perrow
fonte
1

Se você comprou todas as unidades ao mesmo tempo e no mesmo local, é possível que todas venham de um único lote duvidoso.

Ao montar uma matriz RAID, geralmente recomendo misturar um pouco as unidades, ou seja, uma mistura de fabricantes ou pelo menos unidades de diferentes fornecedores (para reduzir o risco de todas as unidades serem de um lote ruim).

Outra recomendação que eu faria é usar unidades menores, se possível (ou seja, você tem espaço físico para as unidades e as portas do controlador pendurá-las); portanto, em vez de um volume RAID 1 ou duas unidades de 1 TB têm um RAID 10 de quatro unidades de 500 Gb. Dessa forma, quando uma unidade fica ruim, você está reconstruindo apenas uma matriz menor, que faz parte de uma matriz maior, em vez de reconstruir toda a matriz (reduzindo o tempo durante o qual a matriz não está completa), além de oferecer um pouco mais de redundância. (em quatro dos seis dos cenários "duas unidades falham ao mesmo tempo", uma matriz RAID10 de 4 unidades permanecerá ativa). Você pode fazer o mesmo ao pentear matrizes R5 menores em uma matriz R50 também se suportado pelo seu controlador / software RAID.

Talvez eu seja excessivamente paranóico, mas seria cauteloso em confiar 1 TB de dados em uma única unidade, mesmo que essa unidade faça parte de uma matriz redundante.

Obviamente, existem restrições físicas em jogo que podem tornar a técnica impraticável para você; o consumo de energia também restringe, portanto YMMV. Como "por exemplo", quando uma matriz ou matrizes não é prática: eu prefiro ter quatro unidades como R10 em um de nossos servidores aqui, no lugar das unidades maiores em uma matriz R1, mas não há espaço físico , a compra / construção de uma matriz externa estava fora do orçamento e não pudemos usar espaço em uma matriz existente, pois os dados precisavam ser mantidos fisicamente separados de todos os outros dados devido a requisitos de proteção de dados.

David Spillett
fonte
1

Alguém fez um estudo muito detalhado sobre esse problema de unidades maiores. Isso tem a ver com a taxa de erro de bit que permanece constante, mesmo que o tamanho da unidade tenha aumentado, mais o tempo necessário para reconstruir as unidades maiores. Os dois se combinam para colocar uma segunda falha durante a reconstrução muito no reino da realidade. Eu usaria unidades de 500 gb ou menores em matrizes RAID.

bobcov
fonte
1

Sempre use discos rígidos de menor capacidade para uso em produção. Nunca verifiquei a física por trás dele, mas discos menores tendem a quebrar com menos frequência. Era o que todo mundo sempre me dizia.

Alakdae
fonte
0

Você criou uma matriz com discos todos do mesmo lote e todos enviados do mesmo fornecedor? Foi-me dito que é uma coisa ruim a se fazer ...

thijs
fonte
0

Considere o RAID-6. A chance de um erro de leitura difícil durante uma reconstrução do RAID-5 é muito real. Ou RAID-Z com ZFS.

Brian Carlton
fonte