Quantas realocações no setor SMART indicam problemas?

17

Eu tenho um dispositivo NAS com pouco mais de um mês. Ele está configurado para me enviar por e-mail alertas gerados a partir dos dados SMART dos discos rígidos. Depois de um dia, um dos discos rígidos informou que um setor havia falhado e foi realocado. Na primeira semana, esse número subiu para seis setores no total do disco rígido em questão. Após um mês, o número chega a nove setores realocados. A taxa definitivamente parece estar desacelerando.

O NAS é configurado com seis unidades de 1,5 TB em uma configuração RAID-5. Com essas unidades de alta capacidade, eu esperaria que um setor falhasse de tempos em tempos, por isso não me preocupei quando os primeiros setores foram realocados. Incomoda-me, porém, que nenhum dos outros discos esteja relatando problemas.

Em que taxa de realocações, ou número total de realocações, devo começar a ficar preocupado com a saúde da unidade? Isso pode variar de acordo com a capacidade da unidade?

Jeremy
fonte
legal, jeremy. um dos melhores em falha do servidor, como muitos outros aqui o acharão útil e não é fácil encontrar uma resposta. definitivamente merece mais do que +2. você pode querer reformular a pergunta de modo que não é específico para NetGear, mas o armazenamento em geral embora
nome de usuário
Obrigado pelo feedback, fiz as alterações que você sugeriu e atualizou a situação.
2155 Jeremy
1
Substituo unidades em um setor realocado. Você deve esperar zero durante o período de garantia da unidade. Os fabricantes sempre honraram a garantia dessas unidades.
Michael Hampton

Respostas:

13

As unidades, como a maioria dos componentes, têm uma taxa de falha na curva da banheira. Eles fracassam muito no começo, têm uma taxa de falhas relativamente baixa no meio e depois fracassam bastante quando chegam ao fim de sua vida.

Assim como toda a unidade segue essa curva, áreas específicas do disco também seguem essa curva. Você verá muitas realocações de setor no início do uso da unidade, mas isso deve diminuir. Quando a unidade começa a falhar no final da vida útil, ela começa a perder mais e mais setores.

Você não precisa se preocupar com 6 (dependendo da unidade - consulte o fabricante), mas precisa observar e ver a frequência de cada nova realocação. Se a deterioração acelerar ou permanecer a mesma, preocupe-se. Caso contrário, tudo ficará bem após o período inicial de amaciamento.

-Adão

Adam Davis
fonte
Um pequeno ponto: as unidades falharão MUITO antes do MTBF. Eu acho que você quer dizer que eles falham muito quando se aproximam da vida útil esperada.
Eddie
5
O Google não desmentiu completamente a teoria da "curva da banheira"?
Insyte 17/11/2009
20

Relendo o artigo do Google sobre o assunto, " Tendências de falhas em uma população grande de unidades de disco ", acho que posso dizer com segurança que a resposta de Adam está incorreta. Na análise de uma população extremamente massiva de unidades, aproximadamente 9% tinham contagens de realocação diferentes de zero. A citação reveladora é esta:

Após a primeira realocação, as unidades têm uma probabilidade 14 vezes maior de falhar em 60 dias do que as unidades sem contagem de realocação, tornando o limite crítico para esse parâmetro também um.

É ainda mais interessante ao lidar com "realocações offline", que são realocações descobertas durante a depuração em segundo plano da unidade, não durante as operações de E / S solicitadas. A conclusão deles:

Após a primeira realocação offline, as unidades têm chances 21 vezes maiores de falha em 60 dias do que as unidades sem realocações offline; um efeito que é novamente mais drástico do que as realocações totais.

Minha política a partir de agora será que unidades com contagens de realocação diferentes de zero sejam agendadas para substituição.

Insyte
fonte
Isso é interessante, eu já tinha ouvido falar desse artigo, mas talvez seja necessário relê-lo. FWIW, 4 das 6 unidades no meu NAS realocaram setores. Obrigado pela resposta.
21413 Jeremy
3

Unidades diferentes provavelmente têm parâmetros diferentes. Em uma unidade que eu verifiquei pela última vez que era um disco da série corporativa de 1 TB de um fornecedor, havia 2048 setores reservados para realocação.

Você pode estimar o número de setores reservados visualizados no relatório SMART em uma unidade que possui um número diferente de zero de setores realocados. Considere um relatório sobre uma unidade com falha abaixo.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Aqui, 95% de sua capacidade reservada foi utilizada, ou seja, 1955 setores. Portanto, a capacidade inicial era de cerca de 2057. Na verdade, é 2048, a diferença se deve ao erro de arredondamento.

O SMART transforma a unidade em um estado de falha quando o número de setores realocados atinge um determinado limite. Para a unidade em questão, esse limite é definido em 64% da capacidade reservada. São aproximadamente 1310 setores remapeados.

No entanto, os setores reservados não estão em um período contínuo. Em vez disso, eles são divididos em vários grupos, cada grupo está sendo usado para remapear setores de uma parte específica do disco. Isso é feito para manter os dados locais em uma área do disco.

A desvantagem da localidade é que o disco pode ter muitos setores reservados. No entanto, uma área já pode ficar sem capacidade reservada. Nesse caso, o comportamento depende do firmware. Em uma unidade, observamos que ela entra em um estado FAILED e bloqueia quando ocorre um erro em uma parte que não está mais protegida.

Dmitri Chubarov
fonte
Como você determinou que "havia 2048 setores reservados para realocação"?
AJ.
Talvez 2047 seja a quantidade máxima de setores realocáveis. Uma das minhas unidades tinha exatamente 2047 quando foi comprada no eBay por "new", que é 0x7FF, também b11,111,111,111. Ir para 2048 seria um desperdício.
Davide
2

Convém executar um autoteste longo SMART, se a unidade suportar. Isso pode fornecer mais informações sobre o status da unidade. Se o seu NAS não puder fazer isso, e se você puder retirar a unidade ou desligá-lo por algumas horas, faça o autoteste longo com o disco rígido conectado a outra máquina.

Eddie
fonte
1

Quando uma unidade se comporta dessa maneira, não é confiável!

Envie de volta o mais rápido possível e obtenha uma unidade de substituição.

Nils-Anders Nøttseter
fonte
1

Fabricantes diferentes têm números diferentes de "perda aceitável" (mesma idéia que os monitores e pixels ruins). Consulte o fabricante da unidade para descobrir qual é o seu padrão.

Parece uma tendência ruim ...

Brian Knoblauch
fonte
-1

A Western Digital se orgulha especialmente da tecnologia que recupera setores defeituosos em tempo aceitável, em vez de congelar o disco colocado no RAID, seu nome TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). O tempo é tipicamente de 5 a 7 segundos.

Como eu encontrei na web, existem unidades de disco WD com opção desativada, mas algumas pessoas ativaram esse recurso em unidades WD verdes baratas e as colocaram em RAID.

O utilitário WDTLER foi removido do site de suporte da WD, mas pode ser facilmente descoberto pelo Google.

PS Eu uso esse utilitário apenas para ler o status e não uso RAID agora :)


fonte