Eu tenho um dispositivo NAS com pouco mais de um mês. Ele está configurado para me enviar por e-mail alertas gerados a partir dos dados SMART dos discos rígidos. Depois de um dia, um dos discos rígidos informou que um setor havia falhado e foi realocado. Na primeira semana, esse número subiu para seis setores no total do disco rígido em questão. Após um mês, o número chega a nove setores realocados. A taxa definitivamente parece estar desacelerando.
O NAS é configurado com seis unidades de 1,5 TB em uma configuração RAID-5. Com essas unidades de alta capacidade, eu esperaria que um setor falhasse de tempos em tempos, por isso não me preocupei quando os primeiros setores foram realocados. Incomoda-me, porém, que nenhum dos outros discos esteja relatando problemas.
Em que taxa de realocações, ou número total de realocações, devo começar a ficar preocupado com a saúde da unidade? Isso pode variar de acordo com a capacidade da unidade?
fonte
Respostas:
As unidades, como a maioria dos componentes, têm uma taxa de falha na curva da banheira. Eles fracassam muito no começo, têm uma taxa de falhas relativamente baixa no meio e depois fracassam bastante quando chegam ao fim de sua vida.
Assim como toda a unidade segue essa curva, áreas específicas do disco também seguem essa curva. Você verá muitas realocações de setor no início do uso da unidade, mas isso deve diminuir. Quando a unidade começa a falhar no final da vida útil, ela começa a perder mais e mais setores.
Você não precisa se preocupar com 6 (dependendo da unidade - consulte o fabricante), mas precisa observar e ver a frequência de cada nova realocação. Se a deterioração acelerar ou permanecer a mesma, preocupe-se. Caso contrário, tudo ficará bem após o período inicial de amaciamento.
-Adão
fonte
Relendo o artigo do Google sobre o assunto, " Tendências de falhas em uma população grande de unidades de disco ", acho que posso dizer com segurança que a resposta de Adam está incorreta. Na análise de uma população extremamente massiva de unidades, aproximadamente 9% tinham contagens de realocação diferentes de zero. A citação reveladora é esta:
É ainda mais interessante ao lidar com "realocações offline", que são realocações descobertas durante a depuração em segundo plano da unidade, não durante as operações de E / S solicitadas. A conclusão deles:
Minha política a partir de agora será que unidades com contagens de realocação diferentes de zero sejam agendadas para substituição.
fonte
Unidades diferentes provavelmente têm parâmetros diferentes. Em uma unidade que eu verifiquei pela última vez que era um disco da série corporativa de 1 TB de um fornecedor, havia 2048 setores reservados para realocação.
Você pode estimar o número de setores reservados visualizados no relatório SMART em uma unidade que possui um número diferente de zero de setores realocados. Considere um relatório sobre uma unidade com falha abaixo.
Aqui, 95% de sua capacidade reservada foi utilizada, ou seja, 1955 setores. Portanto, a capacidade inicial era de cerca de 2057. Na verdade, é 2048, a diferença se deve ao erro de arredondamento.
O SMART transforma a unidade em um estado de falha quando o número de setores realocados atinge um determinado limite. Para a unidade em questão, esse limite é definido em 64% da capacidade reservada. São aproximadamente 1310 setores remapeados.
No entanto, os setores reservados não estão em um período contínuo. Em vez disso, eles são divididos em vários grupos, cada grupo está sendo usado para remapear setores de uma parte específica do disco. Isso é feito para manter os dados locais em uma área do disco.
A desvantagem da localidade é que o disco pode ter muitos setores reservados. No entanto, uma área já pode ficar sem capacidade reservada. Nesse caso, o comportamento depende do firmware. Em uma unidade, observamos que ela entra em um estado FAILED e bloqueia quando ocorre um erro em uma parte que não está mais protegida.
fonte
Convém executar um autoteste longo SMART, se a unidade suportar. Isso pode fornecer mais informações sobre o status da unidade. Se o seu NAS não puder fazer isso, e se você puder retirar a unidade ou desligá-lo por algumas horas, faça o autoteste longo com o disco rígido conectado a outra máquina.
fonte
Quando uma unidade se comporta dessa maneira, não é confiável!
Envie de volta o mais rápido possível e obtenha uma unidade de substituição.
fonte
Fabricantes diferentes têm números diferentes de "perda aceitável" (mesma idéia que os monitores e pixels ruins). Consulte o fabricante da unidade para descobrir qual é o seu padrão.
Parece uma tendência ruim ...
fonte
A Western Digital se orgulha especialmente da tecnologia que recupera setores defeituosos em tempo aceitável, em vez de congelar o disco colocado no RAID, seu nome TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). O tempo é tipicamente de 5 a 7 segundos.
Como eu encontrei na web, existem unidades de disco WD com opção desativada, mas algumas pessoas ativaram esse recurso em unidades WD verdes baratas e as colocaram em RAID.
O utilitário WDTLER foi removido do site de suporte da WD, mas pode ser facilmente descoberto pelo Google.
PS Eu uso esse utilitário apenas para ler o status e não uso RAID agora :)
fonte