Como determinar o número de ciclos de gravação ou a vida útil esperada para SSD no Linux?
10
Estamos executando um SSD (Intel X25-M) em um servidor Linux (RHEL 5) há algum tempo, mas nunca fizemos nenhum esforço para descobrir quanta carga de gravação estava sob o ano passado. Existe alguma ferramenta no Linux para nos dizer aproximadamente quanto foi gravado no disco ao longo do tempo ou (ainda melhor) quanto desgaste ele acumulou? Apenas procurando uma dica para ver se está perto da morte ou não ...
O valor bruto Host_Writes_32MIB mostra quantas unidades de dados de 32MiB foram gravadas nesta unidade.
O valor Media_Wearout_Indicator mostra uma porcentagem normalizada de quanto tempo de vida útil útil da unidade está. Isso começa em 100 (ou 099, eu esqueço qual) e prossegue até 001, momento em que a Intel considera que a unidade excedeu sua vida útil. A Intel também usa o MWI como parte das reivindicações de garantia - quando o MWI atinge 001, a garantia expira.
O MWI atingindo 001 não significa que o inversor falhará imediatamente! A Intel terá tolerância incorporada para lidar com variações nas unidades de flash. Vi unidades durarem muito além desse ponto e estou testando ativamente alguns SSDs da série 320 da Intel para ver quanto tempo eles duram.
No entanto, como a garantia expira quando o MWI chega a 001, eu substituiria todas as unidades nesse momento.
Para referência futura, Media_Wearout_Indicatorcomeça em 100 para o meu SSD Intel 520 Series.
Pableu
Vale a pena notar que, mesmo que a unidade não "falhe" quando atingir 001, em algum momento depois (talvez um longo caminho depois), a capacidade de algumas unidades de reter dados quando a energia é perdida diminui para períodos alarmantes de tempo . Acho que houve alguns testes de resistência publicados online que mediram isso.
Sa289
6
As unidades Corsair também exportam um indicador similar de porcentagem de vida útil restante. No caso deles, é atributo 231:
(Observe que se o smartctl estiver exibindo isso como uma temperatura, você precisará atualizar o banco de dados do dispositivo. No meu sistema Debian, isso significa execução /usr/sbin/update-smart-drivedb)
Uma postagem no blog da Corsair parece mostrar que o valor nunca fica abaixo de 10%, então presumo que ele deva ser substituído em 10%.
Também tenho uma unidade OCZ com o mesmo controlador Sandforce que também exporta o mesmo valor SSD_Life_Left.
O Media_Wearout_Indicator é o que você está procurando. Para 100 significa que o seu ssd tem 100% de vida útil, o número mais baixo significa menos vida útil restante.
# smartctl -a /dev/sda | grep Media_Wearout_Indicator
É útil mencionar que, nesse caso, o valor normalizado deve ser usado.
Falcon Momot
1
Na verdade não. Se a unidade não mantiver estatísticas, você não saberia ao certo. Mesmo assim, o inversor abstraía os algoritmos de nivelamento de gravação e tentava otimizar as coisas ocultas, longe das chamadas e interfaces do sistema. Em outras palavras, a unidade pode facilmente mentir para você sobre onde os dados são realmente gravados na "mídia" para que você não saiba quais células estão obtendo atividade.
Isso ainda não garante quando / se você verá falhas ou erros. A unidade pode falhar amanhã, pode falhar em três anos.
A melhor opção é mantê-lo em uma configuração RAID e ter um plano para substituí-lo quando falhar (antes da outra unidade falhar) e garantir que seus backups estejam atualizados.
Media_Wearout_Indicator
começa em 100 para o meu SSD Intel 520 Series.As unidades Corsair também exportam um indicador similar de porcentagem de vida útil restante. No caso deles, é atributo 231:
(Observe que se o smartctl estiver exibindo isso como uma temperatura, você precisará atualizar o banco de dados do dispositivo. No meu sistema Debian, isso significa execução
/usr/sbin/update-smart-drivedb
)Uma postagem no blog da Corsair parece mostrar que o valor nunca fica abaixo de 10%, então presumo que ele deva ser substituído em 10%.
Também tenho uma unidade OCZ com o mesmo controlador Sandforce que também exporta o mesmo valor SSD_Life_Left.
fonte
O Media_Wearout_Indicator é o que você está procurando. Para 100 significa que o seu ssd tem 100% de vida útil, o número mais baixo significa menos vida útil restante.
Saída do meu laptop
Se você quiser ver mais detalhes e atributos completos de sua unidade, poderá executar
e a saída
http://namhuy.net/1024/how-to-check-ssd-life-left.html
fonte
Na verdade não. Se a unidade não mantiver estatísticas, você não saberia ao certo. Mesmo assim, o inversor abstraía os algoritmos de nivelamento de gravação e tentava otimizar as coisas ocultas, longe das chamadas e interfaces do sistema. Em outras palavras, a unidade pode facilmente mentir para você sobre onde os dados são realmente gravados na "mídia" para que você não saiba quais células estão obtendo atividade.
Isso ainda não garante quando / se você verá falhas ou erros. A unidade pode falhar amanhã, pode falhar em três anos.
A melhor opção é mantê-lo em uma configuração RAID e ter um plano para substituí-lo quando falhar (antes da outra unidade falhar) e garantir que seus backups estejam atualizados.
fonte