Tempo médio entre falhas - SSD

32

O tempo médio entre falhas , ou MTBF, para este SSD é listado como 1,500,000horas.

Isso é muitas horas. 1,500,000horas são aproximadamente 170anos. Como a invenção desse SSD em particular é pós-Guerra Civil, como eles sabem o que é o MTBF?

Algumas opções que fazem sentido para mim:

  • Newegg só tem um erro de digitação
  • A definição de tempo médio entre falhas não é o que eu acho que é
  • Eles estão usando algum tipo de extrapolação estatística para estimar qual seria o MTBF

Questão:

Como é obtido o tempo médio entre falhas (MTFB) para SSD / HDDs?

OSE
fonte
Por exemplo, serverfault.com/q/257693/126632
Michael Hampton

Respostas:

34

Os fabricantes de unidades especificam a confiabilidade de seus produtos em termos de duas métricas relacionadas: a taxa de falha anualizada (AFR), que é a porcentagem de unidades de disco em uma população que falha em um teste dimensionado para uma estimativa por ano; e o tempo médio até a falha (MTTF).

O AFR de um novo produto é normalmente estimado com base em testes acelerados de vida e estresse ou em dados de campo de produtos anteriores. O MTTF é estimado como o número de energia em horas por ano dividido pelo AFR. Uma suposição comum para as unidades nos servidores é que elas são ligadas 100% do tempo.

http://www.cs.cmu.edu/~bianca/fast/

MTTF de 1,5 milhão de horas parece um tanto plausível.

Isso seria aproximadamente um teste com 1000 unidades em execução por 6 meses e 3 unidades com falha.
O AFR seria (2 * 6 meses * 3) / (1000 unidades) = 0,6% ao ano e o MTTF = 1 ano / 0,6% = 1.460.967 horas ou 167 anos.

Uma maneira diferente de ver esse número é quando você tem 167 unidades e as deixa em funcionamento por um ano, o fabricante afirma que, em média, você verá uma unidade falhar.

Mas espero que seja simplesmente a constante taxa de falha mecânica / eletrônica "aleatória".

Supondo que as taxas de falha sigam a curva da banheira , como mencionado nos comentários, a equipe de marketing do fabricante pode massagear um pouco os números de confiabilidade, por exemplo, não incluindo DOA'S (morto na chegada, unidades que passaram no controle de qualidade, mas falham quando o usuário final) instala-os) e estende a definição de DOA para também excluir aqueles no pico inicial de falhas. E como o teste não é realizado por tempo suficiente, você também não verá efeitos da idade.

Acho que o período de garantia é uma indicação melhor de quanto tempo um fabricante realmente espera que um SSD dure!
Definitivamente, isso não será medido em décadas ou séculos ...


Associada ao MTBF está a confiabilidade associada ao número finito de ciclos de gravação que as células NAND podem suportar. Uma métrica comum é a capacidade total de gravação, geralmente em TB. Além de outros requisitos de desempenho, esse é um grande limitador.

Para permitir uma comparação mais conveniente entre marcas diferentes e unidades de tamanhos diferentes, a resistência de gravação é frequentemente convertida em capacidade de gravação diária como uma fração da capacidade do disco.

Supondo que uma unidade tenha uma vida útil longa desde que esteja sob garantia:
um SSD de 100 GB pode ter uma garantia de 3 anos e uma capacidade de gravação de 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Quanto maior esse número, mais adequado o disco será para E / S intensivas de gravação.
No momento (final de 2014), os SSDs da linha de servidores de valor têm um valor de 0,3-0,8 unidade / dia, o intervalo médio está aumentando constantemente de 1 a 5 e o high-end parece disparar com níveis de resistência de gravação de até 25 * a capacidade da unidade por dia por 3-5 anos.

Alguns testes no mundo real mostram que, às vezes, as reivindicações do fornecedor podem ser massivamente excedidas, mas conduzir equipamentos além dos limites do fornecedor nem sempre é uma consideração da empresa ... Em vez disso, compre unidades especificadas corretamente para seus propósitos.

HBruijn
fonte
1
Observe que a conversão de AFR para MTTF assume um AFR constante. Isso não é verdade para itens com partes móveis (por exemplo, discos rígidos) e pode não ser verdade para SSDs.
Mark
Definitivamente verdade. No IIRC, ocorre um pico de falha precoce, um período de baixa falha e, em seguida, um aumento constante da AFR com o aumento da idade. Adicione fatores ambientais variáveis ​​e o número do mundo real se torna muito maior. Como o @Chris S mencionou, o período de garantia pode ser uma métrica melhor com impacto útil no mundo real.
precisa saber é o seguinte
Boa visão preocupante de que um MTBF de 1'500'000 horas significa realmente "Se eu tiver 1000 ssd como este, é provável que 3 falhem dentro de 6 meses (alguns até antes disso) ...". +1 (e, como os testes duram um curto período, espere que a vida útil deles não exceda muito a garantia ... o "MTBF" provavelmente cairá muito quando sua unidade atingir N anos)
Olivier Dulac
1
@HBruijn Obrigado pela sua resposta informativa. O fenômeno ao qual você está se referindo (pico inicial de falhas, período de baixas falhas e aumento constante de falhas) é descrito pela curva da banheira .
OSE
19

Infelizmente, o MTBF não é o que a maioria das pessoas pensa ...

  • Não é quanto tempo uma unidade individual vai durar.

    Os fabricantes esperam que suas unidades durem tanto quanto a garantia, depois disso realmente não é problema deles. Os discos rígidos de pratos eletromagnéticos mais antigos ficam presos após 10 anos ou mais. Os circuitos integrados duram um tempo extremamente longo, mas outros componentes (principalmente capacitores) se desgastam após um número previsível de ciclos.

  • Ele é quantas dessas unidades você precisa esperar um carro a falhar a cada hora.

    Como outros salientaram, os fabricantes fazem vários testes por um período razoável e determinam uma taxa de falhas. Há uma quantidade razoável de variação nesses tipos de testes e o marketing geralmente tem "informações" sobre qual deve ser o número final. Independentemente disso, eles fazem um esforço para adivinhar quantas unidades seriam necessárias para calcular uma falha média por hora.

    Para situações com menos unidades, é possível inferir uma probabilidade estatística de falha com base no MTBF, mas lembre-se de que as falhas em produtos bem projetados devem seguir uma curva de "banheira" - que é maior taxa de falha quando os dispositivos são colocados em serviço e depois seu período de garantia expirou, com taxas de falha mais baixas no meio.

Chris S
fonte
2

Eles provêm de uma avaliação estatística baseada em um pequeno tamanho de amostra e em um curto período de tempo. Não há realmente nenhum método ou processo acordado universalmente, portanto, é realmente apenas 'marketing' bobo.

Este artigo pode explicar um pouco mais. E a Wikipedia tem algumas fórmulas que podem ser o que você está procurando?

Essencialmente, para quase tudo (incluindo máquinas domésticas em geral, como uma máquina de lavar louça), vários produtos são executados por um período de tempo X. Quantas falhas ocorrem durante esse período são usadas para calcular o MTFB.

Obviamente, não é viável executar produtos por um ciclo de vida inteiro, ou seja, SSDs, que durarão muito tempo. Eles são limitados principalmente pela quantidade de gravações, e não por falhas mecânicas (que é o objetivo do MTFB)

bhavicp
fonte
2

As más notícias sobre o MTBF são que métodos comuns de avaliação supõem uma carga de gravação distribuída uniformemente entre todas as células NAND. Mas as células são agrupadas nos clusters e quando uma única célula falha - todo o cluster é marcado como morto e é substituído por um novo da reserva. Normalmente, a reserva é de cerca de 20% do volume do SSD. Quando a reserva estiver esgotada, o SSD inteiro será marcado como morto.

O IRL SSD contém dados persistentes e voláteis. Imagine que você tenha 90% do SSD preenchido com dados estáticos e o restante de 10% esteja sob a pesada carga de gravação. O controlador SSD distribui a carga entre os clusters gratuitos disponíveis. Esses 10% esgotam sua vida útil 10 vezes mais rápido do que você calculou. Eles serão substituídos da reserva várias vezes até o fim.

No caso realmente ruim em que a quantidade de dados persistentes / voláteis é 30: 1 ou superior, por exemplo - pilha de fotos e banco de dados relativamente pequeno para sites populares, seu SSD morrerá em um ano.

Um de meus clientes ficou muito impressionado com as características do SSD e insistiu em equipar seu servidor DBMS com dois deles. Nos próximos 12 meses, substituímos os dois duas vezes.

Mas de acordo com a vida útil dos materiais de marketing do SSD é de 170 anos. Certo.

Kondybas
fonte
1

O MTBF não é relevante para medir a resistência da unidade SSD, uma vez que a SSD não é sensível, por enquanto, como uma unidade HDD rotativa comum, mas pelo número de reescritas para células SSD. A medida mais relevante para o SSD é a Gravação de unidade por dia (DWPD) . Por exemplo, alguns discos SSD de classe empresarial com resistência de 3,2 TB seriam 3 DWPD por 5 anos.

Algumas vezes, o fornecedor de SSD fornece resistência em termos de (Total) Terabytes gravados (TBW) ou "Write Cycles", que podem ser facilmente traduzidos para DWPD e vice-versa, sabendo o tempo e o rendimento máximo da unidade SSD fornecida.

Para o exemplo dado com a unidade SSD de 3,2 TB:
TBW = DriveSize * Years * DWPD;
TBW = 3,2 TB * 5 * 365 * 3d = 17520 TB por 5 anos

Se a unidade fornecer taxa de transferência sustentável de gravação de 80 MByte por segundo,
WriteCycles = DWPD * Anos;
WriteCycles = 3 * 365 * 5 = 5475 ciclos totais de gravação para o disco fornecido

É importante notar que estamos calculando o pior caso, se você fornecer 100% de taxa de transferência de utilização para a unidade (o que provavelmente não é possível).

BBK
fonte