Primeiramente:
MTTF = Tempo médio para falha
MTTR = Tempo médio para reparo
MTBF = Tempo médio entre falhas = MTTF + MTTR
O MTBF geralmente é mais ou menos igual ao MTTF, pois o reparo pode levar uma hora e o MTTF pode levar dezenas de milhares de horas. Mas também o MTBF geralmente não é aplicável, pois produtos defeituosos não são reparados, mas simplesmente substituídos, porque o reparo custa mais do que substituir.
O cálculo do MTTF é um método estatístico complexo que envolve o cálculo das chances de falha de cada parte individual. E não é uma coisa linear, como as pessoas às vezes presumem. Se você tiver um MTTF de 1.000.000 horas, isso não significa que em 1000 dispositivos haverá um falhar após 1000 horas ou que ocorrerá uma falha em 1.000.000 de dispositivos após 1 hora.
Muitos dispositivos eletrônicos seguem a "curva da banheira" ,
onde há muitas falhas desde o início, depois de um longo período sem praticamente nenhuma falha, e próximo ao fim da vida, o número de falhas aumenta novamente. Nos discos rígidos, existem também algumas partes mecânicas com uma curva de falha mais linear; isso aumenta lentamente desde o dia 1.
Se o fabricante declarar, por exemplo, 1000.000 horas de MTTF (na maioria das vezes POH, ou Power-On Hours), significa que, em média, a unidade deve durar> 100 anos. Algumas unidades duram mais, outras falham mais cedo. Portanto, apesar das 1000 000 horas, é perfeitamente possível ter uma falha após 1000 horas. Certa vez, uma unidade falhou dentro de uma semana, e então você tem que pensar na curva da banheira. A unidade de substituição está girando alegremente há> 50k horas.
Se um equipamento possui um MTBF de 1.000.000 horas de uso, isso não significa que qualquer equipamento possa durar 1.000.000 horas. Em vez disso, significa, grosso modo, que se 1.000.000 de equipamentos que estiverem dentro da vida útil nominal de serviço forem operados por uma hora ou 100.000 peças por dez horas (mas ainda dentro da vida útil nominal) ou 60.000.000 por um minuto, etc. haverá aproximadamente uma falha no lote. Observe que a vida útil nominal do serviço é totalmente ortogonal ao MTBF. Considere os dois seguintes tipos de widgets:
O primeiro tipo de widget teria uma vida útil média de cerca de 1.000 horas e também um MTBF de cerca de 1.000 horas. O segundo teria uma vida útil média de 61 minutos, mas um MTBF de 1.000.000.000 horas dentro de sua vida útil. Embora possa parecer estranho dizer que o segundo dispositivo possui um MTBF quase bilhões de vezes o tempo de vida útil esperado, o MTBF dificilmente é um número sem sentido.
Suponha que alguém realize um experimento que exija que 1.000.000 de dispositivos funcionem perfeitamente por uma hora, após o que todos serão descartados. Se algum dispositivo falhar, toda a experiência será arruinada. O que seria mais útil - um dispositivo que dure em média 1.000 horas, mas tenha um MTBF de apenas 1.000 horas ou um dispositivo que dure no máximo 61 minutos, mas que tenha apenas uma chance em um bilhão de falhas em encontrar essa marca?
fonte
Acrescentando à resposta de stevenvh: Os fabricantes de discos conhecidos realizam uma queima de novos dispositivos, assim como os fabricantes de componentes eletrônicos. Nos discos rígidos, não há apenas um MTBF e MTTF geral, mas também estatísticas de falhas individuais para os blocos dos discos. Em outras palavras: Algumas partes do disco giratório "platter" no disco podem falhar, enquanto a maioria ainda lê / escreve ok. Os chamados "setores defeituosos" podem ser detectados e mapeados pelo firmware dentro da unidade.
Hoje, todas as unidades contêm setores adicionais em reserva que podem ser usados no lugar dos setores defeituosos. Isso é simplesmente uma precaução do fabricante: se eles não fizessem isso, não poderiam vender o disco na capacidade proclamada. Se eles constroem um x% adicional de setores ocultos como reserva, aumentam o custo em cerca de <x%, mas atingem um rendimento geral de produção muito maior.
Hoje, os discos mantêm uma contagem de setores defeituosos que também podem ser lidos com o software apropriado. Este e outros parâmetros de integridade do disco (por exemplo, temperatura) são chamados de valores SMART .
Agora, depois que o fabricante faz o teste de queima do inversor e alguns setores têm quase uma falha e foram remapeados pelo firmware interno do inversor, o parâmetro SMART "Bad Sector Count" é definido como 0. Em seguida, o unidade é entregue aos clientes.
Geralmente, após o processo de queima, o início da curva da banheira que já foi mencionada não é mais visto pelo cliente. Temos sorte e só vemos um aumento na probabilidade de falhas ao longo do tempo.
Portanto, se você observar o MTTF que é citado pelo fabricante, para qualquer modelagem de falha que desejar, desconsidere o início da curva da banheira.
fonte
Você deve interpretar isso como marketing. Na verdade, eles não conhecem o MTBF (tempo médio entre falhas) exato, então usam vários truques para estimar e mostram números mais altos para as unidades 'corporativas' para justificar seu custo.
Na realidade, é rentável que os fabricantes de HDDs falhem logo após o término da garantia.
Como teoria da conspiração, acredito que a falha em massa do Seagate 7200.11 foi um erro ao implementar a 'morte programada', causando a falha dos discos antes do término da garantia, então eles tiveram que 'consertar' isso com a atualização do firmware.
fonte