Tempo Médio para Falha (MTTF): Quando os fabricantes de discos publicam isso, como você deve interpretar seus números?

10

O Tempo Médio para Falha (MTTF) é geralmente fornecido em termos de horas e, ao fazer alguns cálculos, parece que um disco deve falhar somente após um bom número de anos.

Parece que os discos precisam ser reparados com mais frequência. Alguém sabe por que isso é assim?

Achei que havia algo suspeito nessa métrica. Estou interpretando algo errado aqui?

Kaitlyn Mcmordie
fonte

Respostas:

14

Primeiramente:

MTTF = Tempo médio para falha
MTTR = Tempo médio para reparo
MTBF = Tempo médio entre falhas = MTTF + MTTR

O MTBF geralmente é mais ou menos igual ao MTTF, pois o reparo pode levar uma hora e o MTTF pode levar dezenas de milhares de horas. Mas também o MTBF geralmente não é aplicável, pois produtos defeituosos não são reparados, mas simplesmente substituídos, porque o reparo custa mais do que substituir.

O cálculo do MTTF é um método estatístico complexo que envolve o cálculo das chances de falha de cada parte individual. E não é uma coisa linear, como as pessoas às vezes presumem. Se você tiver um MTTF de 1.000.000 horas, isso não significa que em 1000 dispositivos haverá um falhar após 1000 horas ou que ocorrerá uma falha em 1.000.000 de dispositivos após 1 hora.
Muitos dispositivos eletrônicos seguem a "curva da banheira" ,

insira a descrição da imagem aqui

onde há muitas falhas desde o início, depois de um longo período sem praticamente nenhuma falha, e próximo ao fim da vida, o número de falhas aumenta novamente. Nos discos rígidos, existem também algumas partes mecânicas com uma curva de falha mais linear; isso aumenta lentamente desde o dia 1.

Se o fabricante declarar, por exemplo, 1000.000 horas de MTTF (na maioria das vezes POH, ou Power-On Hours), significa que, em média, a unidade deve durar> 100 anos. Algumas unidades duram mais, outras falham mais cedo. Portanto, apesar das 1000 000 horas, é perfeitamente possível ter uma falha após 1000 horas. Certa vez, uma unidade falhou dentro de uma semana, e então você tem que pensar na curva da banheira. A unidade de substituição está girando alegremente há> 50k horas.

stevenvh
fonte
3
Algumas coisas dignas de nota podem ser o fato de as falhas iniciais serem chamadas de burn-in. Fabricantes com falhas iniciais muito mais baixas geralmente executam dispositivos na fase de queima. Também que a eletrônica pura não apresentam um desgaste fora período e apenas uma queimadura no.
Kortuk
1
Observe que, ao calcular o MTTF (ou MTBF), geralmente você usa apenas uma distribuição única para modelar as falhas. Portanto, o cálculo é baseado na distribuição "mortalidade infantil", "vida normal" ou "desgaste da vida útil". A única coisa que distingue essas três distribuições é o parâmetro de forma Weibull, se você estiver usando Weibull como sua distribuição básica. O único caso em que as falhas sairiam da distribuição "vida normal" é quando o tempo não teria efeito sobre a taxa de falhas e, portanto, a distribuição seria exponencial.
2
O MTTF é útil principalmente como uma indicação do tipo de vida que você deve esperar do dispositivo ou widget. Por razões óbvias, não pode ser uma previsão exata da data de falha do dispositivo. É apenas uma estimativa baseada na análise estatística dos dados disponíveis e deve ser considerada apenas como tal. Útil para orçamento (quanto tempo devo amortizar ou depreciar os custos aqui) e planejamento (quanto tempo podemos esperar que o widget funcione antes de ter o próximo)?
Music2myear 25/10/11
Primeiro, o que exatamente é uma "falha de disco"?
Kaitlyn Mcmordie 26/10/11
2
@ Kaitlyn - Eu acho que você está se referindo a setores defeituosos. Eu diria que uma falha no disco ocorre quando você não consegue mais ler ou gravar na unidade. Geralmente, um erro mecânico, como um choque na cabeça. Isso geralmente acontece quando você ainda tem muitos setores bons restantes.
Stevenvh 26/10/11
4

Se um equipamento possui um MTBF de 1.000.000 horas de uso, isso não significa que qualquer equipamento possa durar 1.000.000 horas. Em vez disso, significa, grosso modo, que se 1.000.000 de equipamentos que estiverem dentro da vida útil nominal de serviço forem operados por uma hora ou 100.000 peças por dez horas (mas ainda dentro da vida útil nominal) ou 60.000.000 por um minuto, etc. haverá aproximadamente uma falha no lote. Observe que a vida útil nominal do serviço é totalmente ortogonal ao MTBF. Considere os dois seguintes tipos de widgets:

  1. Todo widget, independentemente da idade, tem 0,1% de chance de falhar a cada hora.
  2. De cada bilhão de widgets, todos, exceto um, operam por precisamente 61 minutos e depois morrem; aquele morrerá após 30 minutos; os widgets têm uma vida útil de serviço especificada de 60 minutos.

O primeiro tipo de widget teria uma vida útil média de cerca de 1.000 horas e também um MTBF de cerca de 1.000 horas. O segundo teria uma vida útil média de 61 minutos, mas um MTBF de 1.000.000.000 horas dentro de sua vida útil. Embora possa parecer estranho dizer que o segundo dispositivo possui um MTBF quase bilhões de vezes o tempo de vida útil esperado, o MTBF dificilmente é um número sem sentido.

Suponha que alguém realize um experimento que exija que 1.000.000 de dispositivos funcionem perfeitamente por uma hora, após o que todos serão descartados. Se algum dispositivo falhar, toda a experiência será arruinada. O que seria mais útil - um dispositivo que dure em média 1.000 horas, mas tenha um MTBF de apenas 1.000 horas ou um dispositivo que dure no máximo 61 minutos, mas que tenha apenas uma chance em um bilhão de falhas em encontrar essa marca?

supercat
fonte
Portanto, a conclusão é que não devemos ver o MTBF de 10 ^ 6 horas como a "vida útil média" de qualquer disco em particular, mas como uma medida referente à vida útil de vários discos?
Kaitlyn Mcmordie
@ Kaitlyn Mcmordie: O termo "tempo de vida" não é realmente aplicável; a morte não implica fracasso, nem vice-versa. O fabricante de um dispositivo de armazenamento pode especificar procedimentos que devem ser seguidos para evitar a perda de dados; esses procedimentos podem incluir mover todos os dados de qualquer dispositivo que indique uma "falha iminente" para um novo dispositivo (após a cópia dos dados, o dispositivo antigo seria considerado "morto"). Se nenhuma perda de dados ocorrer de um evento como esse, não será uma falha. A perda de dados que ocorre em qualquer dispositivo, no entanto, mesmo aparentemente saudável, é uma falha. Nada a ver com a vida.
Supercat 26/10
2

Acrescentando à resposta de stevenvh: Os fabricantes de discos conhecidos realizam uma queima de novos dispositivos, assim como os fabricantes de componentes eletrônicos. Nos discos rígidos, não há apenas um MTBF e MTTF geral, mas também estatísticas de falhas individuais para os blocos dos discos. Em outras palavras: Algumas partes do disco giratório "platter" no disco podem falhar, enquanto a maioria ainda lê / escreve ok. Os chamados "setores defeituosos" podem ser detectados e mapeados pelo firmware dentro da unidade.

Hoje, todas as unidades contêm setores adicionais em reserva que podem ser usados ​​no lugar dos setores defeituosos. Isso é simplesmente uma precaução do fabricante: se eles não fizessem isso, não poderiam vender o disco na capacidade proclamada. Se eles constroem um x% adicional de setores ocultos como reserva, aumentam o custo em cerca de <x%, mas atingem um rendimento geral de produção muito maior.

Hoje, os discos mantêm uma contagem de setores defeituosos que também podem ser lidos com o software apropriado. Este e outros parâmetros de integridade do disco (por exemplo, temperatura) são chamados de valores SMART .

Agora, depois que o fabricante faz o teste de queima do inversor e alguns setores têm quase uma falha e foram remapeados pelo firmware interno do inversor, o parâmetro SMART "Bad Sector Count" é definido como 0. Em seguida, o unidade é entregue aos clientes.

Geralmente, após o processo de queima, o início da curva da banheira que já foi mencionada não é mais visto pelo cliente. Temos sorte e só vemos um aumento na probabilidade de falhas ao longo do tempo.

Portanto, se você observar o MTTF que é citado pelo fabricante, para qualquer modelagem de falha que desejar, desconsidere o início da curva da banheira.

cfi
fonte
Obrigado. Btw, você tem alguma idéia do significado do termo "falha do servidor"?
Kaitlyn Mcmordie 26/10/11
O significado óbvio é um erro encontrado por um computador que fornece serviços a terceiros. E eu acredito que é o momento onde você deveria fazer perguntas sobre serverfault.com ;-) Não foi possível encontrar nada sobre isso no FAQ
TPI
-2

Você deve interpretar isso como marketing. Na verdade, eles não conhecem o MTBF (tempo médio entre falhas) exato, então usam vários truques para estimar e mostram números mais altos para as unidades 'corporativas' para justificar seu custo.

Na realidade, é rentável que os fabricantes de HDDs falhem logo após o término da garantia.

Como teoria da conspiração, acredito que a falha em massa do Seagate 7200.11 foi um erro ao implementar a 'morte programada', causando a falha dos discos antes do término da garantia, então eles tiveram que 'consertar' isso com a atualização do firmware.

BarsMonster
fonte
Eu não compro esse argumento de conspiração.
1
@Federico Russo: Por quê? Você acha que é apenas um erro comum dos desenvolvedores, fazendo com que os HDDs travem em um estado não recuperável após certo número de horas?
BarsMonster
2
-1: A análise estatística é usada para determinar os números do MTBF e é conhecida por uma determinada estatística - eles não estão apenas usando "vários truques". Você precisará de algumas fontes significativas para fazer backup de suas afirmações de que os discos corporativos são apenas números mais altos, que os fabricantes de HDDs falham após o término da garantia e que a Seagate implementa qualquer tipo de 'morte programada' em seus discos.
Kevin Vermeer
1
É do interesse dos fabricantes de inversores mostrar MTTF mais alto do que seus concorrentes. 1
tyblu 25/10/11
O que exatamente é uma falha de disco? O que conta para um?
Kaitlyn Mcmordie 26/10/11