O tempo médio entre falhas pode ser difícil de interpretar, mas há um método estatístico variado que você pode usar se tiver alguns dados concretos.
O problema é que ninguém mais informa seus números MTBF. (Além dos fabricantes de discos rígidos, pelo menos.)
Onde você encontra os dados MTBF para componentes e servidores?
Respostas:
Por que o MTBF não importa
O tempo médio entre o número da falha não é tão importante quanto a taxa de erro incorrigível. O MTBF lida com a falha completa da peça, leia a unidade. No entanto, esse número não faz sentido quando um único bit com erro causa pânico no RAID 5 e coloca o hot spare em jogo.
Embora o MTBF para unidades de nível profissional e consumidor tenha aumentado em uma ordem de magnitude nos últimos anos, a taxa de erro incorrigível permaneceu relativamente constante. Essa taxa é estimada em 10 ^ 14 bits, portanto, um bit por 12 terabytes de leitura, para unidades SATA de consumo, fonte .
Por que você deve perder o sono sobre o seu array RAID 5
Portanto, são apenas 6 passagens de uma nova unidade de 2 TB. Quanto tempo leva para ler 12Tb de dados? Muito menos tempo que o MTBF para essa unidade.
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
O que é mais preocupante é a chance de uma falha de leitura dupla em uma matriz RAID 5 que consiste em unidades tão grandes. Com uma matriz RAID 5 de 7 TB, a probabilidade de uma segunda leitura durante uma reconstrução de RAID é de 50%.
http://blogs.zdnet.com/storage/?p=162
fonte
É uma pena que as pessoas pensem que os números do MTBF não se aplicam a sistemas complexos. O verdadeiro problema (afaik) é que os fabricantes não têm os valores de MTBF para seus módulos de hardware. Estes são números que devem estar disponíveis por todos os direitos. Dell dizendo "A Dell não lista mais MTBFs específicos para seus servidores". é realmente atroz! Eles também podem dizer "Bem, nossas coisas realmente não são confiáveis o suficiente para serem usadas onde é necessário um número de MTBF".
O engenheiro de confiabilidade (ou cara usando o chapéu do RE) deve limitar o escopo do estudo de disponibilidade. Isso geralmente é limitado aos módulos de hardware.
Quanto à classificação do que constitui uma falha ... Bem, é por isso que realizamos uma análise FMECA.
Os sistemas são complexos e os modos de falha incluem falhas de software, mas esse não é o escopo do estudo. Queremos figuras MTBF para hardware. Peça ao seu vendedor para fornecer isso. É responsabilidade técnica deles fornecer a você ... Se eles recusarem ou se afastarem, vá a algum lugar que possua servidores de telecomunicações com valores de disponibilidade obrigatórios para hardware.
fonte
Eu vi o MTBF relatado nos sites de suporte da empresa. Converse com seu vendedor ou SE para obter as informações.
fonte
Na minha opinião, os números MTBF se tornaram uma ferramenta de vendas. O hardware moderno atingiu um estado em que os números MTBF são essencialmente inúteis. Até o mais baixo dos fornecedores de baixa bola está produzindo hardware que supera qualquer ciclo de atualização sensato. Como você observa, ninguém está relatando números MTBF. Eu acredito que este é o motivo.
fonte
Infelizmente, o MTBF não é uma medida prática ou confiável em servidores modernos. O conceito todo do MTBF é que, se um modelo / configuração específico estiver sendo usado por muitos por um longo tempo, provavelmente saberemos sua confiabilidade.
Hoje, a maioria de nós negocia com satisfação uma confiabilidade extra em potencial por desempenho extra comprovado e eficiência de energia. Por exemplo, você construiria seus novos servidores com um hardware de 18 a 24 meses apenas porque provou sua confiabilidade? ou basta ir com a última geração de CPUs com mais núcleos, potência e eficiência de energia?
Além disso, diferentemente dos sistemas de telefonia tradicionais, os sistemas são bastante personalizados e, é claro, fortemente dependentes de software. Quão confiável é a versão do BIOS x.xx ou a versão do driver y.aaa? Os patches mais recentes do servidor OS / DB / app aumentam a estabilidade ou apresentam regressões de estabilidade? Quantos servidores no mundo realmente usam a mesma mistura exata de versão de hardware / pilha que você?
Se você precisar de alta disponibilidade, precisará adicionar redundância ao seu sistema (tudo duplo, cluster, hot spares, DRP, o que você tem). Portanto, a confiabilidade relativa de cada componente de hardware normalmente não é um fator significativo, à medida que você constrói sua infraestrutura para sobreviver a falhas de componentes únicos. Apenas viva com a incerteza (a confiabilidade é retroativa) e planeje de acordo.
fonte
Concordo com a maioria das outras respostas: os números MTBF não são úteis para mim e nunca os verifico.
A única exceção são os discos rígidos, mas mesmo assim, eu só olho para o MTBF de uma maneira muito grosseira, comprando os mais confiáveis "drives de classe de servidor" se houver uma opção.
fonte