Eu queria saber se é uma boa idéia substituir um disco rígido em um servidor de banco de dados crítico do sistema após um certo número de anos de uso, antes que ele morra.
Por exemplo, eu estava pensando em substituir um disco rígido após três anos de uso. Como tenho muitos discos rígidos nos servidores, posso escalonar quais discos rígidos são substituídos.
É uma boa ideia ou as pessoas apenas esperam pelo fracasso?
fonte
Não.
Um dos maiores problemas com a substituição de um disco rígido em um servidor de produção ativo é que isso provocará uma reconstrução. Especialmente se você estiver usando RAID5, e especialmente se estiver usando unidades grandes, forçar uma reconstrução cria um risco muito significativo de uma falha irrecuperável. O risco de perder a matriz durante uma reconstrução é muito maior do que o risco de deixar uma unidade de 3 anos de idade no lugar.
Tomando um exemplo extremo, se você substituir sucessivamente todos os discos em uma matriz RAID5 de 6 discos composta por discos de 2 TB, seu risco teórico de um erro de leitura irrecuperável durante uma das reconstruções é de aproximadamente 58% (de acordo com a matemática dos meus guardanapos; faça o seu próprio e compare as notas). Em outras palavras: sua substituição "preventiva" de disco é, na verdade, nada menos que um ato de sabotagem.
O único momento em que eu consideraria atualizar as unidades em um servidor antigo seria "restaurá-lo", por exemplo, depois de ter sido descomissionado de uma tarefa e antes de colocá-lo novamente em serviço com uma nova função. Mesmo nesse ponto, os requisitos de capacidade e desempenho seriam muito mais importantes do que a idade das unidades.
fonte
Eu não vi isso. Mantemos os servidores sob garantia até que sejam retirados de produção - 5 anos. O RAID 5 padrão permite que você sobreviva a uma falha no disco, mantendo apenas algumas unidades à mão para iniciar uma reconstrução imediatamente e em servidores críticos, incluímos um hotspare ou o RAID 10.
Se você notou várias unidades com falha recentemente em um servidor, você pode ter um problema no painel traseiro. Também pode haver nova vibração ou poeira de construções próximas.
fonte