Estou em um ambiente que contém muitos servidores Supermicro equipados com controladores RAID de hardware Adaptec e LSI MegaRAID . Esses controladores contêm módulos de cache com bateria para ajudar a aumentar o desempenho de gravação e proteger os dados em trânsito.
Um suporte freqüente é a falha da bateria do controlador RAID. Isso muda a matriz do modo write-back para write-through . Há claramente um impacto negativo no desempenho, pois o sistema funciona com velocidade de gravação reduzida. Isso persiste até que uma janela de tempo de inatividade possa ser estabelecida para desligar o sistema e substituir a bateria.
Esta é uma operação muito rotineira para nós; quase semanalmente em vários milhares de servidores físicos ... Temos até estações de carregamento para preparar baterias de reposição para que possam ser trocadas sem um ciclo de carga.
Talvez eu esteja estragado por uma longa história com servidores HP ProLiant e controladores Smart Array RAID , mas os sistemas HP normalmente têm uma duração de bateria de 4-6 anos. Eles acabaram por eliminar o uso de baterias RAID por volta de 2009. Eles foram substituídos por módulos de memória com supercapacitor (cache de gravação com flash ou FBWC) e não requerem substituição, descarte ou um longo ciclo de carregamento inicial.
Como vejo as falhas da bateria dos controladores Adaptec e LSI às vezes ocorrendo em sistemas que estão em serviço há menos de 12 meses, pergunto-me se isso é comum em outros ambientes.
Se isso for comum, como outros ambientes de servidor grandes lidam com isso?
- Algumas dicas ou truques para lidar com substituições de baterias RAID?
- Existem parâmetros de configuração que podem ajudar?
- Quão perturbador é isso para as operações em seu ambiente?
- Poderia um arrefecimento e temperatura fracos do chassi ser um fator?
- Estamos fazendo algo errado?
- Os controladores Dell PERC são fabricados pela LSI. Os ambientes Dell experimentam a mesma duração de bateria curta?
Documentação do produto LSI que descreve uma bateria de nova geração que pode durar mais tempo em serviço que 1 ano.
Servidor HP ProLiant DL585 G2 com mais de 1000 dias de atividade e uma feliz bateria RAID ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK
fonte
Respostas:
Eu suspeito que seus Supermicros estão quebrados de uma maneira ou de outra - possivelmente as baterias estejam superaquecendo. Os LSIs mais recentes relatariam a temperatura através do MegaCLI - você pode querer monitorar esse valor em servidores que precisem de substituição.
Eu já vi alguns sistemas Dell e Fujitsu com controladores LSI BBU, nenhum deles tinha substituição anual da bateria (exceto que você estragou a bateria por descarga profunda). O tempo de vida típico é de 3 a 5 anos.
fonte
A duração média da bateria deve ser de 3-5 anos. E não esqueça que o FBWC baseado em flash também falha. Não sei por que / como, mas estávamos substituindo-os regularmente em nossos servidores HP. Deveria durar mais que a bateria, mas não tenho estatísticas de nossos servidores individuais.
A maneira padrão de impedir os efeitos de falha na bateria e no aprendizado da bateria é ter várias baterias. É assim que o armazenamento da HP (como o HP EVA) o possui. Você possui 2 baterias hot-plug e, enquanto uma está com carga baixa ou sendo substituída, o controlador funciona com a bateria restante. Não tenho certeza se é possível ter várias baterias conectadas ao SmartArray, mas a
hpacucli
diag
saída sugere que ele deva ser suportado:fonte
Minha experiência com as versões IBM das plataformas LSI em mais de algumas centenas de instalações é que a bateria média mal chega a 2 anos e a supercap não é melhor, algumas das quais podem ser corrigidas com uma atualização de firmware, mas a LSI simplesmente não a possui. certo. Eu tive cerca de 75% de falhas de supercap nos primeiros 2 anos.
fonte