Frequência / vida útil da falha na bateria do cache do controlador RAID de hardware?

14

Estou em um ambiente que contém muitos servidores Supermicro equipados com controladores RAID de hardware Adaptec e LSI MegaRAID . Esses controladores contêm módulos de cache com bateria para ajudar a aumentar o desempenho de gravação e proteger os dados em trânsito.

Um suporte freqüente é a falha da bateria do controlador RAID. Isso muda a matriz do modo write-back para write-through . Há claramente um impacto negativo no desempenho, pois o sistema funciona com velocidade de gravação reduzida. Isso persiste até que uma janela de tempo de inatividade possa ser estabelecida para desligar o sistema e substituir a bateria.

Esta é uma operação muito rotineira para nós; quase semanalmente em vários milhares de servidores físicos ... Temos até estações de carregamento para preparar baterias de reposição para que possam ser trocadas sem um ciclo de carga.

Talvez eu esteja estragado por uma longa história com servidores HP ProLiant e controladores Smart Array RAID , mas os sistemas HP normalmente têm uma duração de bateria de 4-6 anos. Eles acabaram por eliminar o uso de baterias RAID por volta de 2009. Eles foram substituídos por módulos de memória com supercapacitor (cache de gravação com flash ou FBWC) e não requerem substituição, descarte ou um longo ciclo de carregamento inicial.

Como vejo as falhas da bateria dos controladores Adaptec e LSI às vezes ocorrendo em sistemas que estão em serviço há menos de 12 meses, pergunto-me se isso é comum em outros ambientes.

Se isso for comum, como outros ambientes de servidor grandes lidam com isso?

  • Algumas dicas ou truques para lidar com substituições de baterias RAID?
  • Existem parâmetros de configuração que podem ajudar?
  • Quão perturbador é isso para as operações em seu ambiente?
  • Poderia um arrefecimento e temperatura fracos do chassi ser um fator?
  • Estamos fazendo algo errado?
  • Os controladores Dell PERC são fabricados pela LSI. Os ambientes Dell experimentam a mesma duração de bateria curta?

Documentação do produto LSI que descreve uma bateria de nova geração que pode durar mais tempo em serviço que 1 ano. insira a descrição da imagem aqui

Servidor HP ProLiant DL585 G2 com mais de 1000 dias de atividade e uma feliz bateria RAID ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
ewwhite
fonte
2
Apenas uma dica: a última geração de controladores Adaptec também usa supercaps / flash em vez de baterias.
Sven
Oh, estou ciente de que todos os fabricantes têm soluções baseadas ASSESSUPLAN agora , mas dada a pegada de instalação existente, é difícil fazer uma ampla mudança na infra-estrutura.
Ewwhite 28/05
2
Eu nunca fiz isso (provavelmente porque parece uma péssima idéia e não tive o problema com tanta frequência quanto você), mas você pode tentar substituir uma bateria RAID em um servidor de teste enquanto estiver ligado. Deslize para fora, retire a tampa, desconecte a bateria defeituosa e conecte a bateria boa e, em seguida, volte ao rack ... Se tudo der certo, você terá um novo processo de substituição da bateria que não envolve tempo de inatividade.
agosto
2
@ Agosto Uhm, como procedimentos arriscados, isso soa muito alto na lista "OMG ONDE MEUS DADOS VIRAM".
Dan
2
Sim, com certeza ... Concordo que parece uma idéia horrível, mas, dada a situação e o requisito para não haver tempo de inatividade, pode valer a pena tentar em um servidor de teste (ou trinta servidores de teste ...) para ver se é possível. Qual é outra opção além de refazer a infraestrutura para não depender de baterias RAID individuais em milhares de servidores?
agosto

Respostas:

9

Eu suspeito que seus Supermicros estão quebrados de uma maneira ou de outra - possivelmente as baterias estejam superaquecendo. Os LSIs mais recentes relatariam a temperatura através do MegaCLI - você pode querer monitorar esse valor em servidores que precisem de substituição.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

Eu já vi alguns sistemas Dell e Fujitsu com controladores LSI BBU, nenhum deles tinha substituição anual da bateria (exceto que você estragou a bateria por descarga profunda). O tempo de vida típico é de 3 a 5 anos.

o wabbit
fonte
4
Eu acrescentaria que, a menos que o sistema autorize EXPLICITAMENTE a substituição a quente do RAID BBU, eu não tentaria. Nunca vi um sistema exigir a substituição anual da bateria de cache RAID. 3-5 anos é uma vida útil típica.
voretaq7
Eu acho que você percebeu!
Ewwhite 29/05
1

A duração média da bateria deve ser de 3-5 anos. E não esqueça que o FBWC baseado em flash também falha. Não sei por que / como, mas estávamos substituindo-os regularmente em nossos servidores HP. Deveria durar mais que a bateria, mas não tenho estatísticas de nossos servidores individuais.

A maneira padrão de impedir os efeitos de falha na bateria e no aprendizado da bateria é ter várias baterias. É assim que o armazenamento da HP (como o HP EVA) o possui. Você possui 2 baterias hot-plug e, enquanto uma está com carga baixa ou sendo substituída, o controlador funciona com a bateria restante. Não tenho certeza se é possível ter várias baterias conectadas ao SmartArray, mas a hpacucli diagsaída sugere que ele deva ser suportado:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         
Marki555
fonte
1

Minha experiência com as versões IBM das plataformas LSI em mais de algumas centenas de instalações é que a bateria média mal chega a 2 anos e a supercap não é melhor, algumas das quais podem ser corrigidas com uma atualização de firmware, mas a LSI simplesmente não a possui. certo. Eu tive cerca de 75% de falhas de supercap nos primeiros 2 anos.

Marca
fonte