Por que a unidade Hitachi HDS5C3020 não particionada começa a consumir 50% mais energia 15 minutos após a inicialização?

19

Em um sistema Debian 6.0.6, existem 74 unidades de 2TB Toshiba DT01ABA200. Essas unidades são identificadas como unidades Hitachi HDS5C3020BLE630 executando a revisão de firmware MZ4OAAB0. 64 Unidades conectadas via placas de expansão HP SAS a um controlador SAS LSI 2008, outras 5 unidades são conectadas diretamente à placa principal, 4 unidades são conectadas a um controlador PCI baseado em Sil e a última 1 unidade é alimentada apenas e não possui um cabo de dados conectado. O LSI do controlador e o BIOS interno da placa Sil estão desabilitados e os módulos mpt2sas e sata_sil são removidos do kernel Linux debian 2.6.32-5-amd64 # 1 SMP Sun Sep 23 10:07:46 UTC 2012 x86_64 GNU / Linux kernel. O módulo mpt2sas é carregado após a inicialização usando um comando modprobe em /etc/rc.local. Essas 74 unidades não são particionadas, nem formatadas e também não montadas.

O sistema consome:

  • com 0 unidades : 70,6 - 70,9 Watt (também 15 minutos após a inicialização);
  • com 74 unidades : 330 - 360 Watt, logo após a inicialização (é equivalente a 3,5 - 3,9W por unidade no estado ocioso);
  • com 74 unidades : 420 - 466 Watt, sempre no 15º minuto de tempo de atividade (é equivalente a 4,7 - 5,3W por unidade no estado inativo).

A especificação do inversor lista 4,7W como leitura / gravação e 3,3W como consumo de energia ocioso.

O aumento do consumo de energia é mais provável na linha de 5V, porque após aproximadamente 1 minuto uma "proteção contra sobrecorrente" (OCP) da fonte de alimentação (PSU) desliga a energia. A PSU usada é um modelo de trilho único com um OCP de> 122A na linha de 12V e> 55A na linha de 5V.

Regressão:

  • Não importa se o valor APM da unidade está definido como desativado ou 1 (economia máxima de energia).
  • O sistema operacional não registra nenhuma atividade de leitura / gravação /proc/diskstats. Os valores são idênticos (28 operações de leitura, 0 de gravação) imediatamente após a operação modprobe.
  • Não é possível testar o que acontece ao inicializar na BIOS a placa principal - para excluir qualquer intervenção do SO - porque a placa principal Super Micro X8SI6-F executando o firmware 27/06/12 possui um erro que lê incorretamente uma temperatura do sensor da CPU +74,0 C como " Alta "no modo BIOS e desliga a energia após 1 minuto.

O que pode estar causando a atividade de leitura / gravação da unidade em todas as unidades no 15º minuto após a inicialização e como impedir que isso aconteça?

Pro Backup
fonte
Apenas curioso ... Que tipo de sistema é esse? Sistema de backup? Todo o software RAID?
ewwhite
Atualmente apenas testando, destinado ao armazenamento de backup sem nenhum RAID. A redundância será fornecida por servidores secundários e terciários opcionais.
Pro Backup
O @ewwhite me lembra os pods do Backblaze. Alguém tinha que mencionar esse nome.
Dmitri Chubarov
@Dmitri Chubarov É como um pod de armazenamento Backblaze, mas sem multiplicadores de portas SATA, 5U de altura, sem RAID, 74 em vez de 45 unidades, um único PSU, apenas 2,0 Watt de consumo de energia para refrigeração e quando todas as unidades estão girando ociosas diferença de temperatura de 6 graus entre a unidade mais fria e a mais quente.
Pro Backup

Respostas:

20

Parece muito com as unidades que estão fazendo a limpeza SMART (teste offline automático).

smartctl -a /dev/hdx

deve confirmar a configuração com:

Auto Offline Data Collection: Enabled.

Desativar com:

smartctl --offlineauto=off /dev/hdx

Também poderia ser outra coisa ...

Chris S
fonte
smartctl --offlineauto=offfez o truque. Pelo menos por 32 minutos, não há mais aumentos enormes no consumo de energia, causando o desligamento do OCP da PSU. Como um bônus, o hdparm -SX agora está configurando unidades de "ativo / inativo" para "em espera". No entanto, as unidades conectadas ao controlador sata_sil não podem ser controladoras. Conectar temporariamente essas unidades a outro controlador é a solução alternativa. A configuração de coleta de dados offline sobrevive às reinicializações e aos ciclos de energia.
Pro Backup