Como monitorar o status do disco rígido por trás do Dell PERC H710 Raid Controller com CentOS 6?

26

Tenho um servidor Dell em execução CentOS 6usando a PERC H710placa Raid Controller com a configuração Raid 5 e quero monitorar a falha do disco rígido / status de trabalho atrás do Raid Controller.

Então, eu devo poder usar um script bash para monitorar o status do disco rígido e enviar e-mails de alerta se algo der errado.

A LSI MegaRAID SASferramenta de comando (Sobre as Ferramentas Linux LSI MegaRAID SAS) para CentOS / Red Hat / Linux NÃO suporta PERC H710 e smartctltambém não.

Baseado no site da Dell, o CentOSIS não é suportado por este servidor ( NX3200 PowerVault) e não consegui baixar nenhum programa Linux para monitorar o disco rígido.

[root@server ~]# lspci | grep RAID
03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05)


[root@server ~]# smartctl -a /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               DELL
Product:              PERC H710
Revision:             3.13
User Capacity:        299,439,751,168 bytes [299 GB]
Logical block size:   512 bytes
Logical Unit id:      ....
Serial number:        ....
Device type:          disk
Local Time is:        Tue Apr 15 16:38:30 2014 SGT
Device does not support SMART

Error Counter logging not supported
Device does not support Self Test logging

Alguém sabe como monitorar o status do disco rígido por trás da invasão de hardware no Dell PERC H710 com o CentOS 6?

Xianlin
fonte

Respostas:

26

SMART não é a palavra final em monitoramento de disco ou armazenamento! É um componente, mas os controladores RAID modernos o utilizam juntamente com outros métodos para determinar a integridade da unidade e da matriz.

Suponho que este seja um controlador PERC em um servidor Dell PowerEdge.

A abordagem normal do Linux para o monitoramento da integridade do hardware da Dell é instalar os agentes do Dell OMSA para Linux via Yum - http://linux.dell.com/wiki/index.php/Repository/OMSA#Yum_setup

yum install srvadmin-allinstalará o conjunto completo de agentes. Uma vez instalado, você pode usar o omreportcomando para obter informações sobre sua matriz.

Exemplos:

$ omreport storage vdisk

$ omreport storage pdisk controller=0

$ omreport storage vdisk controller=0 vdisk=1
ewwhite
fonte
7
isso instalará componentes extras, como servidor web / ssl, em minhas máquinas Linux, mas parece que não tenho outra opção! Detesto adicionar pacotes desnecessários ao meu servidor.
Xianlin
2
Cuidado com o vazamento de memória em potencial de um desses programas OMSA. Isso aconteceu comigo lentamente ao longo de 3-4 semanas e depois cresceu, sem mais memória para o Linux.
bksunday
1
Sim, o vazamento está no dsm_sa_snmpd (então eu corro 'killall -9 dsm_sa_snmpd', resolvido).
markusN
5
Os controladores PERC 7xx e 8xx são apenas controladores LSI Megaraid e a ferramenta LSI MegaCLI funcionará perfeitamente se você não quiser manchar seu sistema com as bibliotecas da dell e quaisquer outros serviços e / ou módulos de kernel que eles estão descartando atualmente. Existem muitas dicas do MegaCLI, scripts de monitoramento de nagios e dicas de ajuste de desempenho disponíveis para o binário LSI. Essa é apenas a minha preferência pessoal e opinião, é claro. Eu sou minimalista.
Aaron
@Xianlin, isso não é totalmente verdade. Sim, ele instalará muito lixo, mas veja minha resposta. Como não queria adicionar pacotes desnecessários, descobri apenas os necessários para armazenamento.
Mike S
25

Você pode ver o status SMART dos discos com o comando smartctl e seu -dargumento. Por exemplo, para ver o primeiro disco na matriz:

# smartctl -a /dev/sda -d sat+megaraid,00
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.6.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST91000640NS
Serial Number:    ........
LU WWN Device Id: . ...... .........
Firmware Version: AA08
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P     showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jul 10 11:21:52 2014 WEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
...
...
#

Isso está no Scientific Linux 6 (outro SO baseado em RHEL6) com smartmontools-5.43-1.el6.x86_64.

Jonathan Barber
fonte
-d megaraid,0foi o suficiente na smartctl 6.6linha de comando. Na DEVICESCANcorda em /etc/smartd.confque precisava-d removable
Stuart Cardall 22/07
9

A resposta aceita recomenda a audácia que é yum install srvadmin-all. Blecch. Veja como torná-lo um pouco menos vazio (mas ainda assim; você pode ficar muito mais enxuto na plataforma da HP. Mas discordo ...) Com isso, quero dizer, instale apenas os componentes necessários para gerenciar o armazenamento em sua máquina .

BTW, a resposta direta à pergunta do usuário está no item "Mostrar discos físicos no vdisk 0" na lista abaixo.

wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi > bootstrap.cgi
bash bootstrap.cgi
yum install srvadmin-base
yum install srvadmin-storageservices

Adicione ao .bashrc da raiz:

export PATH=$PATH:/opt/dell/srvadmin/bin

Apreciar:

Comandos RAID

  • Mostrar todos os discos físicos no controlador 0

    $ omreport storage pdisk controller=0
    
  • Mostrar todos os discos lógicos no controlador 0

    $ omreport storage vdisk controller=0
    
  • Mostrar todos os discos físicos no vdisk 0

    $ omreport storage pdisk controller=0 vdisk=0
    
  • Reconfigure um vdisk para ser raid1 de raid0 ( COOL !!!! )

    $ sudo omconfig storage vdisk action=reconfigure controller=0 vdisk=1 raid=r1 pdisk=0:0:2,0:0:3
    
  • Crie um vdisk em um novo disco:

    $ sudo omconfig storage controller controller=0 action=clearforeignconfig
    $ sudo omconfig storage controller controller=0 action=createvdisk raid=r0 size=max pdisk=0:0:2
    

Mais informações

Aliás, como nada mais é do que uma placa LSI MegaCLI da marca Dell, você pode achar a resposta de Han Solo ainda melhor! Ainda tenho que tentar, no entanto.

A doçura

Aqui está um exemplo da saída do omreport, canalizada através do grep para obter um delicioso pacote de dados:

$ omreport storage pdisk controller=0 vdisk=0 | grep -v ": Not "
List of Physical Disks belonging to root

Controller PERC H700 Integrated (Embedded)
ID                              : 0:0:0
Status                          : Ok
Name                            : Physical Disk 0:0:0
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFDT
Part Number                     : CN0X162K7262213800JTA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E44C5

ID                              : 0:0:1
Status                          : Ok
Name                            : Physical Disk 0:0:1
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFEY
Part Number                     : CN0X162K7262213800FPA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E3C1D
Mike S
fonte
@slm Em relação à sua edição, ela realmente funciona sem raiz? Atualmente, não tenho omreport / omconfig à minha frente, mas não tenho certeza se algum usuário pode criar um vdisk. O '$' na linha de comando implica em um usuário comum, não na raiz.
Mike S
Sim, eu fiz isso outro dia quando estava lidando com um Dell 730 em todos os cmds, exceto aqueles 2 que fazem "cria" não precisavam de raiz, eu vou consertar.
slm
6

Eu também estava lutando para fazer o trabalho no CentOS e encontrei um pacote de trabalho aqui http://mirror.ndchost.com/software/lsi/

chamado " MegaCli-8.07.10-1.noarch.rpm "

A referência de comando http://hwraid.le-vert.net/wiki/LSIMegaRAIDSAS

Espero que ajude.

Han Solo
fonte
1
Concordo plenamente, use / opt / megacli / MegaCli64 -PDList -aALL | firmware grep -i e ele informará se os discos físicos estão ok. (O comando é de erikimh.com/megacli-cheatsheet - veja se eu usei o errado). Basicamente, o atendimento de incursão faz um ótimo trabalho de monitoramento dos discos, portanto, mantenha o controle de sua opinião sobre os estados operacionais dos discos.
Algum Linux Nerd
3
smartctl -d megaraid,00 -a /dev/sda
Got MegaRAID inquiry.. FUJITSU MBE2147RC       D906
Device: FUJITSU  MBE2147RC        Version: D906
Serial number: xxxx
Device type: disk
Transport protocol: SAS
Local Time is:
user311347
fonte
8
Por favor, considere ler Como redigir uma boa resposta? na nossa Central de Ajuda e revise a resposta. Seu comando pode ser tecnicamente uma solução, que também já foi mencionada nas outras, respostas muito mais antigas e alguma explicação é bem-vinda. Desde já, obrigado.
HBruijn 15/09/2015
1
A outra resposta usou "sat + megaraid", o que não funcionou para mim. (Certo, eu não conhecia bem o comando smartctl e não sabia como alterar o comando para fazê-lo funcionar.) Essa resposta me levou ao caminho certo e funciona para mim.
Yongwei Wu
1

O percclicomando também pode mostrar muitas informações sobre a unidade, se você perguntar bem:

# /opt/MegaRAID/perccli/perccli64 /c0/e32/s0 show all
Controller = 0
Status = Success
Description = Show Drive Information Succeeded.


Drive /c0/e32/s0 :
================

-------------------------------------------------------------------------
EID:Slt DID State DG       Size Intf Med SED PI SeSz Model            Sp
-------------------------------------------------------------------------
32:0      0 UGood -  278.875 GB SAS  HDD N   N  512B ST3300657SS      U
-------------------------------------------------------------------------

EID-Enclosure Device ID|Slt-Slot No.|DID-Device ID|DG-DriveGroup
DHS-Dedicated Hot Spare|UGood-Unconfigured Good|GHS-Global Hotspare
UBad-Unconfigured Bad|Onln-Online|Offln-Offline|Intf-Interface
Med-Media Type|SED-Self Encryptive Drive|PI-Protection Info
SeSz-Sector Size|Sp-Spun|U-Up|D-Down/PowerSave|T-Transition|F-Foreign
UGUnsp-Unsupported|UGShld-UnConfigured shielded|HSPShld-Hotspare shielded
CFShld-Configured shielded|Cpybck-CopyBack|CBShld-Copyback Shielded


Drive /c0/e32/s0 - Detailed Information :
=======================================

Drive /c0/e32/s0 State :
======================
Shield Counter = 0
Media Error Count = 0
Other Error Count = 0
Drive Temperature =  40C (104.00 F)
Predictive Failure Count = 1
S.M.A.R.T alert flagged by drive = Yes

Isso precisa ser repetido para cada slot do gabinete, ou pelo menos não encontrei uma maneira de imprimir tudo de uma só vez com um único percclicomando.

Também é fácil de instalar em comparação com outras opções mais abrangentes:

# curl -C - -O 'https://downloads.dell.com/FOLDER04470715M/1/perccli_7.1-007.0127_linux.tar.gz'
# tar xzvf ../perccli_7.1-007.0127_linux.tar.gz
# cd Linux/
# yum localinstall perccli-007.0127.0000.0000-1.noarch.rpm
# cd /opt/MegaRAID/perccli/

perccliNÃO é um conjunto abrangente de monitoramento como o Delll OMSA, mas parece que muitas pessoas não querem algo abrangente e precisam de uma ferramenta simples e decente.

Steve Bonds
fonte
-1

Oi Eu tenho uma placa Dell PERC / LSI semelhante e precisava verificar o status do RAID. O LSI tem um utilitário chamado sas2ircu, que eu achei bastante útil, também existe uma versão para Windows e Linux.

mike_coreit
fonte