Como posso saber se um disco está falhando no ESXi / o que esses erros significam?

10

Eu tenho um servidor executando o VMware ESXi v4.1.0 348481. Possui um RAID10 de hardware e uma unidade de backup SATA. Eu tenho uma VM em execução que possui seu vmdk de inicialização primário no armazenamento de dados RAID10 e um vmdk de 600 GB no armazenamento de dados da unidade de backup SATA. A VM executa o Debian linux com o kernel do FreeBSD e usa o ZFS para a unidade de backup.

EDIT: A unidade não está diretamente conectada à VM. É usado como um VMware Datastore e a VM possui um vmdk no armazenamento de dados da unidade SATA. O armazenamento de dados não está cheio (apenas 65%)

Eu entrei no servidor usando SSH e descobri que o backup da noite passada foi interrompido e / zfs listou zpool listambos. Então, eu abri o console virtual no ESXi e fiquei triste ao ver:

Essa imagem me deixa triste

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Tentei reiniciar a VM e recebi uma mensagem informando que o sistema estava sendo desativado para reinicialização, e então isso foi interrompido. (^ C aparece, mas não mata shutdown). Eu não pode interromper ou kill -9o zpool list zfs listou rsyncprocessos - Nada acontece quando tento.

  1. Isso indica que a unidade SATA de backup está falhando? Ou isso poderia ser apenas um erro do ESXi?
  2. Como no cliente vSphere eu poderia saber se a unidade está falhando? Não vi nenhuma indicação, tudo no Status de integridade do hardware parece bom e não vi nada na configuração de armazenamento.
  3. Como devo proceder a partir daqui? Devo apenas reiniciar com força a VM?

UPDATE: Apenas reiniciei a VM com força. Depois de voltar a ficar online, o zpool de backup ficou online, no entanto:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Estou inclinado a substituir a unidade ...

Josh
fonte

Respostas:

5

Esses erros realmente indicam que uma das unidades SATA encontrou blocos defeituosos suficientes para ficar sem espaço de realocação de blocos. Essa unidade é ruim e precisa ser substituída. Não tenho certeza de onde, no cliente vSphere, essas informações são exibidas, mas as entradas de log são bastante claras.

Se o seu hardware permitir, uma troca a quente deve ser executável. Caso contrário, você terá que desligar tudo para realizar a alteração. Se essa VM não se desligar após 30 minutos, é hora de finalizá-la com força. É arriscado, mas se for realmente suspenso, não há muito para isso.

sysadmin1138
fonte
Obrigado @ sysadmin1138. Portanto, mesmo que esses erros apareçam na VM, isso indica claramente um verdadeiro problema de hardware? IE, não é apenas uma peculiaridade do VMware?
27411 Josh
@ Josh Se você apresentou a unidade SATA diretamente à VM, definitivamente veria isso. Para armazenamento com backup de arquivo, tenho menos certeza; pode ser que o seu armazenamento de dados esteja sem espaço.
sysadmin1138
Eu deveria ter esclarecido isso. É armazenamento suportado por arquivo. O armazenamento de dados tem bastante espaço: é uma unidade de 1 TB e o VMDK tem 600 GB, nada mais está no disco. De qualquer forma, é claramente algo errado, então, a menos que alguém me dê uma explicação clara do que poderia ser isso, substituirei a unidade.
27411 Josh