Discos rígidos que ficam offline por motivo desconhecido

11

Eu tenho 7 sistemas executando a instalação abaixo. De vez em quando, um disco diferente fica offline, mas em uma inspeção mais detalhada, o disco fica bom e não está com defeito e funciona perfeitamente por pelo menos mais um ano. Como isso acontece em todos os 7 sistemas, acho improvável que exista uma única peça que esteja atuando (por exemplo, cabo), mas que, em vez disso, é a combinação de algumas das partes que é ligeiramente incompatível.

O problema é localizar o ponto exato onde está a incompatibilidade.

(Se você tiver uma solução alternativa, na qual poderá fazer uma recolocação virtual do disco rígido a partir da linha de comando, poderá responder /server/523315/re-activate-device -que-é-considerado-morto ).

Hardware do servidor: Dell 1950, Dell R815, Dell R715.

Sistema operacional:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

Controlador:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

Expansor SAS / SATA Supermicro 4U SAS / SATA Backplane do expansor com um único chip de expansão LSI SAS2X36:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

Discos:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Discos em um sistema:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)
Ole Tange
fonte
9
+1 para começar a fazer as perguntas importantes :)
Sven
Um cabo defeituoso e sem blindagem pode causar problemas nas somas de verificação. [causando problemas de leitura e gravação]. Você já tentou substituir os cabos?
monksy
Os cabos foram substituídos por mercadorias conhecidas. Também esperaria que o Linux tentasse novamente o comando depois de redefinir o barramento scsi.
precisa
2
Pelo que consegui descobrir até agora, as mensagens indicam que há problemas de conectividade - não alertas SMART. Talvez alguém com vasta experiência em BiY possa ajudar. Tudo o que sei é que eles ficam longe dos discos S-ATA em grandes configurações devido à falta de comandos / filas em comparação com o SAS. Vou pedir a alguns para dar uma olhada nisso.
21413 Pauska
@pauska Você pode elaborar (com links?) o que descobriu?
precisa

Respostas:

1

Faltam informações aqui. Você está sugerindo que você tenha de 24 a 45 discos por servidor nesta configuração de armazenamento.

  • Quais controladores específicos você está usando?
  • Devido ao número de discos, você pode ter algumas unidades em um gabinete externo. Forneça a marca / modelo do gabinete da unidade externa em uso.
  • Quais modelos de unidade específicos você está usando? São todos das unidades de discos de desktop de nível?
  • Qual sistema de arquivos você está usando?
  • Descreva o layout do disco e do RAID.
  • Isso sempre foi um problema ou se desenvolveu com o tempo?
  • a Supermicro está envolvida em algum lugar desta configuração?

Dependendo da configuração do gabinete, você pode estar executando tempos limite SATA ou erros de barramento. Isso pode ter um efeito negativo em todas as unidades conectadas ao controlador.

Outra questão poderia ser uma negociação ruim de link SAS / SATA. Certamente já experimentei isso em alguns expansores SAS quando unidades de 1,5 Gbps e 6,0 Gbps são misturadas na mesma placa.

Forneça mais informações.

ewwhite
fonte
Estou muito interessado em sua pergunta sobre a Supermicro. Você pode elaborar?
21413 Halfgaar #
@ Halfgaar Você poderia fornecer o feedback sobre as outras perguntas que eu fiz?
ewwhite
A postagem original não é minha. Estou apenas curioso sobre essa afirmação.
21413 Halfgaar
1
@Halfgaar Ooops ... Bem, eu descobri que os planos expandidos / backplane da Supermicro SAS e alguns dos gabinetes JBOD não se comportam de maneira previsível em muitas circunstâncias. A observação na minha resposta sobre redução de velocidade de SAS / SATA e negociação de links é algo que só experimentei em determinadas revisões dos equipamentos Supermicro. Também não posso mais usar seus JBODs para ZFS por causa do comportamento instável.
ewwhite