Ainda recebendo aacraid: o adaptador do host anula os erros de solicitação após seguir as etapas recomendadas

9

Estou recebendo o infame erro aacraid: Host adapter abort request com meu novo Adaptec RAID Controller sob alta E / S. Eu li vários fóruns, até os Adaptecs , que definem o valor / sys / block / sdX / device / timeout para 45 para corrigir isso. No entanto, estou executando o Ubuntu Server 12.04, que já possui esse valor em 45 por padrão. Também tentei a próxima sugestão, que era atualizar a BIOS do meu mobo para a mais recente, o que fiz.

Não tenho certeza se alguém já encontrou esse erro "aacraid: Host adapter abort request" antes mesmo de executar essas etapas.

Isto é o que vejo no meu syslog:

kernel: [ 5493.523282] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523309] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523375] aacraid: Host adapter reset request. SCSI hang ?

Heres meu uname -a

Linux server 3.2.0-29-generic #46-Ubuntu SMP Fri Jul 27 17:03:23 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

Obrigado a todos,

Jim

Jim
fonte

Respostas:

1

Caso você ainda não tenha resolvido isso, lutei recentemente com o mesmo problema, que rapidamente se transformou em um array pendurado a cada 5 minutos por alguns minutos, à medida que a IO aumentava. O Ubuntu, por padrão, usa o planejador CFQ, que não é ideal para o RAID de hardware. Mude o agendador para noop com:

echo noop > /sys/block/<blockdevice>/queue/scheduler

Pessoalmente, estou preso ao kernel antigo, mas também me disseram que a atualização para o driver aacraid mais recente deve corrigir o problema - embora não seja possível verificar isso. Mas, mesmo assim, mude para noop. Como o sysfs não é permanente, convém configurar o planejador /etc/rc.localou usar o elevator=parâmetro de inicialização.

Eu prestaria atenção a outros parâmetros do kernel, bem como as configurações no Ubuntu são padrões razoáveis ​​para o hardware mais comum, mas na maioria das vezes os servidores precisam de atenção especial, independentemente da distro em que você está.

Kev
fonte
1

Se o seu controlador Adaptec RAID possui seu próprio firmware / BIOS, pode ser necessário atualizá-lo. Tivemos problemas durante a E / S alta e recebemos "aacraid: solicitação de interrupção do adaptador do host" e vimos uma versão de firmware mais recente que a atual, que dizia "Corrigido um problema em que o firmware podia travar durante um alto estresse de E / S". http://download.adaptec.com/pdfs/readme/relnotes_arc_fw-b18937_asm-18837.pdf .

As notas de versão acima listam os seguintes modelos Adaptec: 2045, 2405, 2405Q, 2805, 5085, 5405, 5405Z, 5445, 5445Z, 5805, 5805Q, 5805Z, 5805ZQ, 51245, 51645, 52445).

Também temos linhas de log como:

sd 0:0:0:0: timing out command, waited 360s

e

Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT,SUGGEST_OK

Ao pesquisar on-line para ver outras pessoas com um problema semelhante, encontramos outra linha de placas que teve os seguintes problemas corrigidos pelo firmware que poderiam ser relevantes:

Os dois acima se aplicam aos modelos Adaptec 7805, 7805Q, 78165, 71605E, 71605, 71605Q, 71685, 72405, 8805, 8885, 8885Q e 81605ZQ.

sa289
fonte
Acho que meu controlador travaria quando usei o arcconfutilitário de linha de comando para consultar o status da matriz como parte de nossos scripts regulares de monitoramento do Nagios. Como as notas do firmware indicam, o uso arcconfpode causar a interrupção do controlador.
Stefan Lasiewski 15/09/14