Eu tenho um servidor HP ProLiant DL380 G7 sendo executado como uma unidade de armazenamento NexentaStor . O servidor possui 36 GB de RAM, 2 controladores LSI 9211-8i SAS (sem expansores SAS), 2 unidades de sistema SAS, 12 unidades de dados SAS, um disco hot-spare, um cache Intel X25-M L2ARC e um acelerador DDRdrive PCI ZIL. Este sistema atende o NFS a vários hosts VMWare. Eu também tenho cerca de 90 a 100 GB de dados desduplicados na matriz.
Eu tive dois incidentes em que o desempenho diminuiu repentinamente, deixando os convidados da VM e os consoles Nexenta SSH / Web inacessíveis e exigindo uma reinicialização completa da matriz para restaurar a funcionalidade. Nos dois casos, foi o SSD Intel X-25M L2ARC que falhou ou foi "off-line". O NexentaStor falhou ao me alertar sobre a falha no cache, no entanto, o alerta geral do ZFS FMA estava visível na tela do console (sem resposta).
A zpool status
saída mostrou:
pool: vol1
state: ONLINE
scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:
NAME STATE READ WRITE CKSUM
vol1 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c8t5000C50031B94409d0 ONLINE 0 0 0
c9t5000C50031BBFE25d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c10t5000C50031D158FDd0 ONLINE 0 0 0
c11t5000C5002C823045d0 ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
c12t5000C50031D91AD1d0 ONLINE 0 0 0
c2t5000C50031D911B9d0 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
c13t5000C50031BC293Dd0 ONLINE 0 0 0
c14t5000C50031BD208Dd0 ONLINE 0 0 0
mirror-4 ONLINE 0 0 0
c15t5000C50031BBF6F5d0 ONLINE 0 0 0
c16t5000C50031D8CFADd0 ONLINE 0 0 0
mirror-5 ONLINE 0 0 0
c17t5000C50031BC0E01d0 ONLINE 0 0 0
c18t5000C5002C7CCE41d0 ONLINE 0 0 0
logs
c19t0d0 ONLINE 0 0 0
cache
c6t5001517959467B45d0 FAULTED 2 542 0 too many errors
spares
c7t5000C50031CB43D9d0 AVAIL
errors: No known data errors
Isso não acionou nenhum alerta da Nexenta.
Fiquei com a impressão de que uma falha do L2ARC não afetaria o sistema. Mas, neste caso, certamente era o culpado. Eu nunca vi nenhuma recomendação para o RAID L2ARC. Remover completamente o SSD com defeito do servidor me fez voltar a funcionar, mas estou preocupado com o impacto da falha do dispositivo (e talvez também com a falta de notificação do NexentaStor).
Editar - Qual é o SSD de melhor escolha atual para aplicativos de cache L2ARC atualmente?
Respostas:
O ZFS não faz E / S de disco, os drivers de dispositivo abaixo do ZFS fazem E / S de disco. Se o dispositivo não responder em tempo hábil ou, como neste caso, interromper todos os outros dispositivos no expansor, não será visível como uma falha no ZFS. Tudo o que o ZFS vê é uma E / S lenta.
Há um erro no firmware Intel X-25M que afeta seu comportamento durante cargas pesadas e pode causar tempestades de redefinição. Esse problema afeta todos os sistemas operacionais e não pode ser resolvido na camada do sistema operacional. Entre em contato com o seu fornecedor de hardware para correções ou correções.
Se uma leitura deve ser satisfeita pelo L2ARC, a leitura será tentada lá. O ZFS depende dos drivers da camada inferior para relatar um erro. Nesse caso, a unidade continua a redefinir e tentar novamente por até 5 minutos antes de declarar a E / S como falhada, dependendo do driver, dispositivo e configurações de tempo limite padrão. Somente depois que os drivers da camada inferior declararem a E / S com falha, o ZFS tentará novamente no pool.
Os corredores de verificação de volume e disco do NexentaStor procuram mensagens de erro adicionais e o alertam por e-mail e registro de falhas. O executor de verificação de disco foi aprimorado na versão 3.1 para ajudar a alertá-lo especificamente sobre as condições exibidas por firmware quebrado nos SSDs.
Conclusão: seu hardware está com defeito e precisará ser consertado ou substituído.
fonte
Você está conectando o SSD X25-M ao backplane? Há um problema conhecido com a Nexenta e o acesso ao L2ARC através de um backplane. Sua melhor aposta é conectar o SSD diretamente a uma porta SATA na placa-mãe. Verifique se ele está configurado para usar o AHCI também.
Se você estiver executando algo de missão crítica neste servidor, eu mudaria para um SSD SLC (como o X25-E ou um STEC SSD). Dito isto, você provavelmente estará bem com o X25-M, se não estiver.
fonte
Ed, existem vários que você pode usar variando de preço relativamente razoável a muito caro. Prefiro implantar SSDs SAS em todos os casos e me saí muito bem com o STEC e o Pliant. Agora, ambos oferecem uma unidade MLC que funcionará famosamente com um dispositivo L2ARC. Ainda não testado, mas em breve a oferta de SSD da Seagate é o SLC SAS 2.0 e, segundo rumores, "não é caro". Fique ligado....
-PB
fonte