Eu sou um desenvolvedor web. Não tenho muita experiência em hardware. Por esse motivo, eu uso servidores gerenciados.
Esta manhã, uma das unidades em nossa instalação falhou. No entanto, o site completo caiu. Perguntei ao meu host o que havia acontecido e ele respondeu que o disco rígido falhou de tal maneira que o controlador RAID não funcionava corretamente. A matriz foi configurada como RAID 4.
Vocês já viram isso antes? É possível?
Obrigado por qualquer ajuda sobre esses caras. Eu preciso saber se meu host é honesto comigo.
Respostas:
É mais provável que o seu provedor esteja usando discos rígidos que não devem ser usados no RAID. As unidades SATA de consumidor normal se enquadram nessa categoria.
O provável problema é que a unidade começou a apresentar erros de leitura incorretos (UREs). Quando isso acontece em uma unidade consumidora, a unidade fica lá e tenta novamente a operação de leitura (geralmente por 30 a 60 segundos) até que desista. O RAID aguardará a unidade relatar o erro (30 a 60) segundos. Portanto, uma solicitação simples para alguns setores pode facilmente fazer com que o servidor pare enquanto a unidade com falha processa essas operações de repetição de leitura.
As unidades destinadas a matrizes RAID possuem Recuperação de erro por tempo limitado (para unidades SATA). O TLER relata falhas de volta aos controladores rapidamente, para que o controlador possa responder de maneira inteligente a essas falhas (principalmente de maneira inteligente; espero). O SCSI (SAS também) funciona de maneira um pouco diferente. O conjunto de comandos SCSI permite que o controlador especifique vários limites de esforço de recuperação nas unidades (MODE SELECT: RW ERR RECOVERY). Um controlador RAID deve configurar as unidades para falharem rapidamente, o controlador pode testar se a unidade pensa que está funcionando corretamente com o comando TUR, se a unidade sair da matriz, se houver uma condição de verificação.
fonte
Sim, isso é possível, mesmo em cenários em que você pensaria que a matriz deveria ter sobrevivido à falha.
Algumas possibilidades de por que uma matriz falha:
fonte
Se foi uma implementação RAID 0, certamente quando uma única unidade falhar, você perderá a matriz e todos os dados com ela.
fonte
Vi bugs de firmware remover todo o RAID quando um disco fica com defeito ou quando ele começa a relatar falhas iminentes. Desculpe, não tenho nada específico para apontar, mas sim, isso pode acontecer. Não como parte da especificação RAID, é claro, é definitivamente um bug.
fonte
Sim é possivel. Não deveria acontecer, mas certamente pode. Digite UREs (erro de leitura irrecuperável) e as falhas do controlador e os erros de firmware e similares.
Sem informações adicionais (que seu host provavelmente não fornecerá a você), não é possível dizer definitivamente de uma maneira ou de outra, mas qualquer pessoa que tenha trabalhado com muitas matrizes RAID teve experiências em que uma matriz inteira foi perdida ou travou quando não deveria ter.
(E, a propósito, o RAID4 não é um nível de RAID muito usado, mas deve suportar a perda de qualquer unidade . Porém, isso não significa que sempre o fará.)
fonte
Eu tive muitas falhas no disco rígido onde não houve falha na mecânica, mas na eletrônica que compõe a interface de comunicação. Devido ao seu tamanho pequeno, muitos componentes eletrônicos são muito sensíveis a pequenas irregularidades elétricas (isso pode acontecer quando grandes motores de A / C nas proximidades são ligados / desligados etc. e a fonte de alimentação é um pouco barata).
Quando os conversores de energia ou os capacitores internos do inversor (buffers de armazenamento de energia) queimam, os sinais elétricos gerados nos conectores externos do disco rígido podem e sairão da especificação. Como a unidade é conectada ao controlador por fios de cobre, e muitas vezes em servidores, muitas unidades compartilham uma conexão de cabo para facilitar a instalação e reduzir a desordem, isso pode facilmente interromper ou até mesmo destruir permanentemente qualquer número de componentes adjacentes.
A propósito, isso tem muito pouco a ver com preços. É verdade que os controladores e unidades caros PODEM usar peças que são mais tolerantes a condições anormais ou que possuem melhor blindagem, e que, com os componentes do orçamento, é mais provável que você obtenha peças abaixo do padrão. Mas eu regularmente encontrei capacitores idênticos em uma unidade de US $ 50 e US $ 500. E se um HDD com falha direcionar diretamente 12 Volts da fonte de alimentação para o conector SATA, porque ocorreu um curto-circuito, seu controlador RAID ficará frito, não importando quantos números o preço tivesse.
Não é o que geralmente acontece, mas definitivamente não é inédito na minha experiência.
fonte
Sim, acho que todo o ataque pode falhar após uma única falha na unidade. A primeira unidade com falha será colocada offline pelo controlador e o ataque ainda funcionará bem. Mas quando a unidade com falha é substituída, o controlador começa a reconstruir o ataque. Se houver um problema de leitura latente não descoberto em uma das outras unidades restantes, uma reconstrução da unidade com falha poderá fazer com que mais unidades fiquem offline (quando problemas de leitura forem descobertos durante a reconstrução do ataque) novamente, causando o ataque inteiro. falhou.
fonte