Uma instalação de disco RAID 4 pode falhar se apenas 1 disco rígido falhar? [fechadas]

9

Eu sou um desenvolvedor web. Não tenho muita experiência em hardware. Por esse motivo, eu uso servidores gerenciados.

Esta manhã, uma das unidades em nossa instalação falhou. No entanto, o site completo caiu. Perguntei ao meu host o que havia acontecido e ele respondeu que o disco rígido falhou de tal maneira que o controlador RAID não funcionava corretamente. A matriz foi configurada como RAID 4.

Vocês já viram isso antes? É possível?

Obrigado por qualquer ajuda sobre esses caras. Eu preciso saber se meu host é honesto comigo.

Steve Rodrigue
fonte
Se mais de um disco em uma matriz morrer, o RAID falhará (embora dependa da configuração do RAID).
Rhys Evans
Resumindo, seu fornecedor é um idiota e trabalha do lado barato. Isso pode ser perfeitamente aceitável desde que você, como cliente, tenha sido avisado de que sua infraestrutura não é tolerante a falhas e conduz a falhas.
Luke404
Atualize a pergunta com o tipo de ataque (ou seja, ataque 0,1,4,5,6, etc).
Trevor Boyd Smith

Respostas:

22

É mais provável que o seu provedor esteja usando discos rígidos que não devem ser usados ​​no RAID. As unidades SATA de consumidor normal se enquadram nessa categoria.

O provável problema é que a unidade começou a apresentar erros de leitura incorretos (UREs). Quando isso acontece em uma unidade consumidora, a unidade fica lá e tenta novamente a operação de leitura (geralmente por 30 a 60 segundos) até que desista. O RAID aguardará a unidade relatar o erro (30 a 60) segundos. Portanto, uma solicitação simples para alguns setores pode facilmente fazer com que o servidor pare enquanto a unidade com falha processa essas operações de repetição de leitura.

As unidades destinadas a matrizes RAID possuem Recuperação de erro por tempo limitado (para unidades SATA). O TLER relata falhas de volta aos controladores rapidamente, para que o controlador possa responder de maneira inteligente a essas falhas (principalmente de maneira inteligente; espero). O SCSI (SAS também) funciona de maneira um pouco diferente. O conjunto de comandos SCSI permite que o controlador especifique vários limites de esforço de recuperação nas unidades (MODE SELECT: RW ERR RECOVERY). Um controlador RAID deve configurar as unidades para falharem rapidamente, o controlador pode testar se a unidade pensa que está funcionando corretamente com o comando TUR, se a unidade sair da matriz, se houver uma condição de verificação.

Chris S
fonte
Boa explicação.
precisa saber é o seguinte
11

Sim, isso é possível, mesmo em cenários em que você pensaria que a matriz deveria ter sobrevivido à falha.

Algumas possibilidades de por que uma matriz falha:

  • Mais unidades falharam do que poderiam ser sustentadas pelo modo RAID. Por exemplo:
    • O RAID 0 (distribuição) não pode sobreviver a nenhuma falha na unidade.
    • O RAID 1 pode sobreviver a falhas de todas, exceto uma unidade.
    • O RAID 4/5 pode sobreviver a uma falha na unidade.
    • O RAID 6 pode sobreviver a 2 falhas de unidade.
    • O RAID 10 pode sobreviver à falha de até 50% das unidades, dependendo de quais unidades falharem.
  • Um erro no software RAID ou no firmware do controlador.
  • Erro do usuário.
    • Alguém puxou muitas unidades.
    • Alguém puxou uma unidade e nunca a substituiu, e outra unidade falhou posteriormente.
    • A matriz não foi monitorada, permitindo que mais unidades falhassem do que poderia sobreviver.
  • Sabe-se que os controladores baratos com unidades de grau de consumo falham, mesmo em cenários que poderiam ser sobrevividos.
    • Uma unidade no nível do consumidor tentará quase indefinidamente ler um setor defeituoso até obter uma boa leitura. Um controlador barato esperará quase indefinidamente que essa unidade retorne um resultado. A espera pode ser tão longa que o sistema operacional desiste. Em seguida, na reinicialização, as unidades não respondem rápido o suficiente ao controlador e presume-se que a matriz tenha falhado.
    • Por outro lado, uma unidade de nível empresarial desistirá rapidamente, permitindo que o controlador extraia os dados de outra unidade. Além disso, um bom controlador marcará uma unidade que leva muito tempo para responder como falha e seguir em frente.
pescoço longo
fonte
1
O RAID 1 deve sobreviver à morte de todas, exceto uma das unidades da matriz. Concedido, a maioria das pessoas provavelmente executado com duas unidades RAID 1 setups, o que significa que ele só pode sobreviver à morte de uma única unidade, mas isso não é inerente à RAID 1.
um CVn
Interessante, portanto, se 1 disco em um RAID 10 falhar, você deve interromper outro disco, porque ele não sobreviverá se apenas um disco estiver quebrado :-) Acho que você deve editar sua postagem.
FLY
@ MichaelKjörling bom ponto. Eu editei minha postagem.
longneck
@ FLY você está certo, eu encobri esse ponto. editado.
longneck
RAID4 deve ser RAID3. RAID3 é byte striping com paridade; O RAID4 era uma implementação de ECC que precisava de um grande número de unidades que o AFAIK nunca foi implementado.
Dan Is Fiddling Por Firelight
8

Se foi uma implementação RAID 0, certamente quando uma única unidade falhar, você perderá a matriz e todos os dados com ela.

joeqwerty
fonte
É uma implementação de RAID 4
Steve Rodrigue
11
hahaha - você quase me levou lá, o que é realmente?
Chopper3
3
@ Chopper3 A NetApp usa RAID4. Portanto, não é totalmente inédito, embora tenha me dado uma risada também. Talvez essa seja a maneira do host dizer que eles têm um NetApp Filer ou algo assim.
precisa
1
@SteveRodrigue Tem certeza de que é RAID 4?
MDMarra #
1
Se realmente for RAID4 e apenas 1 unidade falhar, será possível instalar uma nova unidade e reconstruir a matriz, pelo menos em princípio. Talvez o host da web significasse que uma das unidades restantes falhou enquanto ele tentava fazer isso?
user3490
2

Vi bugs de firmware remover todo o RAID quando um disco fica com defeito ou quando ele começa a relatar falhas iminentes. Desculpe, não tenho nada específico para apontar, mas sim, isso pode acontecer. Não como parte da especificação RAID, é claro, é definitivamente um bug.

chutz
fonte
1

Sim é possivel. Não deveria acontecer, mas certamente pode. Digite UREs (erro de leitura irrecuperável) e as falhas do controlador e os erros de firmware e similares.

Sem informações adicionais (que seu host provavelmente não fornecerá a você), não é possível dizer definitivamente de uma maneira ou de outra, mas qualquer pessoa que tenha trabalhado com muitas matrizes RAID teve experiências em que uma matriz inteira foi perdida ou travou quando não deveria ter.

(E, a propósito, o RAID4 não é um nível de RAID muito usado, mas deve suportar a perda de qualquer unidade . Porém, isso não significa que sempre o fará.)

HopelessN00b
fonte
1

Eu tive muitas falhas no disco rígido onde não houve falha na mecânica, mas na eletrônica que compõe a interface de comunicação. Devido ao seu tamanho pequeno, muitos componentes eletrônicos são muito sensíveis a pequenas irregularidades elétricas (isso pode acontecer quando grandes motores de A / C nas proximidades são ligados / desligados etc. e a fonte de alimentação é um pouco barata).

Quando os conversores de energia ou os capacitores internos do inversor (buffers de armazenamento de energia) queimam, os sinais elétricos gerados nos conectores externos do disco rígido podem e sairão da especificação. Como a unidade é conectada ao controlador por fios de cobre, e muitas vezes em servidores, muitas unidades compartilham uma conexão de cabo para facilitar a instalação e reduzir a desordem, isso pode facilmente interromper ou até mesmo destruir permanentemente qualquer número de componentes adjacentes.

A propósito, isso tem muito pouco a ver com preços. É verdade que os controladores e unidades caros PODEM usar peças que são mais tolerantes a condições anormais ou que possuem melhor blindagem, e que, com os componentes do orçamento, é mais provável que você obtenha peças abaixo do padrão. Mas eu regularmente encontrei capacitores idênticos em uma unidade de US $ 50 e US $ 500. E se um HDD com falha direcionar diretamente 12 Volts da fonte de alimentação para o conector SATA, porque ocorreu um curto-circuito, seu controlador RAID ficará frito, não importando quantos números o preço tivesse.

Não é o que geralmente acontece, mas definitivamente não é inédito na minha experiência.

Jost
fonte
"geralmente em servidores, muitas unidades compartilham uma conexão a cabo" Não nos ambientes modernos SAS ou SATA. É astronomicamente improvável que seu cenário seja o que aconteceu aqui; Acho que nunca ouvi falar de eletrônicos de uma unidade morrendo e levando outros componentes com ela. Embora 12v certamente frite um controlador SATA ou SAS, os componentes lógicos são muito raramente conectados aos 12v de qualquer forma, pois diminuir a tensão de 12 para 3,3 ou menos é muito complicado em comparação com fontes de 5v ou 3,3v. Estou curioso para saber onde você pode ter a cabeça desse tipo de coisa acontecendo; se você estiver disposto a compartilhar?
Chris S
1

Sim, acho que todo o ataque pode falhar após uma única falha na unidade. A primeira unidade com falha será colocada offline pelo controlador e o ataque ainda funcionará bem. Mas quando a unidade com falha é substituída, o controlador começa a reconstruir o ataque. Se houver um problema de leitura latente não descoberto em uma das outras unidades restantes, uma reconstrução da unidade com falha poderá fazer com que mais unidades fiquem offline (quando problemas de leitura forem descobertos durante a reconstrução do ataque) novamente, causando o ataque inteiro. falhou.

Pitágoras
fonte
É por isso que as matrizes RAID precisam ser limpas regularmente, para descobrir problemas de leitura ou gravação.
Chris S