Preciso de um segundo controlador RAID para tolerância a falhas?

9

Eu tenho um servidor com 3 discos rígidos instalados e uma capacidade total de 6. Planejamos maximizar o desempenho, mas nosso consultor também sugeriu a obtenção de um segundo controlador RAID "por redundância" para dar suporte às novas unidades. Para mim, isso não faz muito sentido. Mesmo com um segundo controlador RAID executando metade dos discos, ainda estamos com apenas metade dos nossos discos / programas / dados se um dos controladores morrer (o que não é muito melhor do que executar com nenhum). Estamos colocando o vmware no servidor e ele mencionou vagamente alguns recursos avançados de tolerância a falhas / failover, mas se os discos estiverem inacessíveis devido a um controlador com falha, como ele deve funcionar?

Contando apenas os motivos da redundância, não do desempenho, por que eu gostaria de ter um segundo controlador RAID no meu servidor?

raid fault-tolerance Bigbio2002
fonte

Vi um histórico em que o único controlador RAID falhou, tornando o armazenamento RAID alto com vários discos que ele atende apenas, não apenas inutilizável, mas até mesmo todos os dados irrecuperáveis. Foi um duro golpe para a empresa. Por fim, a maioria dos dados foi reconstruída a partir dos arquivos encontrados nas estações de trabalho. Vergonha total. Sempre espelhe os dados no cluster de disco independente com obviamente outro controlador. Nunca assuma que o RAID 6 salvará sua vida em todos os casos se você confiar em uma única placa pequena que esquenta 80 ° C enquanto estiver operando por muitos anos 7/24.

h22 21/10/16

11

Em um design de 'caixa única de alta disponibilidade', sim, você desejaria um segundo controlador, de preferência em um segundo barramento também. Mas esse tipo de abordagem deu lugar a um design mais barato, baseado em cluster, onde a falha de uma caixa não interrompe o serviço. Portanto, depende se você planeja usar um ambiente em cluster ou confiar em uma única caixa. Mesmo que a sua resposta seja a última, ter controladores duplos pode ser visto como adicionando complexidade extra e talvez exagerando.

editar - com base no seu comentário sobre o uso do ESXi em sua outra pergunta, eu diria que seu cluster é fabuloso , temos muitos clusters de 32 maneiras que funcionam de maneira brilhante.

Chopper3
fonte

AFAIK, não vamos usar cluster. Como um segundo controlador em uma única caixa me beneficiaria? Existe algo como failover de controlador?

Bigbio2002

1

Não em um mundo ESX / ESXi, não - um único seria bom, certifique-se de obter um controlador que faça uma grande matriz R10 de todos os 6 discos, mas permita que você crie esses discos lógicos de 2 TB (ou menos). A série Pxxx da HP permite que você faça isso.

precisa saber é o seguinte

7

Um segundo controlador RAID usado ativamente não é para redundância. Somente se for um controlador de espera a frio em que você alterna todos os seus discos quando o primeiro morre. Então você tem redundância (para o controlador). Mas cuidado, como publicado aqui .

Portanto, o RAID é para redundância de discos, levando a um único ponto de falha no controlador. Ter um segundo controlador (não utilizado) pode resolver isso, pois você pode mudar todo o disco para o novo. Se isso funcionar depende de outros fatores ...

Não sou falante nativo, mas para mim "tolerância a falhas" é algo diferente de "redundância". Alguns falantes de inglês podem me ajudar aqui?

mailq
fonte

Redundância é uma maneira de obter tolerância a falhas :). Eu estava procurando por algo parecido com um controlador de espera a frio ou de failover. Esse recurso é suportado ou eu precisaria trocar manualmente os cartões?

Bigbio2002 22/08/11

Eu nunca vi um controlador em que a troca de discos é feita automaticamente. Isso ocorre porque eu não procurei ou porque não consigo imaginar como você deve circuncidar os cabos entre um disco e dois controladores.

usar o seguinte comando

As unidades de porta dupla são bastante comuns em ambientes corporativos (pense nas prateleiras SAN) - mas os preços sobem um fator de 2 ou 3, obviamente.

adaptr

3

Em uma única caixa, você realmente precisa de dois controladores RAID, conectados a dois complexos raiz PCI-E diferentes, para ter redundância completa do subsistema de E / S. Isso pode ser alcançado por duas configurações diferentes:

use dispendiosos discos SAS de duas portas, com cada link SAS conectado a um controlador diferente. Dessa maneira, cada controlador está conectado a cada disco. Obviamente, os dois controladores não podem operar em discos ao mesmo tempo; alguma forma de bloqueio / vedação é necessária para coordenar o acesso aos discos. O SCSI possui algumas disposições especiais para fornecer o mecanismo de vedação necessário, mas estes devem ser coordenados pelo software apropriado. Em outras palavras, você não pode simplesmente conectar um disco a dois controladores e chamá-lo por dia; em vez disso, você precisa de uma configuração de software apropriada para deixá-lo funcionar sem problemas;
use discos SAS / SATA de link único normais e mais baratos, conectando metade deles a cada controlador. Por exemplo, com 6 discos, você precisa conectar 3 discos a um controlador e 3 discos a outro controlador. Em cada controlador, configure uma matriz RAID conforme necessário (por exemplo: RAID 5 ou RAID1). Em seguida, no nível do sistema operacional, você pode configurar um RAID de software entre as duas matrizes de disco, obtendo redundância total da matriz. Embora mais barata, esta solução tem a desvantagem adicional de reduzir efetivamente a sua capacidade de armazenamento (devido ao nível de RAID1 do software).

Um dos principais problemas das duas abordagens é que você não possui redundância total do sistema: um problema de placa-mãe / CPU pode derrubar todo o sistema, independentemente da quantidade de controladores / discos que você possui.

Por esse motivo, esse tipo de redundância na caixa raramente é usado ultimamente (exceto em implantações de SAN de médio / alto padrão); em vez disso, o clustering / espelhamento de rede está ganhando força. Com o clustering (ou o espelhamento de rede), você tem redundância total do sistema, pois um único sistema com falha não pode negar o acesso aos dados. Obviamente, o agrupamento tem suas próprias armadilhas, por isso não é uma tarefa fácil / prateada, mas em algumas situações suas vantagens não podem ser negadas. Além disso, você também pode usar o espelhamento de rede assíncrono para ter uma redundância de dados quase em tempo real em locais geograficamente diferentes, para que um único evento catastrófico não cause estragos em seus dados.

shodanshok
fonte

Com alguns tipos de dados, a cópia que é apenas parcialmente atualizada (porque a sincronização falhou no meio do caminho) pode ser inutilizável. Um banco de dados é o exemplo típico, mas também vários códigos-fonte e conjuntos de dados com muitos arquivos pequenos que se aproximam um do outro.

h22 22/10/16

Depende do mecanismo de replicação subjacente. O DRBD, por exemplo, permite o uso de uma replicação sincronizada completa (protocolo C) ou quase completa (protocolo B). Isso significa que, quando uma gravação é confirmada no host de origem, ela também é confirmada no host remoto. Em outras palavras, as barreiras de gravação são respeitadas nos dois hosts). Com essa garantia, qualquer sistema de arquivos / banco de dados robusto deve se recuperar sem problemas.

shodanshok

Sim, alguns bancos de dados suportam a replicação e outros aplicativos também. Obviamente, estes são muito mais fáceis de trabalhar.

h22 24/10/16

1

Você precisaria de unidades SAS de duas portas para fornecer failover real em vários controladores. Embora existam, é decididamente descomplicado - não na faixa de preço de um único servidor que possui apenas armazenamento interno.

Essas são tecnologias frequentemente empregadas em sistemas SAN, onde a morte do controlador é um problema real.

Para um único servidor sem outros recursos de failover, um segundo controlador não ganhará nada - apenas custará mais dinheiro e proporcionará ao consultor mais lucro.

adaptr
fonte

Preciso de um segundo controlador RAID para tolerância a falhas?

Respostas: