Espaço livre "obrigatório" em uma SAN?

8

Não sou especialista em SANs, estou escrevendo aqui para obter algumas dicas sobre problemas contínuos e exasperantes que estamos enfrentando e que nosso fornecedor parece não ser capaz de resolver.

possuímos uma SAN ENHANCE ES3160P4 com discos de 16 x 2 TB que foi fornecida para o nosso sistema de vigilância por vídeo. A SAN foi configurada pelo fornecedor para usar 14 discos em uma matriz RAID 5 e 2 discos são peças de reposição globais. O RAID geralmente é dividido em 2 discos virtuais de tamanho igual que abrangem todo o espaço RAID. Cada um resulta em algo mais que 12 TB. Cada disco virtual corresponde a um único LUN, conectado a um único servidor de vídeo que armazena dados de vídeo continuamente e permite que os usuários recuperem gravações quando necessário. Os LUNs são formatados com NTFS e anexados aos servidores de vídeo do Windows Server 2012 por meio do iSCSI. Os servidores de vídeo tendem a usar totalmente o espaço disponível.

Com essa configuração, os discos da SAN estão falhando e falham, e cada vez que a SAN não pode recuperar o RAID, porque outro disco falha nesse meio tempo. Perdemos o RAID quatro vezes nos últimos meses.

Esse problema parece não ter sido causado por uma amostra ruim da SAN, porque possuímos outras três máquinas do mesmo tipo configuradas de maneira semelhante que parecem ter os mesmos problemas. Apenas um não tem problemas, mas no momento está subutilizado.

Após alguns meses de testes e verificações desconhecidos, o fornecedor acabou dizendo que é sabido que a SAN não deve ser usada 100% ou que se degradará rapidamente, também fisicamente, e disse que, para resolver o problema, os discos virtuais devem ser criados deixando 10 a 15% do espaço total disponível no RAID.

Pesquisei na web pelo problema e não encontrei declarações específicas dizendo isso. Parece-me que seria mais razoável criar discos virtuais abrangendo todo o RAID e subutilizar os LUNs (ou seja, permitindo que o Windows tivesse espaço livre e evitasse a fragmentação). Caso contrário, não entendo por que a ENHANCE SAN permite criar discos virtuais que abrangem todo o RAID, se é tão "conhecido" que resta algum espaço livre e por que o fornecedor configurou o sistema dessa maneira no início ... mas esse é outro ponto.

No final, queremos resolver esta situação. Qualquer sugestão é aceita. Como já foi dito, não sou especialista em SAN, mas depois de tantos problemas, gostaria de realmente entender se o fornecedor sabe o que está acontecendo ou não, porque não podemos mais aceitar essa situação.

Muito obrigado antecipadamente! Saudações

Editar: tipo de disco Como resposta, parece ser uma informação relevante. Acrescento que os discos são todos do modelo Western Digital WD2001FYYG-01SL3.

z2k
fonte
3
Qualquer sistema projetado de maneira adequada, se precisasse reservar espaço para funcionar corretamente, reservaria espaço sem oferecê-lo para uso dos clientes. Os instantâneos podem precisar de espaço e os sistemas de arquivos Copy-on-Write, mas geralmente possuem uma pequena reserva para esses fins. Pelo menos por padrão, que pode, obviamente, ser substituído pelos usuários se eles estiverem dispostos a correr o risco.
ptman
Pelo menos os discos de boa aparência, eles são 24/7 discos SAS, mas não deve deixar que muitas vezes ...
Sven
4
O iossue não é espaço livre, é uma configuração idiota. 14 discos em um Raid 5 não são estáveis ​​por matemática, simples assim. Até o Raid 6 pode cobrar impostos. Geralmente - um RAID com discos de 2 TB não é estatisticamente estável. Período.
TomTom
1
@ TomTom: Se você acha que é matemática simples, responda à pergunta que mostra a matemática. Minha matemática de guardanapo diz que a matriz é estável se é improvável que a leitura de 13 * 2 TB para reconstruir uma matriz degradada. É claro que o Raid 6 é melhor, estável se a reconstrução não encontrar uma falha dupla.
MSalters
4
With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.Isso é exatamente porque, como a TomTom diz, os discos são grandes demais para o RAID5. E provavelmente RAID 6 também, FWIW. Suas chances de uma reconstrução bem-sucedida não chegam nem perto de 100%, e você sabe disso porque declarou que teve "como 4" reconstruções malsucedidas em questão de meses. Sua configuração de RAID é idiota e seu fornecedor é incompetente, simples assim.
11135 HopelessN00b

Respostas:

10

Pelo que você descreve, o principal problema é que eles decidiram usar um RAID5 para uma matriz tão grande, o que é uma péssima escolha para essa configuração, exatamente pelo motivo que você experimenta: ter uma falha no segundo disco durante a recuperação quebra tudo, e essa segunda falha provavelmente corre esse risco.

Se eles tivessem usado, por exemplo, um RAID6, ter uma segunda falha no disco durante a recuperação não levaria a uma matriz com falha e a recuperação poderia prosseguir normalmente, ao custo de um disco com capacidade líquida de armazenamento e um certo impacto no desempenho.

Não vejo como deixar 15% de espaço livre ajudaria em tudo com esse problema e, embora isso possa ou não ser uma boa ideia do ponto de vista de desempenho para o sistema de arquivos, isso claramente não tem relação com o RAID com falha. Eu chamo isto de besteira.

Tudo isso dito, não posso deixar de me perguntar: fazer isso acontecer várias vezes ao longo de alguns meses parece ser demais, mesmo para um sistema RAID5. Eu sugeriria examinar os tipos de disco usados ​​- pode ser que seu fornecedor tenha usado unidades de desktop baratas, em vez de unidades 24/7 certificadas para uso em um sistema desse tipo.

Sven
fonte
Obrigado por suas contribuições. Eu editei a pergunta adicionando o tipo de disco.
z2k
2

Entendo perfeitamente que este é um post antigo, mas como continuo vendo grandes matrizes RAID5 em produção, gostaria de adicionar meus pensamentos aqui.

  • os discos que falham com muita frequência são geralmente um caso de superaquecimento e / ou vibrações demais, que podem ser encontrados em sistemas com engenharia inadequada ou em locais ruins

  • essas matrizes RAID5 grandes devem ser fortemente evitadas. Como regra geral, é muito melhor ter um array RAID6 do que um RAID5 + com hotspare. No caso do OP, em vez de ter um disco de paridade 1x com 2 hotspares globais, era muito melhor ter um disco de paridade 2x em uma configuração RAID6;

  • é essencial ter um sistema confiável para relatórios de erros e status: uma matriz sem monitoramento, degradada e sem saber, é uma receita para o desastre.

shodanshok
fonte
continue vendo grandes matrizes RAID5 em produção "Maior deve ser melhor!", certo? Eu também acrescentaria que essas matrizes grandes têm desempenho HORRÍVEL em geral devido à má geometria e contenção entre vários LUNs compartilhados da mesma matriz, mesmo se as matrizes forem criadas com RAID6. O IME é praticamente o maior dos arrays que eu recomendo: 4 + 1 RAID5 e 8 + 2 RAID6. Alguns controladores de ponta podem ocultar alguns problemas de desempenho com matrizes maiores, mas o melhor controlador de todos os tempos não ajuda a reconstruir os tempos.
Andrew Henle