Probabilidade de falha no chassi da lâmina

48

Na minha organização, estamos pensando em comprar servidores blade - em vez de servidores em rack. É claro que os fornecedores de tecnologia também fazem com que pareçam muito agradáveis. Uma preocupação, que eu leio muitas vezes em diferentes fóruns, é que existe uma possibilidade teórica de o chassi do servidor cair - o que consequentemente derrubaria todos os blades. Isso ocorre devido à infraestrutura compartilhada.

Minha reação a essa probabilidade seria ter redundância e por dois chassis em vez de um (muito caro, é claro).

Algumas pessoas (incluindo, por exemplo, os fornecedores da HP) tentam nos convencer de que é muito improvável que o chassi falhe devido a muitas redundâncias (fonte de alimentação redundante etc.).

Outra preocupação do meu lado é que, se algo der errado, poderão ser necessárias peças de reposição - o que é difícil em nossa região (Etiópia).

Então, eu pediria aos administradores experientes, que gerenciaram o servidor blade: Qual é a sua experiência? Eles caem como um todo - e qual é a infraestrutura compartilhada sensata que pode falhar?

Essa pergunta pode ser estendida ao armazenamento compartilhado. Novamente, eu diria que precisamos de duas unidades de armazenamento em vez de apenas uma - e novamente os fornecedores dizem que essas coisas são tão sólidas que não são esperadas falhas.

Bem - mal posso acreditar que uma infraestrutura tão crítica possa ser muito confiável sem redundância - mas talvez você possa me dizer, se possui projetos baseados em blade, que funcionam sem redundância em suas partes principais (chassi, armazenamento ... )

No momento, olhamos para a HP - pois a IBM parece muito cara.

ChrisZZ
fonte
3
Ótima pergunta. Vou postar minha resposta e alguns cenários de falha na vida real ainda hoje.
ewwhite
Você já viu o que a Dell tem em seus servidores C? por exemplo, o C6100 possui 4 nós em uma caixa de 2U, o equivalente a um chassi blade de 4 slots. Em vez de um chassi blade de 10U, você pode obter cinco servidores de rack de 2U. Não é mais um único ponto de falha, mas você perde as vantagens do backplane. Possivelmente a HP / IBM tem um produto equivalente.
JQA

Respostas:

49

Há uma baixa probabilidade de falha completa do chassi ...

Você provavelmente encontrará problemas em suas instalações antes de sofrer uma falha completa de um gabinete blade.

Minha experiência é principalmente com os gabinetes blade HP C7000 e HP C3000 . Também gerenciei as soluções blade Dell e Supermicro. Fornecedor importa um pouco. Mas, em resumo, o equipamento da HP tem sido excelente, a Dell está bem e a Supermicro estava com falta de qualidade, resiliência e foi mal projetada. Nunca experimentei falhas do lado da HP e da Dell. O Supermicro teve sérias interrupções, forçando-nos a abandonar a plataforma. Na HP e na Dells, nunca encontrei uma falha completa no chassi.

  • Eu tive eventos térmicos. O ar condicionado falhou em uma instalação de co-localização, enviando temperaturas para 115 ° F / 46 ° C por 10 horas.
  • Picos de energia e falhas na linha: perdendo um lado de uma alimentação A / B. Falhas na fonte de alimentação individual. Normalmente, existem seis fontes de alimentação nas configurações do meu blade, portanto, há amplo aviso e redundância.
  • Falhas de servidor blade individuais. Os problemas de um servidor não afetam os outros no gabinete.
  • Um incêndio no chassi ...

Eu já vi vários ambientes e tive o benefício de instalar em condições ideais de data center, bem como em locais mais difíceis. No lado HP C7000 e C3000, o principal a considerar é que o chassi é totalmente modular. Os componentes são projetados para minimizar o impacto de uma falha de componente que afeta toda a unidade.

Pense dessa maneira ... O chassi principal do C7000 é composto por conjuntos de painel frontal e intermediário (passivo). O gabinete estrutural simplesmente mantém os componentes dianteiro e traseiro juntos e suporta o peso do sistema. Quase todas as partes podem ser substituídas ... acredite, desmontei muitas. Os principais despedimentos estão em gerenciamento / ventilador, refrigeração, energia e redes. Os processadores de gerenciamento ( Onboard Administrator da HP ) podem ser emparelhados para redundância, no entanto, os servidores podem ser executados sem eles.

insira a descrição da imagem aqui

Gabinete totalmente preenchido - vista frontal. As seis fontes de alimentação na parte inferior percorrem toda a profundidade do chassi e se conectam a um conjunto de backplane de energia modular na parte traseira do gabinete. Os modos de fonte de alimentação são configuráveis: por exemplo, 3 + 3 ou n + 1. Portanto, o gabinete definitivamente possui redundância de energia. insira a descrição da imagem aqui

Gabinete totalmente preenchido - vista traseira. Os módulos de rede do Virtual Connect na parte traseira têm uma conexão cruzada interna, para que eu possa perder um lado ou outro e ainda manter a conectividade de rede com os servidores. Existem seis fontes de alimentação hot swap e dez ventiladores hot swap. insira a descrição da imagem aqui

Gabinete vazio - vista frontal. Observe que não há realmente nada nessa parte do gabinete. Todas as conexões são passadas para o midplane modular. insira a descrição da imagem aqui

Conjunto do painel intermediário removido. Observe as seis alimentações de energia para o conjunto do plano intermediário na parte inferior. insira a descrição da imagem aqui

Montagem do painel intermediário. É aqui que a mágica acontece. Observe as 16 conexões separadas do downplane: uma para cada servidor blade. Eu tive que soquetes / compartimentos de servidor individuais falharem sem matar o gabinete inteiro ou afetar os outros servidores. insira a descrição da imagem aqui

Painel traseiro da fonte de alimentação. 3 ° abaixo do módulo monofásico padrão. Troquei a distribuição de energia no meu data center e simplesmente troquei o backplane da fonte de alimentação para lidar com o novo método de fornecimento de energia insira a descrição da imagem aqui

Danos no conector do chassi. Esse gabinete em particular foi derrubado durante a montagem, quebrando os pinos de um conector de fita. Isso passou despercebido por dias, resultando no chassi do blade de corrida pegando FIRE ... insira a descrição da imagem aqui

Aqui estão os restos carbonizados do cabo plano do plano. Isso controlava parte da temperatura do chassi e do monitoramento do ambiente. Os servidores blade dentro continuaram a funcionar sem incidentes. As peças afetadas foram substituídas à vontade durante o tempo de inatividade programado e tudo estava bem. insira a descrição da imagem aqui

ewwhite
fonte
+1 para C7000. Tivemos uma funcionando nos últimos dois anos, sólida e nunca tivemos nenhum problema, em termos de hardware ou desempenho, no gabinete ou nas lâminas.
amigos estão dizendo sobre tomb89
1
Temos que concordar com isso - tivemos uma variedade de chassis blade da Dell e eles foram praticamente à prova de balas. Acho que tivemos um módulo de controlador falhando em um chassi e o resultado final é que não conseguimos gerenciar remotamente o próprio chassi durante o dia em que o suporte da dell levou para enviar outro controlador e um engenheiro para encaixá-lo. Nenhum tempo de inatividade real da lâmina devido à falha ou à operação para substituir o controlador.
quer
1
Eu tenho que concordar com @ewwhite. Estou executando o c7000 há cerca de 8 anos sem parar, sem falhas no chassi. Nós os tínhamos rodado a 130 ° F por algumas horas devido à falha de HVAC e nada falhou. O importante a ter em mente é dividir suas cargas de energia em vários painéis de energia e dividir sua rede em vários comutadores para eliminar um único ponto de falha. A única coisa que já tivemos problemas foram alguns discos rígidos de servidores blade, mas você também vê isso em servidores tradicionais.
precisa
20

Estou gerenciando um pequeno número de servidores blade há oito anos e ainda tenho uma falha em todo o sistema que colocou vários blades offline. Cheguei bem perto devido a problemas relacionados à energia, mas ainda não tive uma falha em todo o chassi que não era atribuível a fontes externas.

Sua observação de que o chassi representa um único ponto de falha está correta, embora eles tenham uma grande quantidade de redundâncias nesses dias. Todos os sistemas blade que usei tiveram alimentação paralela às lâminas e várias tomadas de rede passando por caminhos separados, e no caso de múltiplos caminhos Fibre Channel do blade às portas ópticas de back-of-rack. Até o sistema de informações do chassi tinha vários caminhos.

Com a engenharia de rede apropriada (uso redundante da NIC, MPIO para armazenamento), os eventos com um único problema são inteiramente possíveis de sobreviver. No meu tempo com esses sistemas, tive os seguintes problemas, nenhum dos quais afetou mais de um blade, se houver:

  • Duas fontes de alimentação falham no rack blade. Havia redundância suficiente nos outros 4 para suportar a carga.
  • Perdendo uma fase para uma fonte de alimentação trifásica. Esses suprimentos são raros atualmente, mas as outras duas fases tinham capacidade suficiente para suportar a carga.
  • Perder um loop de gerenciamento entre chassis. Foi assim por anos antes que um técnico de vendas em outra ligação percebesse.
  • Perder completamente os loops de gerenciamento entre chassis. Perdemos o acesso ao console de gerenciamento, mas os servidores continuaram funcionando como se nada estivesse errado.
  • Alguém acidentalmente reiniciou o backplane da rede back-of-rack. Tudo naquele chassi estava usando NICs redundantes, portanto não houve interrupção do serviço; todo o tráfego foi para o outro backplane.

A opinião da TomTom sobre o custo é muito verdadeira. Para obter a paridade de custo total, o chassi blade terá que estar totalmente carregado e provavelmente não usará coisas especiais, como switches de back-of-rack. Os racks blade fazem sentido em áreas em que você realmente precisa da densidade porque possui restrições de espaço

sysadmin1138
fonte
Exceto que a arquitetura SuperMicro Twin oferece dois computadores por TU com dois soquetes por computador - que é semelhante ao que você obtém com a maioria dos blades. é definitivamente muito denso;) A única densidade mais alta que conheço são as lâminas da Dell usando a ivy bridge ... mas são mais limitadas em comparação.
TomTom
@ tomtom mas o supermicro twin oferece psus redundantes? Acabamos de construir um e eu não vi essa opção em lugar algum. Compramos um psu sobressalente frio para ter em mãos, apenas por precaução.
Jeff Atwood
@JeffAtwood, eu não vi PSUs redundantes nos gêmeos 1U do SuperMicro, mas sua linha de gêmeos gêmeos 2U de 4 nós os possui. Exemplo .
Charles
Além disso, quem se importa. Tenha uma fonte de alimentação sobressalente no rack. A substituição leva segundos.
TomTom
14

Essa pergunta pode ser estendida ao armazenamento compartilhado. Novamente, eu diria que precisamos de duas unidades de armazenamento em vez de apenas uma - e novamente os fornecedores dizem que essas coisas são tão sólidas que não são esperadas falhas.

Na verdade não. Suas preocupações até agora faziam sentido, esta frase as coloca em "leia as coisas na frente dos seus olhos". A HA com replicação completa é um recurso corporativo conhecido para unidades de armazenamento. O ponto é que uma SAN (unidade de armazenamento é muito mais complexa do que um chassi blade que no final é apenas "metal estúpido". Tudo em um chassi blade, exceto em alguns planos traseiros, é substituível - todos os módulos etc. são substituíveis e lâminas individuais SÃO Ninguém diz que o centro da lâmina, por si só, oferece alta disponibilidade às lâminas.

Isso é muito diferente de uma SAN que deveria estar 100% do tempo - em estado consistente - para que você tenha coisas como replicação etc.

QUE DISSE: assista seus números. Já considerei comprar lâminas há algum tempo e elas NUNCA FAZER SENTIDO FINANCEIRO. O chassi é muito caro e as lâminas não são realmente mais baratas em comparação com os computadores normais. Eu sugeriria olhar para a arquitetura SuperMicro Twin como alternativa.

TomTom
fonte
Gêmeos e gêmeos (2U de 4 nós) são ótimas alternativas para as lâminas. A Intel também fabrica uma linha de servidores duplos e duplos.
Charles
@ Charles Você conhece os novos gêmeos gordos? 8 máquinas em 4 U;)
TomTom
Eu já vi um, mas não tive a chance de brincar ou avaliá-lo.
Charles
4

Os servidores blade com os quais tive experiência são os da IBM. Esses em particular são totalmente modulares e há muita redundância embutida. Portanto, se algo falhar, será um dos componentes como um PSU ou um comutador modular etc. Mas, novamente, há redundância mesmo nesses.

Desde que me envolvi com os blades da IBM, nunca vi uma falha completa antes.

Com as outras marcas, suspeito que elas seriam construídas de maneira semelhante.
Seria uma boa idéia falar com um fornecedor também e fazer muita leitura.
É um grande investimento.

Matt
fonte
1

As falhas que levam a várias interrupções do servidor blade no mesmo gabinete são comparáveis ​​(em probabilidade e causa) às falhas que levam a várias interrupções do servidor no mesmo rack.

Configuração inicial para minimizar pontos únicos de falha (duas fontes de energia CA separadas , cada uma das quais pode lidar com toda a carga, funcionando para separar fontes de alimentação CC, de modo que a metade possa lidar com toda a carga; dois anexos de rede separados , que pode lidar com toda a carga esperada etc.) e a diferença entre algo que remove todos os blades em um chassi ou todos os servidores 2U em um rack é muito pequena.

mpez0
fonte
1

Uma preocupação, que eu leio muitas vezes em diferentes fóruns, é que existe uma possibilidade teórica de o chassi do servidor cair - o que consequentemente derrubaria todos os blades. Isso ocorre devido à infraestrutura compartilhada.

De fato! Cerca de 5 anos atrás, ao gerenciar dois gabinetes blade HP Proliant p-Class, encontrei vários problemas no chassi várias vezes.

Eu tive servidores blade que não puderam ser ativados, se tivessem sido desligados (os servidores não são desligados frequentemente, mas se tornaram um problema muito real para nós da mesma forma). De repente, tive servidores desligando e não conseguindo ligar novamente. Por fim, todos os servidores foram desligados e não consegui ligar novamente.

Pelo que me lembro, praticamente todos os problemas foram atribuídos a backplanes de energia ruim ou backplanes de controladores. Substituímos esses dispositivos várias vezes e a mensagem não específica e não registrada que recebi dos técnicos foi de que eles tinham sua parcela de problemas com essa geração de gabinetes blade.

Decidi então que os benefícios dos servidores blade simplesmente não valiam o risco, se eu tivesse algo a dizer em compras futuras.

Avanço rápido para o meu próximo empregador, e meu atual, nesse caso. Eles já tinham gabinetes HP Proliant c-Class em funcionamento, então meu sentimento morno por lâminas realmente não importava. Nos cinco anos em que lidei com os gabinetes da classe c, nunca experimentei algo parecido com o da classe p, onde um gabinete inteiro falhou em mim. Eles estão correndo sem grandes problemas.

(Exceto quando uma tempestade enviou chuva através do telhado, quatro andares, um pequeno buraco na vedação da sala de computadores, por um cabo e dentro do chassi)

abstrask
fonte
-1

O chassi DELL e HP Blade não possui um plano intermediário redundante. É aqui que o IBM Bladecenter prova ser um vencedor. Que eu saiba, é o único chassi blade que fornece um plano intermediário redundante. Embora a HP ofereça um conjunto fantástico de software de gerenciamento para os blades, adquirimos um Bladecenter E para nossa empresa apenas para evitar um único ponto de falha de todo o chassi.

Arun Shetty
fonte
Isso é realmente o que os materiais de marketing da IBM me dizem; que eles são o único fornecedor com uma solução blade totalmente redundante. No entanto, depois de ler as outras mensagens neste tópico, parece que as soluções HP também apresentam isso.
Martijn