Na minha organização, estamos pensando em comprar servidores blade - em vez de servidores em rack. É claro que os fornecedores de tecnologia também fazem com que pareçam muito agradáveis. Uma preocupação, que eu leio muitas vezes em diferentes fóruns, é que existe uma possibilidade teórica de o chassi do servidor cair - o que consequentemente derrubaria todos os blades. Isso ocorre devido à infraestrutura compartilhada.
Minha reação a essa probabilidade seria ter redundância e por dois chassis em vez de um (muito caro, é claro).
Algumas pessoas (incluindo, por exemplo, os fornecedores da HP) tentam nos convencer de que é muito improvável que o chassi falhe devido a muitas redundâncias (fonte de alimentação redundante etc.).
Outra preocupação do meu lado é que, se algo der errado, poderão ser necessárias peças de reposição - o que é difícil em nossa região (Etiópia).
Então, eu pediria aos administradores experientes, que gerenciaram o servidor blade: Qual é a sua experiência? Eles caem como um todo - e qual é a infraestrutura compartilhada sensata que pode falhar?
Essa pergunta pode ser estendida ao armazenamento compartilhado. Novamente, eu diria que precisamos de duas unidades de armazenamento em vez de apenas uma - e novamente os fornecedores dizem que essas coisas são tão sólidas que não são esperadas falhas.
Bem - mal posso acreditar que uma infraestrutura tão crítica possa ser muito confiável sem redundância - mas talvez você possa me dizer, se possui projetos baseados em blade, que funcionam sem redundância em suas partes principais (chassi, armazenamento ... )
No momento, olhamos para a HP - pois a IBM parece muito cara.
Respostas:
Há uma baixa probabilidade de falha completa do chassi ...
Você provavelmente encontrará problemas em suas instalações antes de sofrer uma falha completa de um gabinete blade.
Minha experiência é principalmente com os gabinetes blade HP C7000 e HP C3000 . Também gerenciei as soluções blade Dell e Supermicro. Fornecedor importa um pouco. Mas, em resumo, o equipamento da HP tem sido excelente, a Dell está bem e a Supermicro estava com falta de qualidade, resiliência e foi mal projetada. Nunca experimentei falhas do lado da HP e da Dell. O Supermicro teve sérias interrupções, forçando-nos a abandonar a plataforma. Na HP e na Dells, nunca encontrei uma falha completa no chassi.
Eu já vi vários ambientes e tive o benefício de instalar em condições ideais de data center, bem como em locais mais difíceis. No lado HP C7000 e C3000, o principal a considerar é que o chassi é totalmente modular. Os componentes são projetados para minimizar o impacto de uma falha de componente que afeta toda a unidade.
Pense dessa maneira ... O chassi principal do C7000 é composto por conjuntos de painel frontal e intermediário (passivo). O gabinete estrutural simplesmente mantém os componentes dianteiro e traseiro juntos e suporta o peso do sistema. Quase todas as partes podem ser substituídas ... acredite, desmontei muitas. Os principais despedimentos estão em gerenciamento / ventilador, refrigeração, energia e redes. Os processadores de gerenciamento ( Onboard Administrator da HP ) podem ser emparelhados para redundância, no entanto, os servidores podem ser executados sem eles.
Gabinete totalmente preenchido - vista frontal. As seis fontes de alimentação na parte inferior percorrem toda a profundidade do chassi e se conectam a um conjunto de backplane de energia modular na parte traseira do gabinete. Os modos de fonte de alimentação são configuráveis: por exemplo, 3 + 3 ou n + 1. Portanto, o gabinete definitivamente possui redundância de energia.
Gabinete totalmente preenchido - vista traseira. Os módulos de rede do Virtual Connect na parte traseira têm uma conexão cruzada interna, para que eu possa perder um lado ou outro e ainda manter a conectividade de rede com os servidores. Existem seis fontes de alimentação hot swap e dez ventiladores hot swap.
Gabinete vazio - vista frontal. Observe que não há realmente nada nessa parte do gabinete. Todas as conexões são passadas para o midplane modular.
Conjunto do painel intermediário removido. Observe as seis alimentações de energia para o conjunto do plano intermediário na parte inferior.
Montagem do painel intermediário. É aqui que a mágica acontece. Observe as 16 conexões separadas do downplane: uma para cada servidor blade. Eu tive que soquetes / compartimentos de servidor individuais falharem sem matar o gabinete inteiro ou afetar os outros servidores.
Painel traseiro da fonte de alimentação. 3 ° abaixo do módulo monofásico padrão. Troquei a distribuição de energia no meu data center e simplesmente troquei o backplane da fonte de alimentação para lidar com o novo método de fornecimento de energia
Danos no conector do chassi. Esse gabinete em particular foi derrubado durante a montagem, quebrando os pinos de um conector de fita. Isso passou despercebido por dias, resultando no chassi do blade de corrida pegando FIRE ...
Aqui estão os restos carbonizados do cabo plano do plano. Isso controlava parte da temperatura do chassi e do monitoramento do ambiente. Os servidores blade dentro continuaram a funcionar sem incidentes. As peças afetadas foram substituídas à vontade durante o tempo de inatividade programado e tudo estava bem.
fonte
Estou gerenciando um pequeno número de servidores blade há oito anos e ainda tenho uma falha em todo o sistema que colocou vários blades offline. Cheguei bem perto devido a problemas relacionados à energia, mas ainda não tive uma falha em todo o chassi que não era atribuível a fontes externas.
Sua observação de que o chassi representa um único ponto de falha está correta, embora eles tenham uma grande quantidade de redundâncias nesses dias. Todos os sistemas blade que usei tiveram alimentação paralela às lâminas e várias tomadas de rede passando por caminhos separados, e no caso de múltiplos caminhos Fibre Channel do blade às portas ópticas de back-of-rack. Até o sistema de informações do chassi tinha vários caminhos.
Com a engenharia de rede apropriada (uso redundante da NIC, MPIO para armazenamento), os eventos com um único problema são inteiramente possíveis de sobreviver. No meu tempo com esses sistemas, tive os seguintes problemas, nenhum dos quais afetou mais de um blade, se houver:
A opinião da TomTom sobre o custo é muito verdadeira. Para obter a paridade de custo total, o chassi blade terá que estar totalmente carregado e provavelmente não usará coisas especiais, como switches de back-of-rack. Os racks blade fazem sentido em áreas em que você realmente precisa da densidade porque possui restrições de espaço
fonte
Na verdade não. Suas preocupações até agora faziam sentido, esta frase as coloca em "leia as coisas na frente dos seus olhos". A HA com replicação completa é um recurso corporativo conhecido para unidades de armazenamento. O ponto é que uma SAN (unidade de armazenamento é muito mais complexa do que um chassi blade que no final é apenas "metal estúpido". Tudo em um chassi blade, exceto em alguns planos traseiros, é substituível - todos os módulos etc. são substituíveis e lâminas individuais SÃO Ninguém diz que o centro da lâmina, por si só, oferece alta disponibilidade às lâminas.
Isso é muito diferente de uma SAN que deveria estar 100% do tempo - em estado consistente - para que você tenha coisas como replicação etc.
QUE DISSE: assista seus números. Já considerei comprar lâminas há algum tempo e elas NUNCA FAZER SENTIDO FINANCEIRO. O chassi é muito caro e as lâminas não são realmente mais baratas em comparação com os computadores normais. Eu sugeriria olhar para a arquitetura SuperMicro Twin como alternativa.
fonte
Os servidores blade com os quais tive experiência são os da IBM. Esses em particular são totalmente modulares e há muita redundância embutida. Portanto, se algo falhar, será um dos componentes como um PSU ou um comutador modular etc. Mas, novamente, há redundância mesmo nesses.
Desde que me envolvi com os blades da IBM, nunca vi uma falha completa antes.
Com as outras marcas, suspeito que elas seriam construídas de maneira semelhante.
Seria uma boa idéia falar com um fornecedor também e fazer muita leitura.
É um grande investimento.
fonte
As falhas que levam a várias interrupções do servidor blade no mesmo gabinete são comparáveis (em probabilidade e causa) às falhas que levam a várias interrupções do servidor no mesmo rack.
Configuração inicial para minimizar pontos únicos de falha (duas fontes de energia CA separadas , cada uma das quais pode lidar com toda a carga, funcionando para separar fontes de alimentação CC, de modo que a metade possa lidar com toda a carga; dois anexos de rede separados , que pode lidar com toda a carga esperada etc.) e a diferença entre algo que remove todos os blades em um chassi ou todos os servidores 2U em um rack é muito pequena.
fonte
De fato! Cerca de 5 anos atrás, ao gerenciar dois gabinetes blade HP Proliant p-Class, encontrei vários problemas no chassi várias vezes.
Eu tive servidores blade que não puderam ser ativados, se tivessem sido desligados (os servidores não são desligados frequentemente, mas se tornaram um problema muito real para nós da mesma forma). De repente, tive servidores desligando e não conseguindo ligar novamente. Por fim, todos os servidores foram desligados e não consegui ligar novamente.
Pelo que me lembro, praticamente todos os problemas foram atribuídos a backplanes de energia ruim ou backplanes de controladores. Substituímos esses dispositivos várias vezes e a mensagem não específica e não registrada que recebi dos técnicos foi de que eles tinham sua parcela de problemas com essa geração de gabinetes blade.
Decidi então que os benefícios dos servidores blade simplesmente não valiam o risco, se eu tivesse algo a dizer em compras futuras.
Avanço rápido para o meu próximo empregador, e meu atual, nesse caso. Eles já tinham gabinetes HP Proliant c-Class em funcionamento, então meu sentimento morno por lâminas realmente não importava. Nos cinco anos em que lidei com os gabinetes da classe c, nunca experimentei algo parecido com o da classe p, onde um gabinete inteiro falhou em mim. Eles estão correndo sem grandes problemas.
(Exceto quando uma tempestade enviou chuva através do telhado, quatro andares, um pequeno buraco na vedação da sala de computadores, por um cabo e dentro do chassi)
fonte
O chassi DELL e HP Blade não possui um plano intermediário redundante. É aqui que o IBM Bladecenter prova ser um vencedor. Que eu saiba, é o único chassi blade que fornece um plano intermediário redundante. Embora a HP ofereça um conjunto fantástico de software de gerenciamento para os blades, adquirimos um Bladecenter E para nossa empresa apenas para evitar um único ponto de falha de todo o chassi.
fonte