No outro dia, notamos um cheiro horrível saindo da sala dos servidores. Para encurtar a história, acabou sendo um dos módulos de bateria que estavam queimando na unidade UPS, mas demorou algumas horas para que pudéssemos descobrir. A principal razão pela qual conseguimos descobrir isso é que o visor do no-break finalmente mostrou que o módulo precisava ser substituído.
Aqui estava o problema: toda a sala estava cheia do cheiro. Fazer um teste de cheirar era muito difícil, porque o cheiro se infiltrara em tudo (sem mencionar que nos deixava tonto). Quase erroneamente derrubamos nosso servidor de banco de dados de produção porque é onde o cheiro é mais forte. Os sinais vitais pareciam estar ok (a temperatura da CPU mostrava 60 graus C e a velocidade dos ventiladores ok), mas não tínhamos certeza. Aconteceu que o módulo da bateria queimado tinha aproximadamente a mesma altura do servidor no rack e apenas 3 pés de distância. Se fosse uma emergência real, teríamos fracassado miseravelmente.
Realisticamente, as chances de o hardware real do servidor estar queimando é uma ocorrência bastante rara e, na maioria das vezes, veremos o no-break o culpado. Mas com vários racks com várias peças de equipamento, ele pode rapidamente se tornar um jogo de adivinhação. Como alguém determina com rapidez e precisão que equipamento está realmente queimando? Sei que essa pergunta depende muito das variáveis de ambiente, como tamanho da sala, ventilação, localização etc., mas qualquer entrada seria apreciada.
Respostas:
O consenso geral parece ser que a resposta para sua pergunta vem em duas partes:
Como podemos encontrar a fonte do cheiro ardente engraçado?
Você tem o "Como" muito bem pregado:
Você pode melhorar suas chances de encontrar o problema rapidamente de várias maneiras - o monitoramento aprimorado é geralmente o mais fácil. Algumas perguntas a serem feitas:
Quando devemos solucionar problemas em vez de pressionar o Big Red Switch?
Esta é uma pergunta mais interessante.
Ativar o grande interruptor vermelho pode custar à sua empresa uma quantia enorme de dinheiro às pressas: as liberações de agentes limpos podem chegar a dezenas de milhares de dólares, e os custos de interrupção / recuperação após um desligamento de emergência (EPO, "abandonar a sala") ) pode ser devastador.
Você não deseja descartar um datacenter porque um capacitor em uma fonte de alimentação estalou e fez a sala cheirar.
Por outro lado, um incêndio em uma sala de servidores pode custar à sua empresa seus dados / equipamentos e, mais importante, a vida de sua equipe.
A solução de problemas "aquele cheiro engraçado de queimadura" nunca deve ter precedência sobre a segurança , por isso é importante ter algumas regras claras sobre a solução de problemas de "pré-incêndio".
As diretrizes a seguir são minhas limitações pessoais que aplico na ausência de (ou além de) qualquer outro procedimento / regras claramente definidos - eles me serviram bem e podem ajudá-lo, mas poderiam facilmente me matar ou despedido amanhã, aplique-o por sua conta e risco.
Se você
vir fumaça ou fogo, abandone a sala. Isso não é preciso dizer, mas vamos dizer assim mesmo: se houver fogo ativo (ou fumaça indicando que em breve haverá), você evacua a sala, corta a energia e apaga o fogo. sistema de supressão.
Podem existir exceções (exercite algum senso comum), mas essa é quase sempre a ação correta.
Se você estiver solucionando problemas, sempre tenha pelo menos uma outra pessoa envolvida.
Isso ocorre por dois motivos. Primeiro, você não quer ficar andando em um datacenter e, de repente, tem um rack subindo na fila que você está andando e ninguém sabe que você está lá. Segundo, a outra pessoa é a sua verificação de sanidade na solução de problemas em vez de deixar a sala e, se você ligar para o Big Red Switch, terá o benefício de ter uma segunda pessoa que concorda com a decisão (ajuda a evitar os aspectos limitadores da carreira) de tal decisão se alguém a questionar mais tarde).
Exercite medidas de segurança prudentes durante a solução de problemas
Certifique-se de sempre ter um caminho de fuga (uma extremidade aberta de uma linha e um caminho livre para uma saída).
Mantenha alguém estacionado na liberação do EPO / combate a incêndio.
Leve consigo um extintor de incêndio (Halon ou outro agente de limpeza, por favor).
Lembre-se da regra nº 1 acima.
Em caso de dúvida, saia da sala . Cuide da sua respiração: use um respirador ou uma máscara de oxigênio. Isso pode salvar sua saúde em caso de incêndio químico.
Defina um limite e atenha-o com
mais precisão, defina dois limites:
Os limites definidos por você também pode ser usado para permitir que sua equipe começam um desligamento ordenado da área afetada, então quando você FAZER puxar poder você não está batendo um monte de máquinas ativas, e seu tempo de recuperação será muito mais curto, mas lembre-se que se o desligamento ordenado estiver demorando muito, talvez seja necessário deixar alguns sistemas travarem em nome da segurança.
Confie em seu instinto
Se você estiver preocupado com a segurança a qualquer momento, desligue a solução de problemas e limpe a sala.
Você pode ou não deixar a sala com base em um pressentimento, mas se reagrupar fora da sala em segurança (relativa) é prudente.
Se não houver perigo iminente, você pode optar por trazer o corpo de bombeiros local antes de tomar quaisquer ações drásticas como uma liberação de EPO ou agente de limpeza. (Eles podem pedir para você fazer isso de qualquer maneira: o mandato deles é proteger as pessoas e, em seguida, a propriedade, mas eles são obviamente os especialistas em lidar com incêndios, então você deve fazer o que eles dizem!)
fonte
Uma câmera de imagem térmica pode fazer o trabalho e permitir identificar onde está o superaquecimento. Um dispositivo como esse permitirá identificar também a origem de um incêndio ou queima em uma sala cheia de fumaça.
fonte
Você não faz nenhuma dessas coisas que foram ditas. Você deixa o ambiente perigoso porque tudo o que está sendo bombeado por toda a sala é perigoso para sua saúde e pode realmente atrapalhar seus pulmões. Se houver um cheiro acre de algo queimando na sala que você não conseguir encontrar, ligue para (911 | 112 | 999 | qualquer número de emergência que se ajuste à sua jurisdição) e deixe o fogo (empresa | departamento | brigada) resolver o problema enquanto eles está no ar engarrafado.
As peças do computador contêm todos os tipos de produtos químicos interessantes, incluindo mercúrio , cádmio , chumbo e muitos plásticos nas carcaças. Observe que todos os links que fiz explicam como exposições de baixo nível podem causar danos duradouros ou até morte rápida. Este é um ambiente que pode ser imediatamente perigoso para a vida e a saúde .
... realmente, se algo estiver queimando, não gaste horas cheirando a fumaça. Se você não conseguir identificá-lo e agir imediatamente para contê-lo, saia.
fonte
Se você tivesse um monitoramento adequado no no-break (geralmente via SNMP), a própria unidade deveria ter tocado os sinos no seu sistema de monitoramento. Caso contrário, converse com seu fornecedor sobre isso. Está com defeito ou o seu sistema de monitoramento não está configurado corretamente.
Se algo ativo estiver realmente queimando, deve estar reclamando de alguma forma ou simplesmente estar fora da rede, o que também deve causar um alarme.
Se é algo como um trilho de energia real queimando através do isolamento e não estiver em uma PDU inteligente, voltamos à sua pergunta original, que é "como encontro uma coisa queimada?" E acho que a resposta correta é "Entre no EPO e descubra. Seus servidores de produção provavelmente não são importantes o suficiente para arriscar vidas".
fonte
Essa é uma daquelas situações em que
não se aplica, você deve chamar um profissional
Qualquer outra coisa é simplesmente estúpida.
fonte
Como alguém cuja carreira anterior era como tecnologia eletrônica, tenho experiência com "cheiros ardentes" que não eram incêndios. Isso não é incomum.
Eu não desligaria um data center por cheiro. Fumaça é outra questão, algo está realmente queimando (geralmente, mas um capacitor de tântalo do tamanho de uma ervilha também pode encher uma sala de fumaça). É incrível o cheiro que um componente frito em uma fonte de alimentação pode causar.
Um termômetro TIC ou IR (uma ferramenta útil e muito mais barata que um TIC) não o mostraria necessariamente, pois o componente não gera muito calor e está dentro de um gabinete. Mas verifique se os dispositivos não estão funcionando, use as ferramentas de monitoramento. Para um cheiro como esse, 95% das vezes será uma fonte de alimentação que afeta o desempenho de todo o dispositivo.
fonte
Gosto das respostas por imagem infravermelha ou termômetro, mas talvez o que também ajudaria seja um verdadeiro "detector de odor". Afinal, o que desencadeou sua cautela foi o cheiro. Fumaça, calor, IR etc. são todos substitutos.
Algo como este: . Eu pessoalmente nunca os usei ou os vi usados em um datacenter. Mas, pelo menos teoricamente, deve ser uma ferramenta interessante. Se você tem dinheiro para gastar com esse dispositivo, é isso.
http://www.sca-shinyei.com/odormeter ou http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ
Dá-lhe uma força de odor, bem como classificação. Portanto, deve-se voltar ao odor. O diabo está nos detalhes, é claro. Como é sensível, mascarando o odor de fundo falso etc.
Uma vantagem sobre medições puramente baseadas em temperatura é que geralmente o odor ocorre em um ponto ou limiar muito mais cedo. Ou se o componente superaquecido estiver oculto por um corpo / fiação oculta, etc., é mais fácil detectar moléculas que escapam do que um ponto quente na linha de visão.
Outra situação é um cheiro não relacionado ao calor. Tivemos um vazamento no circuito de refrigeração antes e os cheiros do refrigerante também eram peculiares. Eu nem vou entrar no caso agora antigo de um roedor morto nos dutos. :)
Fiquei surpreso com a sensibilidade desses sensores. Aparentemente, H2S / mercaptanos etc. (culpados comuns) são detectáveis em níveis sub ppm.
fonte