Algo está queimando na sala do servidor; como posso identificar rapidamente o que é?

454

No outro dia, notamos um cheiro horrível saindo da sala dos servidores. Para encurtar a história, acabou sendo um dos módulos de bateria que estavam queimando na unidade UPS, mas demorou algumas horas para que pudéssemos descobrir. A principal razão pela qual conseguimos descobrir isso é que o visor do no-break finalmente mostrou que o módulo precisava ser substituído.

Aqui estava o problema: toda a sala estava cheia do cheiro. Fazer um teste de cheirar era muito difícil, porque o cheiro se infiltrara em tudo (sem mencionar que nos deixava tonto). Quase erroneamente derrubamos nosso servidor de banco de dados de produção porque é onde o cheiro é mais forte. Os sinais vitais pareciam estar ok (a temperatura da CPU mostrava 60 graus C e a velocidade dos ventiladores ok), mas não tínhamos certeza. Aconteceu que o módulo da bateria queimado tinha aproximadamente a mesma altura do servidor no rack e apenas 3 pés de distância. Se fosse uma emergência real, teríamos fracassado miseravelmente.

Realisticamente, as chances de o hardware real do servidor estar queimando é uma ocorrência bastante rara e, na maioria das vezes, veremos o no-break o culpado. Mas com vários racks com várias peças de equipamento, ele pode rapidamente se tornar um jogo de adivinhação. Como alguém determina com rapidez e precisão que equipamento está realmente queimando? Sei que essa pergunta depende muito das variáveis ​​de ambiente, como tamanho da sala, ventilação, localização etc., mas qualquer entrada seria apreciada.

Chad Harrison
fonte
34
@DeerHunter Bem, graças a Deus, era o fim do dia e havia muito poucas pessoas no prédio. Obrigado por suas críticas construtivas, e informarei minha supervisora ​​sobre a vida que ela arriscou ao decidir manter o sistema em funcionamento.
Chad Harrison
12
@hydroparadise - alguém tem que ter a coragem de dizer " PARE Não estamos fazendo isso direito". Se o seu supervisor não entender as regras de segurança, não há muito o que fazer, exceto cultivar a coluna e não se curvar à vontade de cortar custos.
Deer Hunter
112
@DeerHunter: Qual seria a resposta apropriada quando você sentir o cheiro de algo queimando? Não há fumaça visível, apenas um cheiro de queimado. Você desliga o datacenter inteiro, desabafa por algumas horas e depois liga os servidores um por um até que o cheiro volte? Um pequeno datacenter de 25 racks poderia ter 1.000 servidores para verificar, isso é muito tempo de inatividade para um "cheiro" - o OP não relatou fumaça ou incêndio visível.
Johnny
24
@ Johnny - Citando o OP: "toda a sala estava cheia do cheiro. Fazer um teste de cheirar era muito difícil porque o cheiro se infiltrara em tudo (sem mencionar que nos deixava tonto)" Respondendo à sua pergunta - sim, você precisa ventile a sala e solucione problemas sistematicamente . Qualquer outra coisa é irresponsável.
Deer Hunter
14
Então, os críticos do manuseio do cheiro pelo OP sugerem que não há diferença de urgência entre um cheiro e um incêndio / fumaça? Se você cheira a algo queimando em sua casa, mas não vê fumaça e não ouve nenhum alarme, apressa você e sua família para fora de casa e liga para o 911?
trpt4him

Respostas:

383

O consenso geral parece ser que a resposta para sua pergunta vem em duas partes:

Como podemos encontrar a fonte do cheiro ardente engraçado?

Você tem o "Como" muito bem pregado:

  • O "Sniff Test"
  • Procure fumaça visível / neblina
  • Caminhe pela sala com uma câmera térmica (IR) para encontrar pontos quentes
  • Verifique os painéis de monitoramento e dispositivo para alertas

Você pode melhorar suas chances de encontrar o problema rapidamente de várias maneiras - o monitoramento aprimorado é geralmente o mais fácil. Algumas perguntas a serem feitas:

  • Você recebe alertas de temperatura e outros alertas de saúde do seu equipamento?
  • Seus sistemas UPS relatam falhas no seu sistema de monitoramento?
  • Você recebe alarmes de consumo de corrente do seu equipamento de distribuição de energia?
  • Os detectores de fumaça da sala estão se reportando ao sistema de monitoramento? (e eles podem? )

Quando devemos solucionar problemas em vez de pressionar o Big Red Switch?

Esta é uma pergunta mais interessante.
Ativar o grande interruptor vermelho pode custar à sua empresa uma quantia enorme de dinheiro às pressas: as liberações de agentes limpos podem chegar a dezenas de milhares de dólares, e os custos de interrupção / recuperação após um desligamento de emergência (EPO, "abandonar a sala") ) pode ser devastador.
Você não deseja descartar um datacenter porque um capacitor em uma fonte de alimentação estalou e fez a sala cheirar.

Por outro lado, um incêndio em uma sala de servidores pode custar à sua empresa seus dados / equipamentos e, mais importante, a vida de sua equipe.
A solução de problemas "aquele cheiro engraçado de queimadura" nunca deve ter precedência sobre a segurança , por isso é importante ter algumas regras claras sobre a solução de problemas de "pré-incêndio".

As diretrizes a seguir são minhas limitações pessoais que aplico na ausência de (ou além de) qualquer outro procedimento / regras claramente definidos - eles me serviram bem e podem ajudá-lo, mas poderiam facilmente me matar ou despedido amanhã, aplique-o por sua conta e risco.

  1. Se você
    vir fumaça ou fogo, abandone a sala. Isso não é preciso dizer, mas vamos dizer assim mesmo: se houver fogo ativo (ou fumaça indicando que em breve haverá), você evacua a sala, corta a energia e apaga o fogo. sistema de supressão.
    Podem existir exceções (exercite algum senso comum), mas essa é quase sempre a ação correta.

  2. Se você estiver solucionando problemas, sempre tenha pelo menos uma outra pessoa envolvida.
    Isso ocorre por dois motivos. Primeiro, você não quer ficar andando em um datacenter e, de repente, tem um rack subindo na fila que você está andando e ninguém sabe que você está lá. Segundo, a outra pessoa é a sua verificação de sanidade na solução de problemas em vez de deixar a sala e, se você ligar para o Big Red Switch, terá o benefício de ter uma segunda pessoa que concorda com a decisão (ajuda a evitar os aspectos limitadores da carreira) de tal decisão se alguém a questionar mais tarde).

  3. Exercite medidas de segurança prudentes durante a solução de problemas
    Certifique-se de sempre ter um caminho de fuga (uma extremidade aberta de uma linha e um caminho livre para uma saída).
    Mantenha alguém estacionado na liberação do EPO / combate a incêndio.
    Leve consigo um extintor de incêndio (Halon ou outro agente de limpeza, por favor).
    Lembre-se da regra nº 1 acima.
    Em caso de dúvida, saia da sala . Cuide da sua respiração: use um respirador ou uma máscara de oxigênio. Isso pode salvar sua saúde em caso de incêndio químico.

  4. Defina um limite e atenha-o com
    mais precisão, defina dois limites:

    • Condição ("Quanto pior vou deixar isso acontecer?") E
    • Tempo ("Por quanto tempo vou continuar tentando encontrar o problema antes que seja muito arriscado?").

    Os limites definidos por você também pode ser usado para permitir que sua equipe começam um desligamento ordenado da área afetada, então quando você FAZER puxar poder você não está batendo um monte de máquinas ativas, e seu tempo de recuperação será muito mais curto, mas lembre-se que se o desligamento ordenado estiver demorando muito, talvez seja necessário deixar alguns sistemas travarem em nome da segurança.

  5. Confie em seu instinto
    Se você estiver preocupado com a segurança a qualquer momento, desligue a solução de problemas e limpe a sala.
    Você pode ou não deixar a sala com base em um pressentimento, mas se reagrupar fora da sala em segurança (relativa) é prudente.

Se não houver perigo iminente, você pode optar por trazer o corpo de bombeiros local antes de tomar quaisquer ações drásticas como uma liberação de EPO ou agente de limpeza. (Eles podem pedir para você fazer isso de qualquer maneira: o mandato deles é proteger as pessoas e, em seguida, a propriedade, mas eles são obviamente os especialistas em lidar com incêndios, então você deve fazer o que eles dizem!)

Abordamos isso nos comentários, mas também pode ser resumido em uma resposta - @DeerHunter, @Chris, @Sirex e muitos outros contribuíram para a discussão

voretaq7
fonte
30
Universidade Fui instalar um novo data center. Eles implementaram um sistema altamente sofisticado de supressão de EPO / Incêndio. O equipamento que protegia estava na casa dos milhões de dólares e também estava sendo usado para milhões de dólares de pesquisa na parte médica da escola. Obviamente, se fosse necessário, o botão vermelho seria pressionado, mas, dito isso, se o botão vermelho fosse pressionado, apenas o redefinir era próximo de US $ 200.000. Dólares de contribuinte, você pode apostar que, se o interruptor fosse acionado quando não fosse necessário, o cara que o atingisse não teria mais emprego.
Ryan
28
+1 para o sistema de amigos. Eu acho que é um pouco maluco que existem DCs por aí que usam o EPO para também despejar a supressão de incêndio. Existem muitas situações em que você gostaria de fazer um EPO sem querer despejar halotron por todo o cara sendo eletrocutado. Um EPO é um negócio sério, mas não é um "destruir tudo no meio negócio de DC" ou pelo menos não deveria ser. Esperamos que os caras do centro de distribuição compreendam bem o grande botão vermelho e o sistema de combate a incêndios o suficiente para pesar o efeito de apertar o botão. Um EPO pode realmente parar um incêndio e salvar o CD, por exemplo.
Chris5 /
13
Uma observação importante que não vi mencionada é que, na maioria das vezes, quando algo falha, para exalar um cheiro ardente, o que estiver queimando se extingue antes que o odor seja detectado e sem queimar nada fora do equipamento que falhou. Às vezes, um equipamento continua a arder enquanto tiver energia, mas se alguém vê fumaça, deve ser possível identificar o equipamento, cortar a energia apenas para ele e ver se a fumaça logo desaparece ou piora continuamente.
supercat
1
@ryan: Se pressionar o grande botão vermelho custa tantos dólares dos contribuintes, esperamos que a pessoa responsável tenha elaborado um plano para resolver pequenos incidentes com o corpo de bombeiros local que não envolva funcionários em perigo.
9603 Christoph
3
@ryan Isso me lembra uma reportagem de TV sobre o CERN que eu vi recentemente: a equipe de câmera e o repórter foram levados realmente para as entranhas do sistema e, em um momento, um dos caras da câmera quase bateu um botão vermelho de desligamento de emergência com sua mochila - dando ataques cardíacos perto do cara equipe pensando sobre os custos de reinicialização ...
Hagen von Eitzen
183

Uma câmera de imagem térmica pode fazer o trabalho e permitir identificar onde está o superaquecimento. Um dispositivo como esse permitirá identificar também a origem de um incêndio ou queima em uma sala cheia de fumaça.

ddalcero
fonte
30
Hoje em dia, as câmeras térmicas custam muito bem, e se você estiver executando uma grande sala de servidores, elas são uma ferramenta que vale a pena ter.
rackandboneman
16
Um TIC não é tão caro e é muito útil em um datacenter ou em uma grande sala de servidores. Não só em caso de problemas como cabos superaquecidos ou equipamentos, mas também como uma detecção preventiva ou precoce do problema, otimização de refrigeração, fluxo de ar, etc.
ddalcero
39
A pistola de laser, como este , é uma alternativa barata
Michaelhouse
4
@mfinni Os eletricistas também costumam ter câmeras térmicas. (Uma verificação de imagem térmica de nossos painéis de distribuição de energia todos os anos, ou após qualquer grande trabalho de fiação, era padrão quando eu trabalhava em uma empresa de hospedagem).
voretaq7
3
Uma câmera térmica tem limitações muito grandes: 1. O campo de visão pode impedir o uso 2. Seu ambiente pode ser muito denso. [Grandes queimadas será manchado, mas não pequenos] 3. Média das temperaturas serão necessários para determinar um limiar
monksy
138

Você não faz nenhuma dessas coisas que foram ditas. Você deixa o ambiente perigoso porque tudo o que está sendo bombeado por toda a sala é perigoso para sua saúde e pode realmente atrapalhar seus pulmões. Se houver um cheiro acre de algo queimando na sala que você não conseguir encontrar, ligue para (911 | 112 | 999 | qualquer número de emergência que se ajuste à sua jurisdição) e deixe o fogo (empresa | departamento | brigada) resolver o problema enquanto eles está no ar engarrafado.

As peças do computador contêm todos os tipos de produtos químicos interessantes, incluindo mercúrio , cádmio , chumbo e muitos plásticos nas carcaças. Observe que todos os links que fiz explicam como exposições de baixo nível podem causar danos duradouros ou até morte rápida. Este é um ambiente que pode ser imediatamente perigoso para a vida e a saúde .

... realmente, se algo estiver queimando, não gaste horas cheirando a fumaça. Se você não conseguir identificá-lo e agir imediatamente para contê-lo, saia.

Jeff Ferland
fonte
18
Deve-se acrescentar que, se isso acontecesse em um datacenter "real" com detectores de fumaça integrados ao ar condicionado e um sistema de extinção instalado, os alarmes de incêndio disparariam e a sala seria selada e inundada automaticamente com argônio ou CO2, portanto não havia sequer um pensamento sobre correr e cheirar equipamentos.
the-wabbit
8
@ syneticon-dj Isso depende do tipo de detectores instalados. Os detectores de ionização podem ter acionado a supressão de incêndio, mas já trabalhei em (e atualmente hospedo equipamentos em) locais que possuem detectores ópticos de fumaça - Esses requerem fumaça visível (ou pelo menos uma boa névoa) antes de dispararem.
voretaq7
3
Eu gostaria de poder votar mais isso. correndo o risco de ser controverso, o bombeiro 'convide um profissional' é o único caminho a seguir.
user619714
19
Sim, como ex-bombeiro, eu não ficaria lá sem meu equipamento. Mesmo quando um incêndio se apaga, somos treinados para ficar empacotados por causa dos gases venenosos. Se eu chamar os profissionais, você também deveria!
Jeff Ferland
1
@ Michael Os projetos que eu vi não dependiam de detectores de fumaça no teto, mas tinham detectores fotoelétricos no fluxo de ar de retorno. A única vez que o vi disparar foi durante uma rotina de testes em que o sistema de argonita foi desconectado e uma fonte de fumaça foi colocada em um dos armários. Funcionou como eu esperava que funcionasse. Felizmente, nunca tive que lidar com incêndios reais.
the-wabbit
76

Se você tivesse um monitoramento adequado no no-break (geralmente via SNMP), a própria unidade deveria ter tocado os sinos no seu sistema de monitoramento. Caso contrário, converse com seu fornecedor sobre isso. Está com defeito ou o seu sistema de monitoramento não está configurado corretamente.

Se algo ativo estiver realmente queimando, deve estar reclamando de alguma forma ou simplesmente estar fora da rede, o que também deve causar um alarme.

Se é algo como um trilho de energia real queimando através do isolamento e não estiver em uma PDU inteligente, voltamos à sua pergunta original, que é "como encontro uma coisa queimada?" E acho que a resposta correta é "Entre no EPO e descubra. Seus servidores de produção provavelmente não são importantes o suficiente para arriscar vidas".

mfinni
fonte
13
O que significa EPO?
quer
39
Desligamento de emergência ... o grande botão vermelho que corta toda a energia da sala. Principalmente para quando está pegando fogo.
Grant
11
Um +1 enfático teria votado +1.000. Aperte o botão, evacue, espere, resolva as coisas mais tarde. Fazer negócios como de costume com fogo e fumaça presentes (e tentar solucionar qualquer coisa) é um dos piores erros que um engenheiro pode cometer.
Deer Hunter
36
@chris Eu tenho que discordar respeitosamente em "EPO, Leave, Wait" - A ativação do EPO e / ou da liberação de agente limpo para uma sala cheia de equipamentos de produção muitas vezes pode ser o que gostamos de chamar de Movimento de limitação de carreira . Se não houver fogo ativo ou visível ou rastro de fumaça vindo de algum equipamento que realiza alguma investigação inicial, geralmente é a coisa certa. É claro que você deve estar absolutamente preparado para sair da sala enquanto pressiona os botões vermelhos apropriados a qualquer momento da sua investigação.
precisa saber é o seguinte
13
É provável que nem mesmo um sistema de monitoramento perfeito tenha percebido isso no mesmo momento em que o painel do no-break disser "Substituir módulo" - ou seja, você certamente deseja que seu sistema de monitoramento chame a atenção dessas coisas. Na próxima vez em que um módulo falhar às 19h30 de uma sexta-feira, quando não houver ninguém por perto, o alerta de monitoramento fará com que você volte e lide com o problema antes que ele se transforme em uma emergência completa. Se você pode conectar o monitoramento ao seu FACP, seus sensores de fumaça e / ou calor podem até avisá-lo sobre o isolamento da queima de trilhos de energia e similares.
precisa saber é o seguinte
43

Essa é uma daquelas situações em que

Administrador de sistema XKCD Die Hard

não se aplica, você deve chamar um profissional

Bombeiro em equipamento de proteção

Qualquer outra coisa é simplesmente estúpida.

Iain
fonte
Esta é claramente a melhor resposta. :)
Cidadão
@ Navin Não, você não os caras do corpo de bombeiros fazem isso.
precisa saber é o seguinte
40

Como alguém cuja carreira anterior era como tecnologia eletrônica, tenho experiência com "cheiros ardentes" que não eram incêndios. Isso não é incomum.

Eu não desligaria um data center por cheiro. Fumaça é outra questão, algo está realmente queimando (geralmente, mas um capacitor de tântalo do tamanho de uma ervilha também pode encher uma sala de fumaça). É incrível o cheiro que um componente frito em uma fonte de alimentação pode causar.

Um termômetro TIC ou IR (uma ferramenta útil e muito mais barata que um TIC) não o mostraria necessariamente, pois o componente não gera muito calor e está dentro de um gabinete. Mas verifique se os dispositivos não estão funcionando, use as ferramentas de monitoramento. Para um cheiro como esse, 95% das vezes será uma fonte de alimentação que afeta o desempenho de todo o dispositivo.

Malcolm
fonte
3
+1, fontes de alimentação queimadas são comuns. Na maioria dos datacenters com altas taxas de fluxo de ar, a fumaça é soprada rapidamente e é difícil localizar a fonte do cheiro. Em uma sala pequena, no entanto, o cheiro pode ser muito ruim e pode se espalhar rapidamente por toda a sala.
Stefan Lasiewski
19

Gosto das respostas por imagem infravermelha ou termômetro, mas talvez o que também ajudaria seja um verdadeiro "detector de odor". Afinal, o que desencadeou sua cautela foi o cheiro. Fumaça, calor, IR etc. são todos substitutos.

Algo como este: de Shinyei . Eu pessoalmente nunca os usei ou os vi usados ​​em um datacenter. Mas, pelo menos teoricamente, deve ser uma ferramenta interessante. Se você tem dinheiro para gastar com esse dispositivo, é isso.

http://www.sca-shinyei.com/odormeter ou http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Dá-lhe uma força de odor, bem como classificação. Portanto, deve-se voltar ao odor. O diabo está nos detalhes, é claro. Como é sensível, mascarando o odor de fundo falso etc.

Uma vantagem sobre medições puramente baseadas em temperatura é que geralmente o odor ocorre em um ponto ou limiar muito mais cedo. Ou se o componente superaquecido estiver oculto por um corpo / fiação oculta, etc., é mais fácil detectar moléculas que escapam do que um ponto quente na linha de visão.

Outra situação é um cheiro não relacionado ao calor. Tivemos um vazamento no circuito de refrigeração antes e os cheiros do refrigerante também eram peculiares. Eu nem vou entrar no caso agora antigo de um roedor morto nos dutos. :)

Fiquei surpreso com a sensibilidade desses sensores. Aparentemente, H2S / mercaptanos etc. (culpados comuns) são detectáveis ​​em níveis sub ppm.

insira a descrição da imagem aqui

curious_cat
fonte