Qual é a sua lista de verificação quando tudo explode?

40

Os usuários não conseguem acessar seus emails, o CEO não acessa a página inicial da empresa e seu pager simplesmente dispara com um código "911". O que você faz quando tudo explode?

Jon Galloway
fonte

Respostas:

35

A primeira resposta é manter a calma! Aprendi que da maneira mais difícil que o pânico geralmente piora as coisas. Uma vez que isso é alcançado, a próxima coisa é realmente determinar qual é o problema. Reclamações de usuários e gerentes chegarão a você de todos os ângulos, dizendo o que ELES não podem fazer, mas não qual é o problema.

Depois de conhecer o problema, você pode iniciar o plano para corrigi-lo e começar a oferecer aos usuários irritados uma escala de tempo!

Sam Cogan
fonte
3
Este é um plano reativo. Um verdadeiro plano de recuperação de desastre já foi escrito e testado para todos os processos críticos de negócios.
spoulson
3
spaulson com certeza: mas a primeira coisa a fazer é descobrir se você precisa ativar o plano ou se acionar o disjuntor resolverá tudo.
pjz
11
Esta é realmente a melhor coisa a fazer, POST PERFEITO! Depois que você precisar segurar toda a pressão nas costas, porque, como foi dito nos comentários acima, todo mundo se apressará em seu escritório para dizer que eles podem ir aonde quiserem. Na verdade, na maioria das vezes, os usuários são realmente egoístas nesse momento e eles não querem entender nada, apenas querem que AS coisas funcionem e não se importam com o resto ... Então, eu concordo totalmente com o seu post !
Marc-Andre R.
+1 para distinguir "o problema" dos sintomas.
BMB
59

Fique calmo

Não surte. Respirar! (Do diafragma, isso ajuda.) Se você estudou meditação, isso também pode ajudar.

Quando se depara com um estresse extremo, seu corpo entra no modo de fugir ou lutar, porque pensa que está em uma situação de vida ou morte. Nesse momento, seu corpo realmente bombeia menos sangue para algumas partes do cérebro, diminuindo funções como o raciocínio. Isso reduz efetivamente o seu QI, já que o instinto, em vez da racionalidade, começa a dominar as funções cerebrais. Se você já assistiu a uma discussão acalorada ou pode testemunhar esses sintomas, as emoções das pessoas se exaltam e a racionalidade tira férias. Mais tarde, quando as pessoas tiverem a chance de se acalmar, serão mais propensas a aceitar ter cometido um erro ou estarem erradas, e serão mais capazes de ver o outro lado, mas no calor do momento, menos.

Manter a compostura e manter o juízo sobre você manterá seu cérebro funcionando em plena capacidade e garantirá que você tome decisões racionais com base em evidências e razão, em vez de emoção e medo.

Triagem

A aplicação eficiente de recursos limitados para obter o maior benefício com o menor custo é extremamente importante aqui. Tome as decisões o mais cedo possível sobre quais coisas precisam ser corrigidas AGORA, que podem demorar um pouco (horas, dias) e quais podem esperar indefinidamente. Aprenda também a perceber quando algo não pode ser salvo e não vale a pena salvar (por exemplo, metade do roteador derreteu, mesmo que seja o único, você não pode salvá-lo, comprar um novo e colocá-lo no local após a pressa ou encontrar algo que possa preencher a lacuna temporariamente).

Reter a consciência situacional

Não permita que sua atenção fique presa por algum problema interessante ou por algo que você ainda não entende. Mantenha-se focado no quadro geral e em fazer as coisas mais importantes funcionarem.

Use o método científico

Forme uma hipótese. Determine como você testaria essa hipótese. Reúna dados para testar a hipótese. Procure também dados que não confirmam. Refine sua hipótese e repita o ciclo quantas vezes forem necessárias até ter confiança suficiente em sua hipótese para agir.

Seja Pragmático

Agora não é a hora do dogma. Não há problema em usar alguns atalhos aqui e ali ao se recuperar de um desastre. Isso é essencialmente acumular dívida técnica. Em muitas empresas, falha catastrófica significa perda de receita catastrófica. É melhor fazer as coisas funcionarem, mesmo que em condições instáveis, do que se distrair e arriscar o sustento da sua empresa. Como sempre, o julgamento é extremamente importante aqui. Às vezes, faz sentido sustentar um ventilador de caixa apontado para um rack de servidor, às vezes não.

Cuide de si mesmo

Há quanto tempo você trabalha nesta emergência? Quando foi a última vez que você bebeu água? Quando foi a última vez que você comeu? Há quanto tempo você está acordado? Não se queime apenas porque há uma emergência, reserve um tempo para se manter hidratado, alimentado e descansado (caso seja uma tarefa longa e de vários dias).

Recrutar Ajuda

Certamente, existem muitas pessoas talentosas em sua empresa, motivadas e capazes de prestar ajuda. Seja cauteloso em deixar muitas pessoas correndo e causando problemas um para o outro. Também tenha cuidado com as pessoas irritantes, colocando-as através de um "firedrill". Encontre pessoas que já querem ajudar, trabalhe em tarefas específicas e verifique se as pessoas estão se comunicando.

Comunicar

A comunicação é crítica. Nada é tão assustador quanto o desconhecido. Quando as pessoas não sabem nada além de que algo está quebrado, uma declaração vazia de que voltará em X horas é apenas tranquilizadora (ainda menos reconfortante depois que X horas se passaram e as coisas ainda estão quebradas). As pressões em jogo podem orientá-lo a fornecer estimativas de tempo excessivamente otimistas do WAG, mas esse é o caminho errado. Não basta dizer que você está trabalhando nisso, não apenas dizer que as coisas serão corrigidas por X tempo. Seja aberto, mostre seu processo, detalhe seu progresso e seus contratempos. Forneça informações sobre o problema, seu processo de rastreamento e seu plano para consertar as coisas (embora não afogue as pessoas em detalhes). Mostre que o problema não é intratável, mostre que as coisas serão acertadas eventualmente, mostre que há pessoas competentes no problema,

Cunha
fonte
2
Muito bom - Gostaria de acrescentar também recruta ajuda se possível
Brent
@ Ah ah sim, eu quis acrescentar isso. Ainda não descobri o texto correto para essa seção.
Wedge
24

Não entre em pânico.

Jauder Ho
fonte
4
Em letras vermelhas grandes e amigáveis.
Spoike
11
Ouvi dizer que o rosa é uma cor calmante.
Sophie Alpert
11
Pegue uma toalha e deixe uma mensagem dizendo "Até mais, e obrigado por todos os peixes".
294 Jauder Ho
11
Eles dizem taupe é muito reconfortante
Glenn Slaven
É meio caminho andado!
Andrew Grimm
22

Etapa 0. Verifique se não é o seu sistema de monitoramento que está com falha

Dave Cheney
fonte
RI MUITO! Agradável! Isso está acontecendo tanto tempo: P
Marc-Andre R.
12

efetue login no serverfault

Phil Nash
fonte
11

Reservar imediatamente um voo para um país que não seja extraditado

Glenn Slaven
fonte
8

Verifique o básico primeiro, parece bobagem, mas coisas como

  1. A energia está ligada nas instalações do servidor? (se você hospeda fora do local)
  2. O seu provedor de hospedagem está inoperante?

Sei que muito tempo pode ser desperdiçado procurando uma solução quando o problema está ocorrendo

Glenn Slaven
fonte
2
sim - se tudo estiver caindo - verifique o centro de dados - e seus fóruns de suporte. Se houver 30 pessoas on-line, quando normalmente houver 3, estará atingindo o ventilador.
Alister Bulman
6

Eu sigo coisas. O que acontece depois disso varia muito, dependendo dos resultados do ping.

Dylan Beattie
fonte
Usou esse método hoje. Muitos PCs não conseguiram imprimir. Tentei executar ping no servidor de banco de dados, OK. Tentou executar ping no servidor de licença da impressora, sem resposta. Resultado = falha no servidor!
Swinders
Bom ponto;) Faço isso muitas vezes por dia antes de fazer qualquer outra coisa. Este é realmente muito poupança de tempo: P
Marc-Andre R.
4

Culpe a rede.

(é uma piada!)

Cara
fonte
3

RTFLF - Leia o arquivo de log do Frakkin '

(Não posso me responsabilizar por isso, tudo vai para Scott Hanselman )

Dillie-O
fonte
Este não deve ser o primeiro passo, mas deve ser um deles.
Marc-Andre R.
2

Não tente consertar nada ainda.

Certifique-se de saber exatamente qual é o verdadeiro problema subjacente. Agora começando a consertar as coisas. Se houver várias coisas a serem corrigidas, considere cuidadosamente quais podem ser adiadas (esperamos até o próximo dia útil, pelo menos!) E quais absolutamente devem ser corrigidas agora.

Mas o mais importante: depois que tudo está funcionando, pergunte por que "tudo explodiu"? O que você fará para impedir que isso aconteça novamente? Existem quaisquer passos que tornam a solução mais fácil se ele não acontecer novamente?

Stewart
fonte
1

Informe as pessoas de que você está envolvido e, se possível, faça uma estimativa de quando as coisas voltarão ao normal.

Quanto à solução de problemas real, obviamente depende do que está errado. Eu costumo manter uma coleção de scripts de "status de verificação" para vários serviços.

Brian Rasmussen
fonte
Por que isso foi modificado? Parece um ponto válido para mim.
Adriano Varoli Piazza
Este é um excelente ponto. A prevenção é a chave para evitar o grande desastre;)
Marc-Andre R.
1

Verifique o cabeamento! Perdi horas verificando outras coisas quando uma simples troca de cabo Eth0 resolveu o problema ...

Adriano Varoli Piazza
fonte
Na verdade, um cabo não morre sem motivo. Se não estiver bem empilhe, embrulhe ou qualquer outro método de proteção e que todos possam jogar com ele, na verdade sim, é provável que um cabo se quebre. Caso contrário, não há razão.
7689 Marc-Andre R. 19 de
0

Você deve ter planos de contingência.

Os sistemas essenciais devem ser projetados com failover automático ou um plano de recuperação documentado e testado.

Quanto mais importante o sistema, mais resiliência é necessária e mais automático ele deve ser.

Se você não tem um, então não era importante, era!

Cara
fonte
0

Verifique se o backup do seu currículo está seguro :) Em seguida,

Encontre os pontos em comum. O que é comum a todos os sistemas afetados.

Encontre o que mudou. Você deve ter algum gerenciamento formal de mudanças em sua organização.

Onde está o novo cara ... onde está o chefe ...? Um deles tomou um atalho? (é apenas uma reinicialização rápida do servidor, o que poderia prejudicar)

BIBD
fonte
0

É difícil da declaração fornecer um conjunto específico de ações. Seu primeiro passo será baseado em:

  • Onde você está
  • Quanta informação você consegue extrair da pessoa que entrou em contato com você
  • Quais ferramentas imediatas você tem em mãos para solucionar problemas (ou buscar informações)
  • Seu conhecimento sobre os caminhos físicos e lógicos para sua rede
  • Quanta ajuda você tem (parte de uma equipe? Ou ninja solitário?)

Obviamente, você precisa manter a calma e alerta sobre o problema em questão. Sua experiência com a solução de problemas de rede ensinou que isso poderia muito bem ser algo trivial, como:

  • Um cabo desconectado
  • Uma manutenção não anunciada (outra tecnologia 'consertando' as coisas)
  • Seu CEO reage exageradamente sobre a empresa estar completamente condenada após a perda da conectividade sem fio do laptop devido a ele / a microondas uma pizza de queijo.

Dito isto, também pode ser algo sério nas categorias de:

  • Transporte físico (conectividade)
  • Hardware (roteador \ switch \ servidor)
  • Armazenamento (inacessível \ comprometido \ excluído)
  • Software (Serviço> Configurado incorretamente \ Ataque \ offline)

O componente principal é o quanto você sabe sobre o problema. Qual é o seu ponto de referência? (de que perspectiva é 'o sistema inoperante'?).

l0c0b0x
fonte
0

Verifique o DNS.

Cawflands
fonte
0

Comece simples e trabalhe em direção ao absurdo.

Poder?

Ethernet?

Programa em execução?

...

Aliens?

Robert
fonte