Os usuários não conseguem acessar seus emails, o CEO não acessa a página inicial da empresa e seu pager simplesmente dispara com um código "911". O que você faz quando tudo explode?
disaster-recovery
Jon Galloway
fonte
fonte
Fique calmo
Não surte. Respirar! (Do diafragma, isso ajuda.) Se você estudou meditação, isso também pode ajudar.
Quando se depara com um estresse extremo, seu corpo entra no modo de fugir ou lutar, porque pensa que está em uma situação de vida ou morte. Nesse momento, seu corpo realmente bombeia menos sangue para algumas partes do cérebro, diminuindo funções como o raciocínio. Isso reduz efetivamente o seu QI, já que o instinto, em vez da racionalidade, começa a dominar as funções cerebrais. Se você já assistiu a uma discussão acalorada ou pode testemunhar esses sintomas, as emoções das pessoas se exaltam e a racionalidade tira férias. Mais tarde, quando as pessoas tiverem a chance de se acalmar, serão mais propensas a aceitar ter cometido um erro ou estarem erradas, e serão mais capazes de ver o outro lado, mas no calor do momento, menos.
Manter a compostura e manter o juízo sobre você manterá seu cérebro funcionando em plena capacidade e garantirá que você tome decisões racionais com base em evidências e razão, em vez de emoção e medo.
Triagem
A aplicação eficiente de recursos limitados para obter o maior benefício com o menor custo é extremamente importante aqui. Tome as decisões o mais cedo possível sobre quais coisas precisam ser corrigidas AGORA, que podem demorar um pouco (horas, dias) e quais podem esperar indefinidamente. Aprenda também a perceber quando algo não pode ser salvo e não vale a pena salvar (por exemplo, metade do roteador derreteu, mesmo que seja o único, você não pode salvá-lo, comprar um novo e colocá-lo no local após a pressa ou encontrar algo que possa preencher a lacuna temporariamente).
Reter a consciência situacional
Não permita que sua atenção fique presa por algum problema interessante ou por algo que você ainda não entende. Mantenha-se focado no quadro geral e em fazer as coisas mais importantes funcionarem.
Use o método científico
Forme uma hipótese. Determine como você testaria essa hipótese. Reúna dados para testar a hipótese. Procure também dados que não confirmam. Refine sua hipótese e repita o ciclo quantas vezes forem necessárias até ter confiança suficiente em sua hipótese para agir.
Seja Pragmático
Agora não é a hora do dogma. Não há problema em usar alguns atalhos aqui e ali ao se recuperar de um desastre. Isso é essencialmente acumular dívida técnica. Em muitas empresas, falha catastrófica significa perda de receita catastrófica. É melhor fazer as coisas funcionarem, mesmo que em condições instáveis, do que se distrair e arriscar o sustento da sua empresa. Como sempre, o julgamento é extremamente importante aqui. Às vezes, faz sentido sustentar um ventilador de caixa apontado para um rack de servidor, às vezes não.
Cuide de si mesmo
Há quanto tempo você trabalha nesta emergência? Quando foi a última vez que você bebeu água? Quando foi a última vez que você comeu? Há quanto tempo você está acordado? Não se queime apenas porque há uma emergência, reserve um tempo para se manter hidratado, alimentado e descansado (caso seja uma tarefa longa e de vários dias).
Recrutar Ajuda
Certamente, existem muitas pessoas talentosas em sua empresa, motivadas e capazes de prestar ajuda. Seja cauteloso em deixar muitas pessoas correndo e causando problemas um para o outro. Também tenha cuidado com as pessoas irritantes, colocando-as através de um "firedrill". Encontre pessoas que já querem ajudar, trabalhe em tarefas específicas e verifique se as pessoas estão se comunicando.
Comunicar
A comunicação é crítica. Nada é tão assustador quanto o desconhecido. Quando as pessoas não sabem nada além de que algo está quebrado, uma declaração vazia de que voltará em X horas é apenas tranquilizadora (ainda menos reconfortante depois que X horas se passaram e as coisas ainda estão quebradas). As pressões em jogo podem orientá-lo a fornecer estimativas de tempo excessivamente otimistas do WAG, mas esse é o caminho errado. Não basta dizer que você está trabalhando nisso, não apenas dizer que as coisas serão corrigidas por X tempo. Seja aberto, mostre seu processo, detalhe seu progresso e seus contratempos. Forneça informações sobre o problema, seu processo de rastreamento e seu plano para consertar as coisas (embora não afogue as pessoas em detalhes). Mostre que o problema não é intratável, mostre que as coisas serão acertadas eventualmente, mostre que há pessoas competentes no problema,
fonte
Não entre em pânico.
fonte
Etapa 0. Verifique se não é o seu sistema de monitoramento que está com falha
fonte
efetue login no serverfault
fonte
Reservar imediatamente um voo para um país que não seja extraditado
fonte
Verifique o básico primeiro, parece bobagem, mas coisas como
Sei que muito tempo pode ser desperdiçado procurando uma solução quando o problema está ocorrendo
fonte
Eu sigo coisas. O que acontece depois disso varia muito, dependendo dos resultados do ping.
fonte
Desculpe, mas esta pergunta já está perfeitamente respondida no desenho animado sysadmin favorito :
fonte
Culpe a rede.
(é uma piada!)
fonte
RTFLF - Leia o arquivo de log do Frakkin '
(Não posso me responsabilizar por isso, tudo vai para Scott Hanselman )
fonte
Não tente consertar nada ainda.
Certifique-se de saber exatamente qual é o verdadeiro problema subjacente. Agora começando a consertar as coisas. Se houver várias coisas a serem corrigidas, considere cuidadosamente quais podem ser adiadas (esperamos até o próximo dia útil, pelo menos!) E quais absolutamente devem ser corrigidas agora.
Mas o mais importante: depois que tudo está funcionando, pergunte por que "tudo explodiu"? O que você fará para impedir que isso aconteça novamente? Existem quaisquer passos que tornam a solução mais fácil se ele não acontecer novamente?
fonte
Informe as pessoas de que você está envolvido e, se possível, faça uma estimativa de quando as coisas voltarão ao normal.
Quanto à solução de problemas real, obviamente depende do que está errado. Eu costumo manter uma coleção de scripts de "status de verificação" para vários serviços.
fonte
Verifique o cabeamento! Perdi horas verificando outras coisas quando uma simples troca de cabo Eth0 resolveu o problema ...
fonte
Você deve ter planos de contingência.
Os sistemas essenciais devem ser projetados com failover automático ou um plano de recuperação documentado e testado.
Quanto mais importante o sistema, mais resiliência é necessária e mais automático ele deve ser.
Se você não tem um, então não era importante, era!
fonte
Verifique se o backup do seu currículo está seguro :) Em seguida,
Encontre os pontos em comum. O que é comum a todos os sistemas afetados.
Encontre o que mudou. Você deve ter algum gerenciamento formal de mudanças em sua organização.
Onde está o novo cara ... onde está o chefe ...? Um deles tomou um atalho? (é apenas uma reinicialização rápida do servidor, o que poderia prejudicar)
fonte
Eu gosto desta lista de solução de problemas O aplicativo simples de solução de problemas agora corrige tudo =)
fonte
É difícil da declaração fornecer um conjunto específico de ações. Seu primeiro passo será baseado em:
Obviamente, você precisa manter a calma e alerta sobre o problema em questão. Sua experiência com a solução de problemas de rede ensinou que isso poderia muito bem ser algo trivial, como:
Dito isto, também pode ser algo sério nas categorias de:
O componente principal é o quanto você sabe sobre o problema. Qual é o seu ponto de referência? (de que perspectiva é 'o sistema inoperante'?).
fonte
Verifique o DNS.
fonte
Comece simples e trabalhe em direção ao absurdo.
Poder?
Ethernet?
Programa em execução?
...
Aliens?
fonte