Executando análise de causa raiz

9

Quero aprender mais sobre como executar a análise de causa raiz. Mais vezes, nosso departamento instrui o usuário a tentar reinicializar (seu sistema Windows XP), o que "corrige" um bom número de problemas. Quando estou com pressa (e, às vezes, receber um pagamento por hora contribui para isso), posso tentar encontrar uma solução alternativa para resolver o problema rapidamente, em vez de realmente executar uma análise de causa raiz.

Na maioria das vezes, procuro esses arquivos de log ou o visualizador de eventos. Às vezes, usarei as ferramentas Sysinternals ou, ocasionalmente, executarei um sniffer de pacotes. Eu provavelmente não uso os programas Sysinternals tanto quanto deveria. Algumas dicas específicas sobre como usar quais dessas ferramentas, quando e por que também seriam úteis.

Sei que essa é uma pergunta muito aberta, mas você poderia explicar brevemente sua metodologia, ferramentas etc. que usa? Parece que muitos administradores de SF usam um processo mais aprofundado sobre o qual gostaria de saber mais. Se isso ajudar a diminuir a questão, eu estaria mais interessado em ferramentas, dicas, truques etc. relevantes para servidores e clientes Windows em um ambiente do AD.

jftuga
fonte

Respostas:

5

Descobrir a causa raiz de um problema depende do problema - Seu instinto inicial de examinar arquivos de log / ferramentas sysinternals / farejadores de pacotes geralmente está correto.
Eu acrescentaria executando a Ferramenta de Remoção de Software Mal-Intencionado da Microsoft e um bom programa AV nos sistemas Windows (e garantindo que eles não tenham algo como o CyberDefender ou outro malware do AV-trojan.

O pessoal do Stack Exchange é defensor do método "5 porquês" ( http://en.wikipedia.org/wiki/5_Whys , também este belo e breve PDF que o mostra em ação ). É uma ferramenta bastante valiosa para fazer análise de causa raiz.


Além disso, vou pintar duas grandes categorias e algumas das perguntas que costumo fazer / coisas que verifico:

Comportamento misterioso não relacionado à rede,
por exemplo, "O Word continua batendo em mim"

Perguntas básicas a serem feitas:

  1. O que mudou?
    (Não aceite "nada" como resposta - é a primeira mentira. Novos softwares, patches, etc., todos contam.)
  2. O que você estava fazendo quando teve o problema?
    (Tente extrair o máximo de detalhes possível aqui - no meu exemplo acima "Apertei a tecla de atalho para inserir as iniciais e o programa travou")
  3. Isso já funcionou antes?
    (Se sim, comece a ver as coisas de (1) acima)
  4. Você pode reproduzir o problema no seu sistema?
    (Nesse caso, é um bom sinal: uma ligação para o suporte técnico pode ajudar. Caso contrário, você precisará examinar o sistema do usuário para o restante dessas perguntas.)
  5. O que há de diferente no ambiente do usuário e no ambiente?
  6. O hardware é suspeito do usuário (execute um teste de memória, procure erros SMART no disco rígido etc.)
  7. Se você chegou até aqui (check-out de hardware, check-out de software, vírus ou malware), visite o usuário por um dia. Observe seus hábitos de trabalho.
    Minha empresa já teve um sistema misterioso de bloqueio relacionado ao clicar com o mouse em uma frequência específica (ainda não sabemos o porquê, mas tivemos que observar um usuário fazendo isso e praticar por um dia para poder reproduzir de forma confiável)

Problemas relacionados à rede

Muito disso é semelhante, mas com algumas orientações mais específicas.

  1. O que mudou?
    (Sim, você sempre começa por aí)
  2. O que está quebrado?
    • Você pode acessar páginas da web? É apenas um que está em baixo? Se sim, é para todos ou apenas para você ?
    • Você pode executar ping na Internet pelo nome?
      Que tal por IP? A que distância chega o traceroute?
  3. Quando está quebrado?
    • Sempre a mesma hora do dia?
    • Por um breve período a cada N dias?
    • Aleatoriamente (é REALMENTE aleatório? Coloque-o em um calendário ...)
  4. Existe algo estranho no site remoto?
    • Veja o DNS - Se for rodado em rodízio, pode haver uma quebra no lado remoto
    • Estamos falando do outro lado de uma VPN? O que há com a VPN (logs!)?
  5. Existe algo estranho no site local?
    • Verifique seu firewall local
    • Verifique qualquer "software de filtragem"
  6. Verifique com o seu ISP se há algum problema conhecido
  7. Verifique sites como http://www.internetpulse.net/ para problemas conhecidos em toda a rede
  8. Confira a máquina do usuário
    (configurações TCP, etc. - geralmente não é o problema, mas às vezes).
voretaq7
fonte
1

Além das excelentes respostas até agora, eu acrescentaria:

  • Identifique a data / hora do início do problema. Isso pode parecer óbvio, mas já vi muitos problemas em que isso não foi documentado e, posteriormente, foram feitas suposições incorretas. Isso se correlaciona bem com a etapa "o que mudou".

  • O problema é reproduzível ou intermitente? Isso é crítico, pois os sintomas reprodutíveis são muito mais fáceis e rápidos de resolver do que os que são intermitentes. Se for reproduzível, verifique se as etapas estão documentadas.

  • Identifique os sintomas. Observe que fazemos a distinção entre "sintoma", que é uma manifestação da causa raiz e o problema / causa raiz real.

    1. Existem outras atividades que podem reproduzir o sintoma?
    2. Que outros sintomas existem?
    3. Se o problema for intermitente, podemos identificar uma atividade que fará com que ocorra?
    4. Em que circunstâncias podemos impedir que o sintoma ocorra? O problema ocorre apenas quando conectado usando uma conta de rede, mas funciona bem se conectado localmente? O problema ocorre quando conectado como usuário normal, mas funciona bem se estiver conectado com privilégios elevados? Ocorre apenas em um sistema, mas outro sistema que deve ser semelhante não exibe o sintoma?
  • Localize o problema em um provável componente funcional com defeito. Se houver um erro em um aplicativo da Web, ele está no código do aplicativo, no servidor da Web, no sistema operacional que hospeda o servidor da Web, na rede ou na extremidade remota? Nesse ponto, é melhor adivinhar que os recursos estão focados na causa provável, para garantir que outras pessoas saibam que isso é teoria / conjectura.

  • Questione suas suposições e tente coletar dados empíricos para apoiar as suposições e conclusões. É uma sensação muito ruim dizer a alguém que não há um problema com x, e é descoberto mais tarde que realmente existe. Normalmente, quando há uma solução incorreta, pode haver dados para oferecer suporte a uma solução correta.

Greg Askew
fonte