Você tem alguma regra geral em que recorre ao solucionar um problema difícil de rede / hardware / software?
Por exemplo: "Eu isolei a fonte do problema testando um periférico com um segundo computador" ou "Eu removo o máximo de hardware possível para ligar o dispositivo e, em seguida, adiciono componentes um a um até que eu possa reproduzir o problema" , etc.
troubleshooting
nome de usuário
fonte
fonte
Respostas:
Apenas uma lista de pontos que escrevi para mim depois de lutar por um problema por um tempo:
Também havia uma grande lista de regras de depuração, em formato PDF com exemplos e explicações para cada uma das regras. Não consegui encontrar rapidamente o PDF, mas acho que este é um pôster da lista:
fonte
Se o problema estiver relacionado à Internet, provavelmente é o DNS.
Se o problema é difícil de diagnosticar, provavelmente é a RAM.
Se o problema estiver em uma estação de trabalho Windows, provavelmente será mais rápido revê-la.
Se o problema ocorrer numa sexta-feira, provavelmente é algo sério.
fonte
Eu gosto de voltar ao método científico .
De ( http://en.wikipedia.org/wiki/Scientific_method )
Como regra geral, eu sempre gosto de tentar checar minhas suposições básicas. Ele tem energia, está conectado, a fiação é boa. É muito chato gastar horas tentando olhar para um problema de software quando você tem um cabo solto.
Acho muito importante, durante a fase de criação da hipótese, encontrar o maior número possível de causas possíveis do problema. Depois, tento escolher idéias para testar primeiro, com base em como é fácil testar e em quão provável é a ideia.
Também é importante obter ajuda. Consulte seus colegas de trabalho, fornecedor ou quem tiver mais conhecimento sobre os sistemas em questão, se puder. Não gaste muito tempo girando suas rodas em um problema se houver alguém disponível que possa ajudá-lo a resolver o problema.
O'Reilly tem um bom livro Ferramentas de solução de problemas de rede que possui um bom conjunto de etapas a serem seguidas, muito semelhantes ao método científico. Achei o livro muito útil e recomendo vivamente. O livro entra em muito mais detalhes e sugere muitas ferramentas úteis.
Nas ferramentas de solução de problemas de rede
Veja também:
fonte
(Esses destaques são parafraseados no capítulo "Depuração" de "A prática da administração de sistemas e redes" )
Duas coisas a saber:
Saiba como é a versão "fixa". De preferência, um comando que você pode executar que fornece uma determinada saída quando as coisas funcionam. Por exemplo: estou tentando descobrir por que o SSH solicita uma senha quando configurei as chaves corretamente (ou assim eu pensava). Portanto, meu teste é: "ssh servername uptime" e deve funcionar sem solicitar uma senha.
Descreva o problema no nível certo. Um usuário reclamando que não pode executar ping em um servidor não deve enviá-lo para executar e corrigir o servidor. O trabalho da pessoa não é ficar sentado e pingar uma máquina o dia todo. Eles querem realizar algum tipo de tarefa, como usar a máquina como servidor DNS. Exemplo: uma vez que um usuário reclamou que não podia executar ping em uma máquina no meio do mundo. Passo o dia rastreando administradores do sistema naquela parte da empresa para descobrir o que havia de errado com essa máquina. Foi desativado e eles estavam em pânico porque pensaram que talvez tivessem desligado a máquina errada. Entrei em contato com o usuário e disse: "além de precisar executar ping nesta máquina, o que você gostaria de fazer com ela?". Acabou que ele queria executar um determinado trabalho e, se estivesse seguindo o procedimento adequado, suas tarefas seriam automaticamente redirecionadas para a máquina de substituição. Eu havia desperdiçado meu dia inteiro e o tempo dos administradores de sistemas locais. Outro motivo para "não conseguir executar ping" não é a coisa certa a ser testada: geralmente os firewalls são configurados para descartar pacotes de ping, mas permitem que outros pacotes sejam executados. Teste o que você deseja passar.
Duas estratégias:
Aditivo: Continue adicionando componentes até o problema começar. A última coisa que você adicionou é o problema. Exemplo: Navegadores da Web não podem falar com um servidor. Entre o servidor e o usuário, há um balanceador de carga, um firewall, um cache e o proxy da web local do usuário. Primeiro, tente enviar consultas diretamente para o servidor, depois pelo LB para o servidor, depois pelo firewall para o LB para o servidor, etc. etc. sempre adicionando um componente.
Subtrativo: Continue removendo os componentes até que o problema desapareça. A última coisa que você removeu foi o problema: Exemplo: Uma máquina com dezenas de cartões não inicializa. Continue removendo os cartões até a máquina inicializar.
Dois pedaços de azar:
Esqueça tudo o que eu disse. O problema está sendo causado pela última alteração feita no sistema. (isso funciona 99% das vezes ... o problema é que 99% das vezes você não sabe qual foi a última alteração)
Quando tudo mais falhar, verifique se há coisas estúpidas. http://whatexit.org/tal/mywritings/dumb-things-to-check.html Exemplo: Um problema louco simplesmente não pôde ser explicado. Em seguida, verificamos o arquivo de configuração: um usuário o editou copiando-o para uma caixa do Windows, editando-o e copiando-o novamente. Agora ele tinha um ^ M no final de cada linha. Nunca percebemos porque nosso editor de texto ocultou esse fato silenciosamente. Infelizmente, o software que leu o arquivo de configuração transformou essas ^ Ms em um espaço sem interrupção, que estragou muitos outros procedimentos.
fonte
Práticas gerais que eu lembro durante todo o processo:
Durante a solução de problemas, aqui define minha metodologia básica:
fonte
Atitudes que tento manter:
Essas são atitudes que são úteis para mim - elas me impedem de levantar os braços no ar, declarar algo "bizarro" e depois desistir, ou ficar infeliz porque parece "insolúvel".
Maneiras de pensar na solução de problemas:
O processo de solução de problemas:
A Internet não está funcionando? Verifique o problema, encontre um site que eles não possam acessar. Testes rápidos envolvem a conexão à Internet (funcionando), isso carrega para mim (não). Testes rápidos apontam para o site. Ao ver o problema acontecer, afastei a probabilidade rapidamente do PC, navegador, DNS, firewall do escritório de contas de usuário etc.
Então o site não carrega, e agora? Ainda não é corrigível, então procure lugares para transformar o problema em um menor. O servidor está ligado? Ping? o DNS funciona? Sim. O serviço atende na porta 80? Não. O serviço está sendo executado? Não. Começa? Não. Dá erros no log de eventos / arquivos de log? Sim! O que eles dizem?
Trata-se de solução de problemas eficiente e rápida, pois concentra-se incansavelmente em restringir o escopo do problema. Se eu aceitasse o relatório de que a Internet não está funcionando, eu seria equivocado ao pensar que era uma falha de conexão. Se eu aceitasse meu primeiro avistamento de que ele não carrega, eu perderia tempo no computador deles, pensando que era um erro.
Esculpir pedaços de "coisas que não podem ser" tão grandes quanto possível.
Entenda o sistema. Quanto mais conhecimento geral eu tiver sobre um sistema, mais fácil ele fica. Onde eu tenho um entendimento fraco, os problemas são mais intimidadores, mais difíceis, mais lentos e mais propensos a acabar com uma solução alternativa do que uma correção, ou com uma grande e lenta correção lenta (reinstalar) do que uma pequena e precisa correção cirúrgica.
fonte
Geralmente pergunto "O que mudou que pode ter causado esse problema"? A maioria dos problemas é causada por alterações nas boas configurações conhecidas. Se você pode isolar quem fez a alteração, geralmente recebe sua resposta.
fonte
Eu acho que é uma habilidade, não uma ciência. Há momentos em que você segue o caminho errado, mas na maior parte:
Certa vez, meu chefe me ligou com um engenheiro "sênior" ao telefone - ele estava me dizendo que tinha um servidor que não podia se conectar e que havia tentado trocar o cabo, mas ainda não tinha alegria. Eu ouvia um bipe no fundo como um no-break com baterias. Perguntei-lhe se ele podia ver atividade no interruptor, ele disse que não. Perguntei se o sinal sonoro vinha do no-break, ele disse que sim, perguntei se ele podia ver alguma luz acesa no rack e disse que não ... Olhe além do nariz - ajuda!
fonte
Começo verificando o óbvio. Existe uma mensagem de erro explicando qual é o problema? Está tudo conectado corretamente? Não gosto de perder várias horas solucionando problemas que poderiam ter sido resolvidos em alguns minutos. Eu acho que é possível ser muito metódico. Vi pessoas perdendo o dia inteiro reproduzindo um problema, apesar de ter dito exatamente qual era o problema. Não é por isso que eu pago.
Se a resposta não for óbvia, alinhe alguns suspeitos e teste-os primeiro. Somente depois de testar os suspeitos prováveis você deve testar os suspeitos improváveis. Então você pode ser tão científico quanto quiser.
fonte