Realizando análise de causa raiz

9

Eu quero aprender mais sobre como realizar a análise de causa-raiz. Mais vezes do que não, nosso departamento diz ao usuário para tentar reiniciar (o sistema Windows XP), o que realmente "corrige" um bom número de problemas. Quando estou com pressa (e às vezes sendo pago por hora contribui para isso), posso tentar encontrar uma solução alternativa para resolver o problema rapidamente, em vez de realmente realizar a análise da causa-raiz.

Na maior parte do tempo, estou procurando em arquivos de log ou no visualizador de eventos por essas informações. Às vezes, usarei as ferramentas Sysinternals ou ocasionalmente executarei um sniffer de pacotes. Eu provavelmente não uso os programas da Sysinternals tanto quanto eu deveria. Alguns insights específicos sobre como você usa quais ferramentas, quando e por que também seriam úteis.

Eu sei que esta é uma pergunta aberta, mas você poderia por favor explicar brevemente sua metodologia, ferramentas, etc. que você usa? Parece que muitos administradores do SF usam um processo mais aprofundado sobre o qual gostaria de aprender mais. Se isso ajudar a restringir a questão, eu estaria mais interessado em ferramentas, dicas, truques, etc. relevantes para servidores Windows & clientes em um ambiente do AD.

    
por jftuga 15.08.2011 / 17:55

3 respostas

5

Descobrir a causa raiz de um problema depende do problema - Seu instinto inicial de examinar os arquivos de log / sysinternals tools / packet sniffers está geralmente correto.
Eu adicionaria a ferramenta de remoção de malware mal-intencionado do MS e um bom programa antivírus em sistemas Windows (e garantiria que eles não tivessem algo como o CyberDefender ou outro malware de trojans-AV.

O pessoal da Stack Exchange é defensor do método "5 Porquês" ( link , também esse pequeno PDF curto que mostra isso em ação . É uma ferramenta muito valiosa para fazer análise de causa raiz.

Além disso, vou pintar duas grandes categorias e algumas das perguntas que geralmente faço / coisas que verifico:

Comportamento misterioso não relacionado à rede
por exemplo. "O Word continua batendo em mim"

Perguntas básicas a serem feitas:

  1. O que mudou?
    (Não tome "nada" como resposta - é a primeira mentira. Novos softwares, patches, etc. contam.)
  2. O que você estava fazendo quando teve o problema?
    (Tente extrair o máximo de detalhes possível aqui - no meu exemplo acima "Eu apertei a tecla de atalho para inserir as iniciais e o programa caiu")
  3. Já funcionou antes?
    (Se sim, comece a ver as coisas de (1) acima)
  4. Você pode reproduzir o problema no seu sistema?
    (Se isso é um bom sinal: uma chamada de suporte técnico para o fornecedor pode ajudar. Se não, você precisará examinar o sistema do usuário para o restante dessas perguntas.)
  5. O que é diferente no ambiente do usuário do que no seu ambiente?
  6. O hardware do usuário é suspeito (execute um teste de memória, procure por erros SMART do disco rígido, etc.)
  7. Se você chegou até aqui (verificações de hardware, verificações de software, nenhum vírus, nenhum malware), visite o usuário por um dia. Observe seus hábitos de trabalho.
    Minha empresa já teve um misterioso bloqueio de sistema relacionado a clicar no mouse em uma frequência específica (ainda não sabemos por quê, mas tivemos que assistir a um usuário fazendo isso e praticar por um dia para poder reproduzir com segurança)

Problemas relacionados à rede

Muito disso é semelhante, mas com orientação mais específica.

  1. O que mudou?
    (Sim, você sempre começa por aí)
  2. O que está quebrado?
    • Você consegue acessar páginas da web? É apenas um que está em baixo? Se assim for É para baixo para todos ou apenas você ?
    • Você pode pingar coisas na internet pelo nome?
      Como cerca de IP? Até que ponto o traceroute fica?
  3. Quando está quebrado?
    • sempre na mesma hora do dia?
    • Por um breve período a cada N dias?
    • Aleatoriamente (é REALMENTE aleatório? Plotá-lo em um calendário ...)
  4. Existe algo estranho no site remoto?
    • Olhe para o DNS - Se houver um round robin'd, pode haver uma quebra no lado remoto
    • Estamos falando do outro lado de uma VPN? O que há com a VPN (logs!)?
  5. Há algo estranho no site local?
    • Verifique seu firewall local
    • Verifique qualquer "software de filtragem"
  6. Verifique com seu ISP para ver se há algum problema conhecido
  7. Verifique sites como link para problemas conhecidos em toda a rede
  8. Confira a máquina do usuário
    (Configurações de TCP, etc. - geralmente não é o problema, mas às vezes.)
por 11.08.2011 / 17:32
1

Além das excelentes respostas até agora, gostaria de acrescentar:

  • Identifique a data / hora do início do problema. Isso pode parecer óbvio, mas tenho visto muitos problemas em que isso não foi documentado e, mais tarde, suposições incorretas foram feitas. Isso se correlaciona bem com a etapa "o que mudou".

  • O problema é reproduzível ou intermitente? Isso é crítico, pois os sintomas reprodutíveis são muito mais fáceis e rápidos de resolver do que aqueles que são intermitentes. Se for reproduzível, verifique se as etapas estão documentadas.

  • Identifique o (s) sintoma (s). Observe que distinguimos entre "sintoma", que é uma manifestação da causa raiz, e o problema real / causa raiz.

    1. Existem outras atividades que possam reproduzir o sintoma?
    2. Que outros sintomas existem?
    3. Se o problema for intermitente, podemos identificar uma atividade que fará com que ela ocorra?
    4. Em que circunstâncias podemos evitar que o sintoma ocorra? O problema ocorre apenas quando conectado usando uma conta de rede, mas funciona bem se conectado localmente? O problema ocorre quando registrado como um usuário normal, mas funciona bem se estiver conectado com privilégios elevados? Ocorre apenas em um sistema, mas outro sistema que deve ser semelhante não exibe o sintoma?
  • Localize o problema em um provável componente funcional com defeito. Se houver um erro em um aplicativo da Web, ele estará no código do aplicativo, no servidor da Web, no sistema operacional que hospeda o servidor da Web, na rede ou no terminal remoto? Este é o melhor palpite para que os recursos estejam focalizados na causa provável, portanto assegure que os outros saibam que isso é teoria / conjectura.

  • Questione suas suposições e tente reunir dados empíricos para apoiar o suporte a suposições e conclusões. É muito ruim dizer a alguém que não há problema com x, e é descoberto mais tarde que realmente existe. Geralmente, quando há uma solução incorreta, pode haver dados para suportar uma solução correta.

por 12.08.2011 / 01:41
0

Parece que você está solicitando ajuda geral para solução de problemas, como Suas regras de solução de problemas, abordagem para solucionar problemas? em vez de como fazer um tipo específico de RCA ( link ).

    
por 13.04.2017 / 14:14