Como faço para solucionar problemas quando não tenho ideia de por onde começar?

39

Estou procurando dicas, sugestões e respostas sobre como começar a solucionar problemas quando:

  1. O problema é intermitente
  2. O problema pode estar literalmente em qualquer lugar - sistema operacional; software de fonte livre; meus próprios desenvolvimentos de software; software comprado; migalhas no teclado; a combinação específica de software que estou executando atualmente; Demônio de Maxwell; os homenzinhos azuis que operam a máquina entraram em greve; etc.
  3. Eu tenho conhecimento apenas em algumas das áreas que são possíveis candidatas para a causa do problema.

O problema específico que estou tendo é detalhado abaixo como um exemplo, mas eu não estou buscando respostas para o meu problema atual, mas sim onde e como começar a lidar com esses problemas.

Atualmente estou encontrando um problema com minha nova máquina. Em algumas ocasiões, a máquina acabou de congelar; não aceitando pressionamentos de tecla, cliques do mouse ou qualquer coisa, exceto a chave liga / desliga. Invariavelmente eu tenho apenas navegado na web; Eu tive alguns (< = 6 outros aplicativos) em execução. Nenhuma dessas aplicações é importante; e representam uma mistura de programas comerciais e programas de código aberto, normalmente migrados do Unix de alguma variedade.

Minha máquina é um laptop quad core do Windows 7 I7.

EDITAR:

Embora afirmei que a descrição real do problema era apenas um exemplo, alguns dos comentários estão se concentrando na solução desse problema. Infelizmente, como foi apenas um exemplo, a informação dada está correta, mas não completa. Para evitar que as pessoas gastem seu tempo tentando, remotamente, ajudar com o problema real, estou dando algumas outras informações sobre minha configuração. Como eu disse originalmente, não estou buscando respostas para esse problema específico.

Minha máquina é um laptop de alta potência; é minha máquina principal; é usado para desenvolvimento e redação técnica, comunicações - e-mail, web, FTP, etc, e para edição e indexação de fotos. Um conjunto rigoroso e abrangente de programas de teste de hardware, incluindo testes de CPU, vários testes de memória e testes em todos os outros componentes, é executado mensalmente. Também executar pelo menos mensalmente é uma varredura de vírus completa; uma varredura completa de spyware; uma limpeza de disco; e uma desfragmentação de disco.

O disco contém aproximadamente 3 * 10 ^ 6 arquivos; o uso do disco é de 300 Gb, deixando 150 Gb livres. A memória é de 8 GB. Enquanto a máquina pode ficar um pouco quente quando estou executando um complemento integral das principais ferramentas de desenvolvimento, só encontrei o problema ao usar a máquina levemente - navegação na Web e Textpad plus Graphwiz, além de um banco de dados Firebird e um leve navegador de banco de dados (Flame Robin ). Nestas circunstâncias, até o ventilador não está ligeiramente quente. Eu não fiz alterações no software, sistema operacional ou hardware durante o período em que encontrei o problema. Ocorreram várias atualizações automáticas - Microsoft, Adobe e Lenovo principalmente, mas não exclusivamente.

Esse pano de fundo coloca em contexto (espero) minhas razões para fazer essa pergunta da maneira que fiz. Agora vou começar a investigar os vários registros mencionados nas respostas como um primeiro passo para tentar restringir o campo de investigação. E vou tentar um exercício com uma das características sugeridas nas respostas que recebi até agora - paciência - em minha investigação.

    
por Chris Walton 20.03.2011 / 19:48

4 respostas

42

Tenha uma ideia melhor.

Você não vai ganhar uma batalha sem informações de campo suficientes.

  1. Descreva seu problema detalhadamente para que você tenha uma boa ideia dele, quem sabe apenas acontece uma vez.

  2. Rastreie o que aconteceu antes e, junto com o problema, você e seu computador.

  3. Pense nas possíveis causas porque às vezes pode ser algo que não é óbvio.

  4. Obtenha mais informações sempre que você não tiver ideia do que está acontecendo, isso pode variar de Eventos , para Ferramentas SysInternals , para Análise de desempenho , para Depurando , para qualquer outra ferramenta em sua especialidade .

  5. Teste suas suposições para ter certeza de que seus pensamentos não filtram a causa.

Divida e conquiste.

Porque é assim que os militares derrotam seu oponente mesmo quando em menor número.

Elimine as possíveis causas ou você terá problemas para acompanhar o problema. Desta forma, você se aproximará cada vez mais da causa raiz do problema, permitindo que você resolva o problema com muito mais facilidade.

Por exemplo, com hardware , desconecte e remova tudo o que você não precisa para corrigir seu problema. Dessa forma, você pode desconectar o componente que está causando o problema. E então, novamente, é uma questão de inserir metade dos componentes, verificando se ela se repete e repetir a divisão até que você tenha o componente ruim ...

Testar algo em outro computador, se disponível, também é um bom benefício para resolver o problema.

Por exemplo, com o software , reinicializando no modo de segurança, desabilitar as entradas de inicialização também ajuda. Isso também se aplica a ativar / desativar configurações, tentar a configuração padrão e assim por diante ...

Vamos testar.

I am currently encountering a problem with my new machine. On a few occasions the machine has just frozen; not accepting keystrokes, mouseclicks, or anything except the power on/off switch. Invariably I have been merely browsing the web; I have had a few (<= 6 other applications) running. None of these applications are major; and represent a mix of commercial programs and open source programs, typically migrated from Unix of some variety.

  1. Essa é uma descrição correta por si só, não acontece apenas uma vez .

  2. Você sabe o que aconteceu junto com o problema,
    mas não pensou em coisas que você ou seu computador fizeram antes do problema .

    Eu não posso dizer isso, mas você, seu log de eventos e arquivos / pastas recentemente modificados poderiam dizer.

  3. A causa provável é que a < probabilidade de estar relacionada com a CPU , porque é o componente que processa as coisas.

    Mais específico pode ser um processo, um driver ou hardware com falha (talvez problemas de temperatura?).

  4. Eu sei que é CPU, mas não sei o quê. Os eventos não mostram isso, o Process Explorer pendura em DPC .

    Então, no próximo passo, deixo a análise de rastreio ser executada, a qual fecho depois que o travamento ocorreu.

    Eu olho no rastreamento e vejo que o driver X está causando o problema !

  5. Nenhuma suposição real é feita. A suposição da CPU é tratada pelo nosso Divide & Conquiste a abordagem ...

Então, é aí que eu começo a dividir para conquistar o problema, paro uma vez resolvido:

  1. Problema com a versão atual do driver?
    Atualize o driver para a versão mais recente.

  2. Problema com as versões mais recentes do driver?
    Obter um novo traço Atualize o driver para uma versão mais antiga diferente da inicial.

  3. Problema com o dispositivo? Problema de configuração no registro?
    Obter um novo traço Reinstale e / ou desative o dispositivo, se possível.

  4. O problema é aleatório, é o aquecimento do processador?
    Verifique a temperatura do processador, substitua a ventoinha, se necessário.

  5. Problema não é o processador, existem outras influências de hardware e software?
    Remova o hardware e desabilite a execução do software, para determinar a influência de terceiros.

  6. O problema não está em uma parte removível, ele deve ser substituído.
    Na pior das hipóteses, se tudo mais falhar, você precisa de uma substituição.

Obter novos rastreios e remover hardware nos fornece mais informações, por isso sabemos onde procurar em seguida.

    
por 20.03.2011 / 20:54
6

bons registros e intuição - realmente.

  • A partir do dia 1, acompanhe tudo o que você faz no sistema: app & Atualizações do sistema operacional, novas instalações, hardware ou conexões novas ou removidas, a tempestade que "não causou nenhum problema".
  • Quando você percebeu o problema pela primeira vez:
    • O que você estava fazendo?
    • O que mais incomum aconteceu recentemente?
    • O que você fez de maneira diferente recentemente?
    • A partir de então, fique atento ao que você está fazendo para que, na próxima vez em que isso acontecer, você tenha uma melhor compreensão do que acabara de ser feito.
    • Capture instantaneamente os registros do sistema.
  • Veja se você consegue reproduzi-lo. Até que você possa reproduzi-lo, não poderá encontrá-lo.
  • Iniciar o particionamento do sistema: modo de segurança vs. execução ao vivo, conta nova em relação à conta normal, teclado e mouse diferentes dos normais (especialmente bluetooth vs. com fio), isso acontece alguns minutos depois de iniciar ou acordar contra apenas após uma hora de corrida (pense em térmica).
por 20.03.2011 / 20:08
4

Eu costumo começar com os logs de eventos e todos os logs que um programa pode criar por conta própria. Os programas, às vezes, criam um log na pasta do programa.

Depois de identificar a hora, pesquise os registros em busca de eventos. Naturalmente, os logs do Windows podem apresentar erros de parada que serão fáceis de identificar.

Verifique todos os drivers e verifique se eles estão atualizados.

Paciência será necessária em grandes doses.

    
por 20.03.2011 / 20:05
2

Além de todos os bons conselhos já fornecidos, se os arquivos de log não estão dando muito para continuar, um teste de memória adequado da máquina vale a pena - memória defeituosa pode causar todos os tipos de congelamentos e falhas estranhos e intermitentes . O teste de memória embutido é muito mais parecido com uma contagem de memória, é extremamente raro o teste de poder detectar uma falha de memória.

Google para Windows Memory Diagnostic e grave-o em um CD. É velho, mas é um dos melhores testes de memória, e é grátis.

    
por 21.03.2011 / 05:40