Solucionando problemas em uma máquina misteriosamente instável

6

Eu tenho uma máquina com um CPU Core i7, 12 GiB de memória, 4 discos rígidos e uma placa de vídeo / placa de som (ambos PCI-E adicionais). Esta máquina é de alguma forma instável, e estou querendo saber como solucionar os problemas restantes.

Originalmente, a máquina tinha uma placa-mãe ASUS P6T SE e uma 8800GT, com uma fonte de alimentação de 700 W, uma unidade de DVD da LG e três discos rígidos. Quando eu a construí, a RAM estava com defeito, então ela tinha RMA. A placa de som é uma UAA Creative X-Fi. O primeiro problema foi quando a 8800GT quebrou, mas isso foi facilmente resolvido com a compra de um novo cartão. No entanto, a máquina, às vezes, BSOD. Geralmente não no carregamento do sistema, mas em modo inativo. No entanto, ele BSODed uma vez sob carga também. Suspeitando a RAM, eu corri o memcheck durante a noite e nenhum problema foi encontrado. Tudo estava funcionando bem na maior parte do tempo.

Alguns meses depois (o BSOD fazia uma vez a cada mês mais ou menos), o disco rígido quebrou. Classic head crash, substituiu o disco rígido e conseguiu restaurar o sistema operacional / dados a partir do backup. Agora eu mudei a configuração do disco para uma única unidade do sistema, depois para 2 discos em RAID0 e um disco para backup.

Alguns meses depois, o sistema começou a BSOD com mais frequência (três vezes por dia durante quase ocioso, ou seja, navegação na Web, RDP.) Curiosamente, a máquina tem um pen drive WLAN e às vezes BSOD quando eu comecei muitos downloads simultaneamente. Uma vez que a máquina começou a BSOD'ing, eu assumi que a placa principal pode estar com defeito, pois as unidades de disco não reportaram nenhum problema, a placa de vídeo quebrou e foi substituída, e um memcheck adicional não mostrou nenhum erro. O BSOD original tinha alguma mensagem e não apenas um código de erro STOP (por exemplo, eu tenho 0x00000116 (0xfffffa800a546010, 0xfffff8801020907c, 0x0000000000000000, 0x000000000000000d) ou 0x0000003b (0x00000000c0000005, 0xfffff8800138e4c7, 0xfffff8800b96c550, 0x0000000000000000).)

Substitui a placa-mãe por outra diferente, e a máquina agora se desligava de repente. Isso me levou à conclusão de que o PSU pode estar com defeito, então eu testei com um diferente. O PSU diferente tinha um cabo que era muito curto para anexá-lo à unidade de DVD, de modo que foi cortado. Com o PSU diferente (500 W), as coisas estavam funcionando como uma rocha sólida. Eu substituí a PSU original de 700 W e coloquei de volta, conectei-a à unidade de DVD e a máquina se desligaria novamente. Eu removi o DVD e testei-o em uma máquina diferente e, de fato, o DVD estava com defeito. Eu removi o DVD e a máquina estava funcionando estável novamente.

Algumas semanas depois, durante os jogos, a máquina BSODed com Stop Error 1E sem mais informações. Reiniciando e tudo funcionou bem. No mesmo dia, eu queria executar o backup, e o backup falhou com o erro 0x80070570 (arquivos corrompidos.) Eu corri chkdsk, e de fato, no meu sistema primário drive algum índice ($ SSI?) Ou assim foi quebrado, 9 arquivos foi deletado e tudo foi copiado. A fim de verificar as unidades, eu corri três instâncias de HD Tune simultaneamente, e a BSOD da máquina novamente com 1E (0x0000001e (0x0000000000000000, 0x0000000000000000, 0x0000000000000000, 0x0000000000000000)). Esperando que uma das unidades estivesse com defeito, executei o HD Tune sequencialmente durante a noite e não ocorreu nenhum erro. A máquina não fez BSOD e está funcionando bem novamente. sfcscan também indicou que nenhum arquivo do sistema está quebrado.

Como esta máquina tem quase tudo substituído (disco rígido, placa gráfica, memória, placa mãe, PSU) ou unidade de DVD removida; Você tem alguma idéia de como solucionar o que diabos está acontecendo? O mais estranho é que agora funciona bem com carga extrema por horas seguidas, mas ainda assim eu tive essas duas falhas no final de semana (ambas sob carga, curiosamente). Cada parte isolada parece funcionar bem, mas a combinação de alguma forma causa problemas. Estou totalmente perdida para onde disparar, já que toda vez que eu tento checar alguma coisa, a coisa irritante simplesmente funciona bem.

Atualização : Acabei de receber outro BSOD (1E), enquanto lia um site. Eu tenho a tela onde um despejo de memória foi criado, barra de progresso indo até 100%, mas após a reinicialização, o Windows não está ciente de que a máquina caiu. O log de confiabilidade não mostra uma falha. No entanto, olhando para a pasta Minidump eu tirei o minidump do fim de semana, e a pilha de chamadas tem um HIDPARSE nele. Um teclado USB (ou mouse USB) pode produzir uma tela azul?

Update2 : substituí todos os cabos do disco rígido e reinstalei o Windows. Reinstalar funcionou bem, instalando aplicativos por 6 horas seguidas também. Ao desligar, eu tenho um erro de parada 24. Eu estou suspeitando que o disco rígido principal não seja confiável (Samsung HD103SJ), como eu não vejo o que mais poderia estar causando os problemas. No entanto, o HDTune e o chkdsk relatam que a unidade está OK.

    
por Anteru 19.04.2011 / 16:23

4 respostas

0

Acabou sendo ruim RAM + HDD. A RAM original foi especificada em 1.65V, (6 sticks), e mesmo que 4-5 passagens do memtest rodem bem, as BSODs desapareceram assim que eu mudei para 1.5V RAM (3 sticks).

O disco rígido também foi quebrado, mas a substituição do disco rígido reduziu o número de códigos de parada diferentes.

    
por 29.05.2011 / 13:11
2

Quando isso acontece, tento excluir o software também. Poderia ser uma combinação de hardware / software.

O que acontece se você inicializar um CD do Live Linux? Knoppix, Ubuntu ou qualquer outra coisa? O sistema é capaz de executar o sistema Linux por um longo período de tempo sem falhas. Então talvez você tem um problema de software.

Como alternativa, você pode tentar inicializar o Windows em modo fail-safe (ele ainda existe no Windows 7? Eu sou um cara do Linux).

Ok, apenas algumas sugestões para eliminar os motivos. Com muita frequência, descobri que sistemas instáveis são a causa do software / configuração incorreta, em vez de problemas reais de hardware.

Boa sorte!

    
por 20.04.2011 / 16:43
1

Isso soa como um problema de calor para mim, você fez overclock no chip? Você pode querer usar algo como link para ver como está ficando quente você só precisa de um melhor dissipador de calor e sistema de arrefecimento.

    
por 19.04.2011 / 23:36
1

Eu tive problemas semelhantes com meus próprios computadores e outros que eu consertei no passado. Em mais ou menos todos os casos em que tive comportamento semelhante ao seu sistema (muitos problemas estranhos, aparentemente desconectados), isso se deveu a um dos dois problemas a seguir:

Fonte de alimentação ruim

A PSU emitiu uma tensão flutuante ou a potência real fornecida pela rede flutuou. Hoje em dia eu nunca compro PSUs baratos já que sei o quão difícil pode ser diagnosticar esses tipos de problemas. A potência na fonte de alimentação não é garantia de que seja boa, uma vez que ainda pode dar potência flutuante (que geralmente é o que importa). Tente executar algum tipo de programa de monitoramento que possa exibir as voltagens da placa-mãe em seu computador (speedfan por exemplo) e verifique se elas estão estáveis e próximas dos valores desejados. Se possível, tente usar um no-break para que você não tenha nenhuma flutuação de tensão na rede. A fonte de alimentação ruim também tem uma tendência a danificar outros componentes no computador, o que dificulta ainda mais a depuração.

Usando RAM não recomendada pelo fabricante

Algumas placas-mãe são extremamente exigentes quando se trata de RAM. Verifique com o fabricante da placa-mãe, eles geralmente dão recomendações muito detalhadas sobre o que usar (marca, tamanho, número de série). Eu tive esse problema mesmo em um computador pré-montado, onde as pessoas que o montaram aparentemente não verificaram isso, já que a RAM nele estava listada como 'Não recomendado'. Demorei algum tempo para descobrir isso. Fazer memchecks nem sempre encontra isso por algum motivo.

    
por 20.04.2011 / 16:32