A máquina completa congela… com prejuízo

1

Nós construímos cerca de 12 máquinas há alguns meses para rodar o Ubuntu. Cada um deles tem as seguintes especificações:

Placa-mãe ASUS Z8NA-D6 CPU quad-core dual Intel (R) Xeon (R) E5520 @ 2.27GHz Fonte de alimentação OCZ Mod Extreme Pro 500W RAM Kingston de 12 GB Placa gráfica Nvidia GeForce 9800 GT

Minha máquina funcionou bem por algum tempo. No entanto, começou a experimentar bloqueios aleatórios. Esses bloqueios não são travamentos X, são congelamentos completos do sistema. O nic pára de responder, os botões do magic sysrq não funcionam. A máquina está morta.

Eu primeiro suspeitei de RAM. O Memtest86 não encontrou nada, mas eu substituí a RAM de qualquer maneira. Ainda assim, travas. Então eu substituí a placa gráfica. Ainda assim, mais travas. Tornaram-se cada vez mais frequentes e começaram a acontecer 2-3 vezes ao dia.

Então eu troquei a placa-mãe e a fonte de alimentação de uma só vez. De repente, não há mais travas! Woohoo!

Só que uma semana depois, pela manhã, a máquina não acordava. Eu reiniciei, comecei, e os arquivos de log mostraram a última entrada por volta das 11 da noite anterior. Isso começou a ocorrer com mais frequência ... agora quase todas as manhãs eu entro, a máquina está trancada, e tem sido desde a noite anterior.

Ontem, nas 3 semanas desde que eu substituí a placa-mãe e a fonte de alimentação, a máquina ficou trancada no meio do trabalho. Esta é a primeira vez desde a substituição dos dois (MB e PS) que isso aconteceu enquanto eu estava usando ele . Todos os outros ocorreram enquanto eu estava fora.

Eu estou perdido. Nada está no syslog ou na mensagem que indique um problema na hora do bloqueio. Temps são bons ... Eu uso lmsensors para monitorar e ter um script que grava a saída para o arquivo a cada minuto. Eles nunca chegam tão alto.

A única coisa que eu não tenho substituído neste momento é o caso e os discos rígidos. Eu duvido que seja a causa.

O que você faria se estivesse no meu lugar? Existe uma abordagem de solução de problemas que está faltando?

Para o registro, todas as outras máquinas, todas as onze delas, não têm nenhum problema. Eles estão todos executando a mesma versão do Ubuntu (Lucid) que eu sou.

    
por jbwiv 02.06.2010 / 18:42

1 resposta

2

Como você tem alguns sistemas idênticos, você tem um bom candidato para uma troca de peças binárias .

Pegue um sistema funcional e troque os, digamos, CPUs. Veja se o problema migra para a outra máquina. Então toda a RAM. (Eu sei que você substituiu toda a RAM; no entanto, com RAM não-ECC, é bem possível que você tenha substituído RAM ruim por RAM ruim.) Continue com todas as outras partes até que o problema se mova. Você pode poupar as placas-mãe porque eventualmente você terá todas as outras partes trocadas, o que é o mesmo.

Se você não puder poupar uma máquina, pode tentar cortar a memória pela metade ou, se estiver executando duas CPUs, remova uma.

Faça uma alteração de cada vez para poder identificar o problema imediatamente. Você pode encontrar uma situação em que ambas as máquinas não sejam confiáveis. Isso pode ser porque o sistema original tem mais de um problema e / ou há algum problema limítrofe, como uma fonte de alimentação muito marginal.

EDIT: Depois de fazer uma pequena pesquisa, eu sou da opinião que o seu $ 39,99 após o fornecimento de energia de desconto é extremamente marginal, tanto em qualidade e tamanho. Você investiu muito nesse sistema. Por favor Não substitua esta fonte de alimentação barata de 500W por uma fonte de alimentação barata de 1000W. Vá para jonnyguru.com e obtenha algumas recomendações sobre fontes de alimentação de qualidade, liste seus componentes e deixe-os escolher a potência. Estou pensando em 650W ou mais, mas a qualidade é tão importante quanto a potência. Eles recentemente revisaram um P / S de 1000W que era na verdade mais de 650W, então você tem uma ideia de que as classificações de potência de muitas fontes de alimentação não são confiáveis.

Mesmo se você achar que o problema é com outro componente, eu ainda recomendo atualizar as fontes de alimentação nesses sistemas.

    
por 02.06.2010 / 19:10