linux congela - como descobrir se o hardware ou software é a causa?

1

algumas semanas atrás, meu servidor linux (kubuntu 10.04) começou a me causar problemas.

ele congela após um certo tempo de atividade, aparentemente entre alguns minutos e algumas horas - a GUI não responde, não há reação ao mouse ou ao teclado (nem mesmo REISUB ), top em uma sessão ssh pára a atualização e a própria sessão é abortada após um tempo limite:

Read from remote host 10.1.1.9: Operation timed out
Connection to 10.1.1.9 closed.

naquela época, eu assumi um problema de hardware, então eu comecei a substituir mais e mais hardware - placa gráfica, placa-mãe, cpu, ram, discos rígidos, psu. agora eu substituí a máquina inteira e ela ainda congela.

Eu verifiquei /var/log/messages e alguns outros registros - não há nenhuma pista neles. um problema de hardware parece improvável considerando que tudo foi substituído, mas ainda é possível.

Eu limpei a máquina até o mínimo. Eu inicializo um sistema live do Kubuntu a partir de um pendrive, montei alguns discos rígidos como somente leitura e comecei a dividir as pastas neles. isso parece produzir o congelamento de forma um pouco confiável. até agora, eu não passei de algumas horas de atividade.

meu servidor está inativo, isso vem acontecendo há semanas. Eu estou no final da minha sabedoria e estou agarrado a palhas.

Como posso determinar com segurança se isso é um problema de hardware ou software? como você abordaria um problema como esse?

    
por ssc 15.07.2011 / 08:24

3 respostas

2

Como você substituiu muito hardware, presumo que você já tenha se certificado de que seu problema não é sobre problemas de temperatura.

E se você experimentar uma distro completamente diferente ao invés do Kubuntu 10.04? Faça o download de alguma outra distribuição ao vivo, por exemplo, o openSUSE ou até mesmo algum sabor do BSD, e veja se eles também reproduzem o congelamento. Dessa forma, você pode ter certeza de que este não é um tipo de bug no Kubuntu 10.04.

Quantos dados você tem nas árvores de diretórios que você está diferenciando? E mais importante, existem apenas alguns arquivos grandes ou um grande número de arquivos pequenos?

Quando você substituiu os discos rígidos, como copiou os dados da unidade antiga para outra? dd_rescue ou algum programa de imagem? Apenas antigo cp ? Se você usou algum tipo de programa de imagem ou dd_rescue e o sistema de arquivos original de alguma forma continha alguma estranha corrupção, talvez o diff atingisse a área corrompida e causasse uma falha? Raro e improvável, mas certamente possível. Assim como é possível que um relâmpago te atinja lá fora.

    
por 15.07.2011 / 08:33
2

Você precisa obter um despejo de memória e dar uma olhada nele. Examinar os logs não ajudará, já que eles não terão nada escrito para eles no caso de kernel panic / oops. Se você tiver acesso ao console, poderá ver se há uma mensagem de pânico. Um despejo de memória terá o conteúdo do buffer de anel do kernel (o que você vê no dmesg se for gravado no disco). Se isso não ajudar você precisa começar a fazer uma análise completa do despejo

link

parece ser um começo para o Ubuntu. Pesquisando "redhat crashpaper whitepaper" também lhe dará algumas dicas.

    
por 15.07.2011 / 10:20
0

Na sugestão de temperatura, tente executar algum software de monitoramento de sensor e veja o que ele mostra no momento do congelamento.

Para o KDE (como você usa o Kubuntu: link

    
por 15.07.2011 / 16:30