Kernel entra em pânico em vários sistemas idênticos executando a mesma imagem do SO

2

Estou tentando diagnosticar um problema interessante que afeta talvez uma dúzia ou mais de computadores idênticos. Nós temos um aumento na taxa de erros de kernel panic ultimamente, mas não consigo descobrir como diagnosticar a causa.

A situação é que nós compramos numerosas máquinas idênticas, e estamos rodando o Debian Wheezy nessas máquinas para reproduzir arquivos flash e conteúdo AVI; eles ficam sentados o dia todo jogando uma série de visuais em tela cheia. Temos comprado essas máquinas há algum tempo (é um computador de sinalização feito pela LG), mas no mês passado tivemos um grande aumento nos erros de kernel panic.

Eu tirei uma foto de cada erro e geralmente eles citam um processo bastante aleatório a cada vez. Tem sido o ntpd, o mplayer ou qualquer outro processo aparentemente não relacionado. Quando o despejo de memória é enviado para a tela, não consigo ver nada que identifique definitivamente por que essas falhas podem estar ocorrendo.

Então eu corri o memtest86 nas máquinas, talvez em 8 delas (todas as máquinas que anteriormente tinham sofrido pânico) e não encontrei nenhum erro. O fsck não retorna nenhum problema com o sistema de arquivos.

Eu estou pedindo muito humildemente, como uma pessoa com pouca experiência em lidar com falhas do Linux, para obter conselhos sobre como tentar identificar a origem desse problema.

  • Originalmente, parecia correlacionado com a saída HDMI, mas nós mudamos para a saída VGA e depois de alguns dias de estabilidade, tivemos três pânicos de kernel
  • O chip é um processador i5-520M que executa a Intel HD Graphics, portanto, até onde eu sei, ele é suportado pelo driver intel da Wheezy no kernel 3.2, mas talvez eu esteja enganado.
  • Os pânicos DO aparecem correlacionados com máquinas fabricadas em torno do mesmo tempo, o que sugere possivelmente um problema de hardware, mas para a vida de mim não posso descobri-lo.

Eu fiz um monte de leitura no kdump, mas estou tendo problemas para descobrir como instalá-lo no Debian.

Existe mais alguma coisa que eu possa tentar? Quaisquer logs que eu possa experimentar depois de uma máquina com kernel em pânico ter sido removida do site e retornado ao meu escritório? Eu adoraria descartar softwares ou hardwares e me aproximar de uma explicação. Se tivermos que devolver esses computadores ou removê-los totalmente de nossas operações, eu gostaria de estar o mais informado possível sobre o motivo.

Desculpas pela imprecisão da minha pergunta, mas muito obrigado por qualquer ajuda.

    
por Dave 21.05.2014 / 00:51

1 resposta

0

Eu finalmente descobri a resposta para esse problema.

Analisando dmesg logs, percebi que, em alguns casos, as entradas SSD tinham uma cadeia hexadecimal diferente, dependendo do motor ao qual eu estava conectado.

Como estávamos produzindo imagens desses mecanismos com uma partição de tamanho padrão, eu não havia percebido, mas alguns dos mecanismos tinham SSD's Sandisc U100 de 64GB e alguns tinham drives de 32GB.

Apenas as versões de 64GB estavam sofrendo pânico no kernel. Então eu não sei se foi um problema com o nosso kernel, ou com o firmware do SSD, ou o que, mas nossa solução agora é definitivamente hardware e nós podemos trocar as unidades e fazer tudo feliz.

    
por 23.05.2014 / 22:52