Grande porcentagem de sistemas idênticos pendem na reinicialização suave

4

Estou buscando outras ideias depois de bater minha cabeça contra esse problema por uma semana.

Temos aproximadamente 100 sistemas idênticos usando a placa-mãe AAEON PICO-ITX BT01 com o processador J1900 Celeron.

Todo sistema roda no Debian Jessie com o kernel 3.16.0-0-686. Cada sistema é criado usando a mesma imagem clonezilla da mesma maneira.

Estamos passando por um modo de falha intermitente que se manifesta de uma das três maneiras (embora eu acredite que todos os 3 sejam da mesma causa raiz)

1) No final do respingo da BIOS, ele congela e não se recupera. Enquanto ele mostra o código de erro 99, este código é sempre exibido no instante anterior ao início do kernel, então meu sentimento é que esse código da BIOS não é diagnóstico (é apenas a última coisa na tela). Desativar o bios splash não mostra nada útil, apenas a versão da bios e o código de erro.

link

2) Nos estágios iniciais da inicialização do kernel, ele informa que os núcleos da CPU não podem ser ativados. O sistema então trava e não se recupera.

link

3) Imediatamente após o splash do BIOS, a saída de tela é interrompida e o sistema trava e não se recupera.

Isso não acontece com todas as placas, embora sejam todas da mesma produção e usem o mesmo hardware (tendo dito isso, nós trocamos SSDs e vimos o mesmo problema, então eu não acredito que seja o SSD módulo).

Depois de ver essa cultura no campo, institui um procedimento de teste em que um sistema seria criado e, em seguida, um crontask configurado para reinicializar 60 segundos após a inicialização. Nós gravamos nos sistemas dessa forma e, como eles não se recuperaram após a falha, depois de 24 horas, veríamos quais sistemas ainda estavam sendo reinicializados e quais não passaram no teste.

Estou perguntando aqui se alguém tem outras idéias, essencialmente. Eu tenho estado em contato constante com o fabricante da placa e eles têm dois sistemas afetados que estão testando, sem resultados ainda. Eu posso executar qualquer teste necessário nos sistemas que tenho aqui, tanto as placas que passaram como as que falharam.

Há mais uma coisa importante. Um hard reboot (um corte de energia) SEMPRE permite que o sistema inicialize. Um sistema identificado como defeituoso não conseguirá inicializar em MAIORES CASOS durante a primeira reinicialização por software após a reinicialização da energia na placa-mãe. Eu só vi esse modo de falha durante uma reinicialização suave.

Tem sido um mistério e, além disso, eu amo o hardware e adoraria continuar comprando.

Obrigado rapazes e moças.

    
por Dave 14.05.2016 / 00:43

1 resposta

0

A causa desta falha foi encontrada trabalhando com o fabricante, e acabou sendo uma revisão defeituosa do BIOS. Nós dois testamos a reversão do BIOS e o problema desapareceu.

Isso deveria ter sido um passo de diagnóstico precoce, mas viva e aprenda!

    
por 24.05.2016 / 02:43