Erro ao lançar o servidor na unidade: status: {DRDY ERR}, erro: {ABRT}, comando com falha: READ DMA EXT

1

Eu tenho um servidor da Red Barn que está lançando erros ao acessar sua unidade flash SATA local. Aqui estão alguns fatos:

  • Estou executando o Ubuntu 15.10, embora outros dois servidores Supermicro similares também sejam, sem problemas.
  • A unidade raiz é uma unidade flash SATA.
  • Se eu reiniciar o sistema, ele ficará bem por pelo menos um dia e ficará preso jogando esses erros o tempo todo.
  • Tentamos recolocar todas as RAMs e rodar o memtest86 por dias, sem problemas.
  • Nós inicializamos o sistema a partir de um pen drive USB, com a unidade raiz não conectada e assistimos a ela sem problemas durante dias.
  • Nós inicializamos do USB, montamos a unidade em questão e fizemos um script tocar um arquivo a cada 5 segundos. Isso durou vários dias sem erros.

Pensamos em corrupção do sistema operacional, mas por que esperar tanto tempo antes de se manifestar? Se a unidade estiver falhando, por que a SMART não relata nada e por que ela parece funcionar por um longo tempo antes de ficar esquisita?

O que mais podemos fazer para investigar essa falha? Nós estamos meio presos.

Aqui está uma captura de tela do console remoto. Eu vejo isso se eu tentar entrar, e então me retorna ao problema de login.

    
por Timothy Miller 17.03.2016 / 21:05

0 respostas