kernel: erro de E / S de confirmação de diário

9

Estou tendo alguns problemas com um servidor Dell 1950. Estou instalando o RHEL 4.6 juntamente com o Oracle e alguns outros softwares aqui.

Estou aleatoriamente recebendo uma mensagem de erro dizendo "kernel: journal cometer erro de E / S" na minha sessão ssh e no monitor que conectei ao servidor vejo um erro de rolagem que diz "EXT3-fs error ( dispositivo sda5) em start_transaction: Journal abortou. "

Isso aconteceu várias vezes, mas nunca no mesmo ponto durante a instalação. Na verdade, esta última vez o sistema estava funcionando e eu estava apenas tentando importar um banco de dados para o Oracle.

Isso aconteceu em vários discos rígidos, então tenho certeza de que esse não é o problema. Isso me faz pensar que o controlador de ataque está indo mal.

O que vocês acham?

** ATUALIZAÇÃO **

Tenho certeza que foi um disco rígido ruim. Eu joguei outra unidade no servidor e ela está funcionando há cerca de 48 horas sem problemas.

    
por jasondewitt 10.06.2009 / 21:24

5 respostas

9

Eu já vi esses erros antes, mas não durante o processo de instalação.

Isso significa que a unidade obteve erros suficientes que o sistema operacional levou para o modo somente leitura. Se você pudesse encontrar os logs completos, provavelmente haveria alguns erros de E / S que tentaram novamente e funcionaram antes dos erros de falha completos que você viu. Algo com blocos reais mencionados.

É um erro do sistema de armazenamento. É definitivamente a placa RAID, as unidades na matriz RAID, os cabos da placa para as unidades, o painel traseiro ao qual as unidades se conectam, o slot em que a placa RAID está conectada, a fonte de alimentação para os discos rígidos ou qualquer outra coisa entre a CPU e os blocos de armazenamento reais.

    
por 10.06.2009 / 22:22
2

Três possibilidades vêm à mente:

  1. Existem problemas de memória (eles geralmente causam falhas "aleatórias"). Se você tem um chip ECC, obviamente é menos provável.

  2. Existe algum problema com o Bus. Eu tive o mesmo problema com um controlador APIC quebrado em uma placa-mãe Tyan dual Opteron alguns anos atrás. Havia outras entradas de log que sugeriam isso, mas a maior parte dos sintomas era corrupção aleatória em unidades de disco com remessas somente leitura automáticas. No meu caso, eu sabia que não era relacionado ao disco porque era uma caixa externa do FC RAID e estava tudo bem.

  3. O controlador RAID é beliche.

Isso é na ordem que eu consideraria os problemas.

    
por 10.06.2009 / 22:04
2

Poderia ser o controlador RAID indo mal como você disse (tente um sobressalente se você tiver um.) Poderia ser o driver para o controlador (verifique se há drivers alternativos, se disponível, mesmo se o desempenho for pior, é bom ter um ponto de referência.) Poderia ser o kernel (muito menos provável no RHEL, é bem testado.) Pode ser uma RAM ruim bagunçando o cache de blocos.

No entanto, um problema de hardware é a causa mais provável, com base no comportamento de erro aparentemente aleatório.

    
por 10.06.2009 / 22:01
2

Verifique se o disco não está cheio - em particular a partição raiz. Use df para ver o uso do disco do sistema de arquivos:

df -h

Procure por partições próximas ou iguais a 100% de utilização

    
por 11.12.2015 / 03:25
-5

tente:

desligamento -rF agora

    
por 04.05.2010 / 14:17

Tags