O que poderia fazer com que um sistema de arquivos desmontasse espontaneamente ou se tornasse inválido por um curto período de tempo?

1

Temos o DB2 LUW em execução em uma caixa RHEL. Tivemos uma pane no DB2 e a IBM voltou e disse que um arquivo que o DB2 estava tentando acessar (através do open64 ()) desmontou ou se tornou inválido.

Não fizemos nada além de reiniciar o banco de dados e as coisas parecem estar funcionando bem. Além disso, o arquivo em questão parece perfeitamente normal agora:

$ cd /db/log/TEAMS/tmsinst/NODE0000/TEAMS/T0000000/
$ ls -l
total 557604
-rw------- 1 tmsinst tmsinst 570425344 Jan 14 10:24 C0000000.CAT
$ file C0000000.CAT 
C0000000.CAT: data
$ lsattr C0000000.CAT 
------------- C0000000.CAT
$ ls -l
total 557604
-rw------- 1 tmsinst tmsinst 570425344 Jan 14 10:24 C0000000.CAT

Com esses fatos em mãos (por favor corrija-me se estou interpretando erroneamente os dados disponíveis), o que poderia fazer com que um sistema de arquivos 'desmontasse espontaneamente ou se tornasse inválido por um curto período de tempo'?

Qual deve ser o próximo passo?

Isso está no hardware da Dell e nós rodamos suas ferramentas de diagnóstico no hardware e ele voltou limpo.

    
por Ichorus 14.01.2011 / 18:53

1 resposta

1

Meu palpite seria problema de hardware subjacente, por exemplo, uma unidade de desconexão e reconexão para o barramento. Examinando /var/log/messages (e executando dmesg ) e procurando por mensagens incomuns scsi ou sata sobre desconexões, etc.

    
por 14.01.2011 / 19:14