Eu realmente não sei se esta pergunta deveria estar no Server Fault ou no Stack Oveflow, mas eu pensei em tentar aqui primeiro.
Eu tenho um aplicativo python que faz um monte de chamadas para as chamadas do sistema de arquivos, como stat e getcwd. O aplicativo está sendo executado por um gerenciador de filas SGE em um sistema de arquivos Lustre conectado aos nós por interconexão infiniband.
Para a maior parte, o sistema funciona bem. Mas apenas ocasionalmente um arquivo falha ao stat ou getcwd retornará meu diretório home em vez do diretório em que o aplicativo estava sendo executado. Milissegundos depois, ele retornará o resultado correto novamente.
Eu não sou o sysadmin, estou trabalhando com o administrador do sistema para treinar o que o aplicativo poderia estar fazendo para causar isso. Estou certo de que quando isso acontece, nenhum erro é registrado em qualquer lugar e nenhum registro de uma mudança real de diretório.
Atualmente, o problema é completamente esporádico e não conseguimos reproduzí-lo.
Alguém tem alguma idéia do que pode estar acontecendo?