Obrigado a todos que tentaram ajudar!
O problema foi resolvido montando o volume lógico em m3 usando nfs exatamente da mesma maneira que as outras máquinas m1 / m2 / m4 que são clientes nfs, em vez de ter um link flexível em m3 para o volume lógico. Basta adicionar a seguinte linha ao / etc / fstab: <nfs server>:/ /mnt nfs auto 0 0
e depois invocar sudo mount -a
.
A dica estava no fato de que as falhas estavam acontecendo consistentemente no m3, que é o servidor nfs, e o reenvio automático de trabalhos com falha resolveu o problema também. Nunca houve falhas em m1 / m2 / m4 (que são os clientes da nfs). Lembre-se de que m3 é o servidor nfs, que possui um link simples para o volume lógico, enquanto todos os clientes usam o nfs para conectar esse volume lógico.
No fundo da minha cabeça eu tive a sensação de que provavelmente o nfs protege seus clientes de terem esses problemas, mas eu pensei que o sistema de arquivos no volume lógico não deveria falhar, e se isso acontecer, então eu tenho um problema real que eu devo raiz causa. Este pode ser o caso ainda.Se você tiver insights sobre o problema e a solução, escreva. Não quero mascarar problemas se forem reais.