O dispositivo afetado no log em anexo é dm-7, portanto, espero que você use multipathd para o armazenamento da HP, certo? Se fizer isso, anexe também sua configuração de vários caminhos.
el5 no nome do kernel sugere RHEL 5. Se você tiver um contrato de suporte, entre em contato com eles assim que possível, eles poderão ajudá-lo ao máximo.
O que temos certeza dos dados é que uma tentativa de acessar o log foi feita, falhou e o sistema operacional fez a única coisa que pôde, ou seja, congelou o sistema de arquivos para evitar danificá-lo com gravações.
A falha pode estar em qualquer um dos componentes:
- Armazenamento - o sistema de arquivos está OK após uma remontagem? Você pode fazer um fsck completo para ver se o problema com o diário é a única coisa que deu errado, ou talvez você tenha muita corrupção silenciosa, e somente quando o bug atinge o diário fica visível.
- Este LUN específico. Você pode (como em: é possível) formatá-lo, restaurar dados e ver se isso acontece novamente?
- Você pode criar outro LUN no mesmo array e ver se consegue reproduzir o erro? Um LUN em um array diferente no mesmo armazenamento?
- Multipathing - você pode reproduzir erros se acessar o armazenamento diretamente, em apenas um caminho (isso requer alterações no zoneamento SAN ou lun masking no armazenamento).
- Colisão de drivers entre o PowerPath e o multipathing nativo. Você pode reproduzir um erro no mesmo LUN quando não tiver o powerpath instalado?
Eu não acho que seria um bug no código ext3, porque já existe há algum tempo, mas você usa alguma opção de montagem exótica? Você tem bloqueio de 4K no armazenamento? Alguma coisa exótica?
O servidor já funcionou bem? Em caso afirmativo, você pode nomear a alteração que causou a falha?
Se você for solucionar o problema sozinho, sua melhor opção seria criar um conjunto mínimo de opções que façam o sistema falhar. Uma abordagem mais prática poderia ser reorganizar seu armazenamento para que você use somente o armazenamento de um fornecedor em qualquer servidor. Isso pode economizar um pingue-pongue entre os fornecedores.
Sua melhor aposta, no entanto, seria entrar em contato com seu fornecedor de SO e fazê-lo impulsionar o caso, eu acho.