Surgiu essa questão ao verificar se há atualizações nos bugs # 1681410 e # 1686687 na barra de lançamento, que também sofri com sintomas semelhantes aos que você está descrevendo (também com o XFS, mas um LUN maior e ao executar o servidor do Ubuntu 16.04).
Estamos verificando nosso sistema de armazenamento (que fornece logs extensivos) em grande profundidade (solicitando suporte do fabricante), mas acabamos não encontrando erros ou configurações incorretas.
Depois de nos depararmos com isso várias vezes, conseguimos pregar a ocorrência desse comportamento até certo ponto em que ninguém pode ter trabalhado ativamente no sistema, o que nos permite examinar outros fatores também. Nós finalmente encontramos evidências de que as execuções agendadas pelo cron do fstrim (que é um padrão no servidor do Ubuntu 16.04!) Iniciadas uma vez por semana parecem ativar as corrupções em nosso sistema de arquivos, especialmente levando algum tempo para criar um LUN de mais de 100 TB de tamanho .
Acredito que os bugs postados na barra de lançamento descrevam bem esse problema, mas, como me parece, esse problema foi upstream, mas nunca foi consertado até agora. Então, por enquanto, nós simplesmente nos certificamos de que nenhum fstrim seja executado removendo a respectiva forma de entrada cron.weekly. Também verificamos se um cron-job foi adicionado novamente após a execução de atualizações, algo que gostaria de resolver de maneira diferente.