Aparentemente, o desaparecimento de arquivos e diretórios ocorreu em todos os sistemas de arquivos ext4, incluindo arquivos e diretórios normalmente "somente leitura" em / var e / usr, como binários instalados para gcc e vários outros utilitários, como apt-get, aptitude , que tentamos usar para fazer alguns testes e correções, mas muitos comandos e utilitários não funcionaram mais, todos eles foram travados, algumas dependências ou arquivos desapareceram.
Esses sistemas de arquivos eram ext4, e isso ocorreu estranhamente na última sexta-feira às 13h (13 de novembro de 2015), por volta das 16h10 (GMT-3 DST, Brasil). Alguns arquivos de log do / var também desapareceram. Mas poderíamos obter o syslog que começou a mostrar muitos erros quando os usuários também notaram a anomalia do sistema. Mas esses erros estavam relacionados apenas a ausência de arquivos, nenhum deles explicou o evento que poderia causar o desaparecimento de dados ou qualquer tipo de problema no disco rígido.
Como solução alternativa, inicializamos com uma imagem de recuperação, apenas para tentar obter uma cópia dos dados / home, embora corrompidos pudéssemos recuperar dados de alguns arquivos. E com certeza, alguns dados foram recuperados, mas muitos arquivos e diretórios desapareceram e outros estavam lá, mas truncados (tamanho zero).
Há algum problema conhecido que poderia explicar isso? Como evitar que isso aconteça novamente nos outros servidores?
PS: O "storage" foi montado em um hard RAID 1 (entre 2 discos rígidos)
EDITAR - MEIO AMBIENTE:
A máquina está inoperante, então não consigo obter muitas informações que estavam lá, mas estava rodando o Debian:
uname -a
Linux XXXX 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u6 (2015-11-09) x86_64 GNU/Linux
- Abaixo de alguns NATs
- acesso à Internet para um servidor SVN externo (nuvem) (controlado por firewall).
- Acesso à Internet para alguns repositórios de pacotes para atualização manual (apt-get update / upgrade). Nenhuma atualização ou upgrade feito por meses
- Acesso via ssh