Desaparecimento de arquivos em todos os sistemas de arquivos ext4 de um servidor Debian

2

Aparentemente, o desaparecimento de arquivos e diretórios ocorreu em todos os sistemas de arquivos ext4, incluindo arquivos e diretórios normalmente "somente leitura" em / var e / usr, como binários instalados para gcc e vários outros utilitários, como apt-get, aptitude , que tentamos usar para fazer alguns testes e correções, mas muitos comandos e utilitários não funcionaram mais, todos eles foram travados, algumas dependências ou arquivos desapareceram.

Esses sistemas de arquivos eram ext4, e isso ocorreu estranhamente na última sexta-feira às 13h (13 de novembro de 2015), por volta das 16h10 (GMT-3 DST, Brasil). Alguns arquivos de log do / var também desapareceram. Mas poderíamos obter o syslog que começou a mostrar muitos erros quando os usuários também notaram a anomalia do sistema. Mas esses erros estavam relacionados apenas a ausência de arquivos, nenhum deles explicou o evento que poderia causar o desaparecimento de dados ou qualquer tipo de problema no disco rígido.

Como solução alternativa, inicializamos com uma imagem de recuperação, apenas para tentar obter uma cópia dos dados / home, embora corrompidos pudéssemos recuperar dados de alguns arquivos. E com certeza, alguns dados foram recuperados, mas muitos arquivos e diretórios desapareceram e outros estavam lá, mas truncados (tamanho zero).

Há algum problema conhecido que poderia explicar isso? Como evitar que isso aconteça novamente nos outros servidores?

PS: O "storage" foi montado em um hard RAID 1 (entre 2 discos rígidos)

EDITAR - MEIO AMBIENTE: A máquina está inoperante, então não consigo obter muitas informações que estavam lá, mas estava rodando o Debian:

uname -a
Linux XXXX 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u6 (2015-11-09) x86_64 GNU/Linux
  • Abaixo de alguns NATs
  • acesso à Internet para um servidor SVN externo (nuvem) (controlado por firewall).
  • Acesso à Internet para alguns repositórios de pacotes para atualização manual (apt-get update / upgrade). Nenhuma atualização ou upgrade feito por meses
  • Acesso via ssh
por Luciano 17.11.2015 / 13:56

1 resposta

1

Eu realmente suspeito que você foi mordido por um bug de corrupção ext4 muito falado no kernel 3 e 4. Dê uma olhada neste tópico,

link .

Existem mais tópicos sobre o bug, eu achei esse mais interessante.

Se os outros servidores estiverem no mesmo nível de atualizações e versões, sugiro uma rodada de atualizações de segurança / pacote.

    
por 17.11.2015 / 14:32