Corrupção do sistema de arquivos (?) e uso apropriado do fsck

2

Na semana passada, no nosso servidor Linux (CentOS 5.5) não respondia às tentativas de login, então tive que desligá-lo. Depois de retirar alguns discos, na inicialização, ele relatou uma matriz de raid degradada e que fsck -p falhou ao solicitar um fsck manual. O servidor possui 5 discos de 2 TB em uma matriz RAID 5 de hardware. Do lado do software, acredito que isso seja organizado em um grande volume lógico que inclui / boot / e / home e um segundo volume lógico para swap.

Reimportei as configurações RAID nos discos removidos, quando a matriz RAID ainda apresentava status degradado e a máquina ainda retorna um erro fsck na inicialização. O quinto disco começou a autorebuilding, mas falhou, provavelmente devido à corrupção do sistema de arquivos. Felizmente, consegui recuperar os 2+ TB de dados do servidor usando o modo de recuperação (whew!). Então eu corri fsck -yf no volume lógico, o que fez algumas mudanças. Agora o fsck retorna limpo na inicialização, mas quando eu chego na tela de login do Cent OS, sou recebido com caixas substituindo todas as fontes. Um erro de alguma variedade aparece que me impede de fazer o login, mas não consigo ler o erro, uma vez que também é todas as caixas. Eu também não consigo fazer login via terminal de texto (continuamente reprompted com login :, sem chance de digitar a senha) ou SSH (servidor responde, mas relata senha incorreta).

Neste ponto, tento executar o fsck, mas ele me diz que o sistema de arquivos está limpo. Eu ainda sou capaz de entrar no sistema de arquivos no modo de recuperação a partir do DVD de instalação e os arquivos que pareço parecem estar OK. Eu realmente prefiro evitar uma reinstalação total, já que isso exigiria muita reinstalação e cópia de dados de volta, e os arquivos do modo de recuperação parecem estar intactos. Será que eu criei o fsck no volume lógico ou deixei o RAID auto reconstruir? Quais são suas recomendações sobre como proceder?

    
por Dan 29.03.2012 / 09:21

1 resposta

1

O sistema RAID (MD) não sabe nada sobre o sistema de arquivos, portanto, se ele falhar na reconstrução, não é devido a corrupção do sistema de arquivos, mas provavelmente devido a erros de hardware. Possivelmente um dos seus discos falhando. Verifique os erros de S.M.A.R.T. usando smartmontools e execute um autoteste.

Quando você executar fsck -yf, isso fará o melhor possível para corrigir o sistema de arquivos e, no processo, pode excluir inodes (arquivos) problemáticos (alguns arquivos podem ser movidos para a pasta lost + found). Talvez as caixas que você viu no login gráfico foram devido aos arquivos necessários que foram excluídos pelo fsck. Não conseguir fazer login via console ou o SSH também pode apontar para arquivos ausentes. Você consegue acessar o shell se inicializar no modo de recuperação? Você poderia tentar consertar as coisas restaurando os arquivos do sistema operacional a partir do backup ou forçando a reinstalação dos pacotes de software.

No entanto, neste ponto, talvez seja melhor alterar os discos e fazer uma reinstalação limpa.

    
por 16.04.2012 / 10:53