Eu me concentraria em encontrar a causa do problema inicial. A corrupção do sistema de arquivos é outro sintoma, juntamente com as máquinas parando de responder, ou você está executando uma reinicialização não segura (um ciclo de energia) ou ambos.
Você não diz como seus sistemas de arquivos estão organizados e quais estão ficando corrompidos. Se você tem um sistema de arquivos raiz muito pequeno com quase tudo o mais como montagens separadas ( /sbin
, /etc
e algumas outras coisas precisam ficar na raiz fs em geral) e as coisas que fsck
está pegando estão no Se você estiver familiarizado com scripts de shell, você pode ajustar o processo de inicialização de tal forma que
- apenas problemas em
/
fazem com que bloqueie
- ssh é ativado assim que possível depois que
/
é verificado e está pronto
- os outros sistemas de arquivos são montados como somente leitura (e você é alertado pelo correio talvez, e outros serviços voltados ao público não são iniciados) se forem encontrados problemas
Dessa forma, você pode usar ssh para corrigir os outros sistemas de arquivos e iniciar uma reinicialização limpa para colocar as coisas em ordem.
Existem opções para definir fsck
para tentar corrigir automaticamente os problemas (a maioria não é grave se forem causados por uma reinicialização insegura, especialmente com sistemas de arquivos com journalled), mas isso geralmente não é recomendado em ambientes de produção, pois pode ocultar problema crescente. Em Debian / Ubuntu / similar procure pela opção FSCKFIX
em /etc/default/rcS
, os resultados são registrados em /var/log/fsck/checkfs
if /var
estava em um sistema de arquivos que foi montado com sucesso read-write - algo similar existirá no CentOS também. / p>
Se você realmente quiser voar pelo assento da sua calça, defina pasnum
para tudo em /etc/fsck
(a coluna final) como 0 e nada será verificado. Isso é claro que não é muito recomendado ... Se você optar por esta abordagem, sugiro que você defina serviços mínimos para iniciar automaticamente na inicialização, SSH imediatamente após a reinicialização, execute fsck
manualmente sobre tudo enquanto montados somente leitura, remontam tudo no modo leitura + gravação e iniciam seus serviços (dessa forma, você tem acesso à máquina, mas os serviços do usuário não são iniciados até que você tenha certeza de que os sistemas de arquivos da máquina estão limpos).
Mas realmente encontrar a causa raiz deve ser sua prioridade aqui IMO, e as opções KVM remotas são uma idéia melhor do que arriscar a inicialização em um SO com sistemas de arquivos potencialmente corrompidos.