Marcos fez um bom resumo dos pontos comuns de MANUTENÇÃO: monitoramento, backups e atualizações.
Eu preciso repetir (com comentários de pessoas) que monitorar! = manutenção.
Eu gostaria de adicionar: limpezas de usuários antigos, tarefas antigas do cron, etc. Renovações de senhas. Evolução da configuração do sistema (olhando para o histórico de monitoramento) (e isso inclui a evolução do monitoramento e backups) com as mudanças de vida do servidor. Segurança auditorias . Relatórios personalizados (por exemplo, uso detalhado de serviços, recursos compartilhados, relatórios de segurança). E ...
Restaurar backups aleatoriamente (sem precisar fazer isso). Sempre inclua sempre uma cópia do MBR (Master Boot Record) se você não usar um sistema de implantação automatizado para restaurar o servidor inteiro.
Eu vi firewalls sobreviverem a 500 dias de atividade (sim, isso é uma manutenção BAD, porque há cerca de 10/15 atualizações de kernel por ano, então grandes uptimes , costumam ser iguais a kernel vulnerável ) sem qualquer manutenção humana. É apenas uma boa configuração em partições, syslog e sem grandes alterações de configuração.
Você solicita scripts . Talvez existam scripts genéricos pré-empacotados, mas é mais sobre DIY (Do it yourself). Então, primeiro você aprende ou lê como seu sistema funciona (isso inclui REAMEs específicos da distribuição, man pages, políticas e opções de compilação), então yo < em> pense como seu sistema deve se comportar, e então você escreve scripts personalizados (cron, comandos personalizados, etc) para gerenciar a combinação de SO + comportamento desejado / resultados / relatórios / gerenciamento de mudanças / reversões / reações / etc.
Além disso, as ferramentas genéricas disponíveis (monit, nagios, cacti, zabbix, etc.) podem ser estendidas com suas habilidades de script e disponíveis party plugins .
No exemplo: você precisa apenas saber "se a partição está cheia", ou precisa também controlar a temperatura do disco, inodes livres, direitos de arquivos e pastas, somas de verificação, S.M.A.R.T. status, setores defeituosos, verificações de sistema de arquivos e ciclo de vida estimado do hardware físico?
E, além dos backups, o sistema de monitoramento + personalizações deve ser validado quando possível, simulando falhas, ataques, etc.
Scripts personalizados são melhores, quando você pode validá-los e limpar bugs, em um servidor de pré-produção, ambiente, diretório, banco de dados, etc.