Quais são os efeitos colaterais de uma partição raiz completa?

3

Eu tenho um servidor de missão crítica em execução que não posso derrubar (ou pelo menos me disseram que não posso agora).

Ele infelizmente preencheu sua partição raiz.

Ele está executando um processo personalizado que está escrevendo alguns arquivos de log e, como sou mais desenvolvedor, queria consertar a maneira como o programa faz o log-in para torná-lo compatível com o logrotate, já que ele não está no momento.

Por isso, estou precisando convencer o principal desenvolvedor de que consertar isso vale a pena e deve ser uma alta prioridade. No momento, posso compactar os logs e scp-los fora do local, uma vez que eles estão querendo ser mantidos por um longo tempo para análise. Mas, em alguns dias, o servidor recebe tráfego pesado e registra MUITO dados preenchendo o disco antes que eu tenha a chance de fazer qualquer coisa. Quando o disco estiver cheio, não é possível compactar arquivos grandes sem espaço de sobra. E como são grandes, copiar para outro servidor pode levar algum tempo.

Então eu preciso de alguma vantagem para ajudar a aumentar a prioridade disso. Quais são os efeitos colaterais de uma partição raiz completa?

    
por Matt 23.07.2013 / 04:59

1 resposta

1

A gravidade de uma partição raiz completa pode ser reduzida um pouco se outras partes do sistema de arquivos estiverem em suas próprias partições. No entanto, imagine o que qualquer processo pode fazer se não puder gravar no sistema de arquivos e receber um erro.

Como exemplo, os arquivos /var/run/*.pid não podem ser criados por nenhum processo que use esse mecanismo (e muitos o fazem), eles devem falhar ao iniciar ou travar ou tentar repetidamente iniciar, não detectam que já iniciaram devido a nenhum arquivo pid estar presente e iniciam uma nova instância, até que o processo killer de falta de memória seja acionado e comece a matar o material na maior parte aleatória.

Os efeitos colaterais podem incluir, mas não se limitam a

  • o servidor falha inesperadamente no meio da noite enquanto o (s) administrador (es) estão em feriados, dormindo demais, etc ...
  • dependendo de como seu aplicativo personalizado está escrito, ele pode não lidar com esse tipo de falha de maneira razoável e se corromper a ponto de precisar restaurar a partir do backup. A maioria dos desenvolvedores primeiro pensamentos quando o teste não são ", o que acontece se eu arrancar o cabo de alimentação para fora ..... AGORA! WOW que não matá-lo, o que acontece se eu fizer isso ....... AGORA"

Você tem backups corretos ...

Quanto tempo levaria para

  • perceba que você não pode recuperar o sistema existente em qualquer tipo de período de tempo razoável
  • possivelmente configure uma nova máquina (para que você tire a antiga para análise e obtenha alguma recuperação de informações esperançosa)
  • na verdade, restaure a partir do backup

Qual será o gerenciamento como esse tipo de tempo de inatividade e perda de dados ...?

    
por 23.07.2013 / 05:23