Eu tenho um site com quarenta estações de trabalho e cerca de quinze nós de computação.
Eu gerencio as estações de trabalho:
- forçando os engenheiros a armazenar todos os dados na rede NFS, não localmente
- não permitindo que qualquer engenheiro tenha raiz em qualquer estação de trabalho por qualquer motivo
- ter todos os sistemas syslog em um host syslog-ng central, com a análise de log acontecendo em intervalos regulares (geralmente diariamente, mas às vezes com freqüência de hora em hora)
- monitore up / down com nagios
- ter um ambiente de kickstart repetitivo - regra geral, se um problema não pode ser corrigido em trinta minutos, a máquina recebe o kickstart novamente (na prática, nós realmente aceleramos muito mais rápido que isso porque nessa configuração raramente há trinta minutos de solução de problemas que podemos fazer), e se o kickstart falhar, começaremos a trocar o hardware
Eu gerencio os farms de computação praticamente da mesma maneira, exceto:
- existe um diretório local / rascunho onde qualquer pessoa pode escrever qualquer coisa - no entanto, o conteúdo desse diretório não é garantido
- os contadores de desempenho / uso são feitos através do munin de um host central A atividade de rede é feita usando cactos para monitorar as portas do switch nas quais os nós do farm estão conectados.
Não é perfeito, mas manteve este site em funcionamento.
(Ah, devo mencionar que este site não tem nenhuma equipe de TI em tempo integral no local, é PT e sob demanda. Os sistemas de monitoramento acima geralmente podem avisá-lo quando há um computador em perigo. )