Como você rastreia e documenta a manutenção de rotina?

10

Qual software ou sistema você usa em falha de servidor para lembrá-lo de fazer manutenção de rotina? Como você lista e registra os vários itens que você deve verificar? Você tem um documento interno do processo? Você tem cron cronicamente você toda semana com lembretes para checar os logs do sistema?

Além disso, você trabalha em uma equipe para fazer a manutenção do sistema e, em caso afirmativo, como você coordena quem fará a manutenção?

Se você usa um sistema de rastreamento de erros / problemas para inserir tarefas, você tem um cron job entrando em tarefas recorrentes?

    
por Zak 23.03.2010 / 18:48

6 respostas

5

Atualmente, estou usando o Rastreador de solicitações ( link )
Todos os eventos de manutenção recebem um ticket associado na fila de "sistemas". Notas sobre problemas encontrados, quem fez o trabalho quando, etc. são todos inseridos no ticket, junto com as aprovações necessárias.

No momento, nossas tarefas recorrentes (patching trimestral etc.) são criadas manualmente, mas podem ser automatizadas com facilidade (cron job + email).

Coordenar quem está fazendo o trabalho é relativamente fácil para nós, pois há apenas duas pessoas em nosso grupo de administradores, mas à medida que ampliamos o plano é criar um ticket mestre para eventos de manutenção & usar tickets filho atribuídos aos responsáveis para delegar o trabalho.

O material diário (verificações de registro, etc.) é outro assunto: tenho tudo isso relacionado a processos automatizados:

  • O InterMapper mantém um olho no status geral dos servidores (consultas SNMP à procura de carga alta, pouco espaço em disco etc.), funcionalidade de nosso site interfaces e várias outras coisas que podem indicar problemas.
  • O Syslog-NG coleta logs de nossos hosts & alimenta-os através de um monte de scripts que verificam a maldade óbvia. Eu olho para os logs ocasionalmente para verificar os scripts, mas isso não é agendado regularmente.
por 23.03.2010 / 19:07
2
por 23.03.2010 / 18:55
2

A automação implementada adequadamente elimina a necessidade de tarefas e listas de verificação. Por que você está querendo manualmente verificar as coisas quando você tem computadores que podem fazer o trabalho com muito mais eficiência e eficiência?

Qualquer coisa que precise de verificação periódica é verificada pelo sistema de monitoramento. Tarefas de rotina são automatizadas sempre que práticas e lembretes são enviados para aquelas poucas tarefas que precisam ser feitas manualmente. A documentação é outra questão, mas feita corretamente, seus computadores podem criar sua própria documentação.

Pare de procurar maneiras manuais melhores e comece a procurar melhores maneiras automatizadas de realizar qualquer trabalho. Os computadores estão lá para trabalhar para nós, não para nós trabalharmos para eles.

    
por 24.03.2010 / 13:18
1

Para o trabalho de projeto, ele é retirado do aplicativo de gerenciamento de projetos (e-mail e calendário integrados com a capacidade de documentar o trabalho detalhado e agendá-lo para pessoas específicas).

Para manutenção, upgrades, correções, etc., temos um sistema de bilhética que se integra mais ou menos ao nosso processo de Gerenciamento de Mudanças para lidar com solicitações e agendamentos.

Para trabalhos totalmente voltados para o público e trabalho em ciclos longos (trimestrais, anuais, etc.):

Lembretes para fazer as coisas são agendados. Documentação informal / semi-formal existe ("wiki") para o que o cronograma geral pode ser.

Existe uma quantidade de documentação "como fazer" e procedural sobre como executar tarefas e é acessível à equipe como um todo, mas as pessoas têm seus próprios "livros-negros" administrativos e registros com anotações & receitas.

    
por 23.03.2010 / 19:14
1

Um sistema de monitoramento pode ajudar com essas coisas:

  • Documentamos cada rodada de manutenção mensal em um arquivo de documento do Word com caixas de seleção. Todos os meses, salvamos o relatório em uma pasta no nosso NAS. Nós monitoramos a idade mínima do arquivo. Se a idade mínima do arquivo for superior a 40 dias, recebemos um alarme.

  • Uma parte de nossa manutenção de rotina é reinicializar os servidores e appliances selecionados uma vez por mês. Usamos sensores de "tempo de atividade do sistema" (SNMP / WMI) em nosso software de monitoramento e, se o tempo de atividade estiver acima de 40 dias, receberemos um alarme.

  • Para backups, monitoramos a idade mínima do arquivo na pasta de backup de cada servidor em nosso NAS. Se a idade mínima do arquivo for superior a 10 dias, recebemos um alarme.

por 24.03.2010 / 11:13
1

Eu uso o Checkpanel ( link ) para gerenciar minhas tarefas de manutenção recorrentes. Ele fornece listas de verificação reutilizáveis e uma interface fácil para registrar os resultados de cada verificação.

Após verificar um item, ele não é apenas "concluído", mas permanece disponível para verificações adicionais. Cada verificação é registrada para que você possa revisar facilmente um histórico de todas as verificações passadas de um item, incluindo detalhes opcionais (por exemplo, mensagens de erro para verificações com falha).

Você pode definir um período recorrente para cada item para verificar se você o verifica pelo menos uma vez por semana / a cada dois dias / etc. Há uma visão consolidada de todos os itens vencidos. Se você quiser, também pode receber um e-mail diário com todos os itens vencidos.

Há um modelo de listas de verificação de manutenção do servidor que você pode usar como base para suas próprias listas de verificação. Outros modelos incluem listas de verificação para aplicativos da Web, WordPress e muito mais.

Divulgação: Eu sou o fundador da Checkpanel.

    
por 01.12.2015 / 07:20