Lista de Solução de Problemas de Sysadmin “Fire Drills”

5

Uma das coisas mais difíceis de fazer é treinar administradores de sistemas para resolver problemas (pense) de uma maneira consistente, especialmente quando sob pressão, os sinos de emergência estão tocando, etc.

Para algumas sessões de treinamento, eu gostaria de criar uma coleção de "Fire Drills" com algumas etapas simples, mas razoáveis, anexadas a ela, que poderiam restringir o assunto. Por exemplo:

Site para baixo

  1. Limite para baixo - para rede interna, externa ou ambas? De um local ou global?
  2. DNS - Isso resolve?
  3. Porto - Está aberto? Está respondendo? (Use o Telnet)
  4. Cabeçalhos do host - correto?
  5. Servidor da Web - Erros no visualizador de eventos?

Seria incrivelmente útil se você pudesse adicionar um de seus 'treinos' também. Outras formas de treinar o pensamento do sysadmin também são bem-vindas.

    
por Brandon 26.07.2010 / 04:46

2 respostas

2

Sysadmin-ing (eu fiz essa palavra) é meio que um tipo de "medicina geral". Você tem que ser strong com o sistema operacional, hardware, rede, segurança e, às vezes, com o desenvolvimento (você precisa pelo menos entender os idiomas com os quais está trabalhando).

Uma boa maneira de treinar sysadmins é gerar sessões de pausa e correção. Eu fiz isso uma vez para testar novos candidatos para um trabalho: eles tiveram que colocar o servidor do zero (para que você possa verificar o seu aperto na instalação / particionamento), configurar servidores e serviços, fazer um pouco de hardening básico. Depois disso eu vou lá e estrago tudo. Pequenas alterações nos arquivos hosts , corrompido ou incorreto passwd ou shadow , você nomeia e vê se os candidatos poderiam resolver o problema de maneira lógica em tempo útil.

Concordo com a sua ideia de exercícios, mas acho que eles talvez devam ir um pouco mais fundo. Por exemplo, se você chegar ao passo 5 no cenário site abaixo , para onde ir a partir daí.

Eu sugiro uma broca da maneira que você sugeriu a sua:

Os usuários por trás de um proxy / nat não podem mais navegar em www

  1. Verifique se é apenas um usuário ou mais
  2. Verifique a conectividade com o proxy (ping, portas abertas, etc)
  3. Verifique se a máquina proxy está respondendo (problemas de carregamento, etc.)
  4. Verifique os registros
  5. Verificar processos / discos na máquina proxy (muitos processos, disco cheio)
  6. Verificar processos de proxy / regras de filtragem / regras nat

Mas como eu disse, depois do passo 6 você está lidando com um problema não-padrão, e quando as habilidades do administrador brilham.

    
por 26.07.2010 / 06:07
2

Eu nunca gerenciei os administradores de sistemas, mas eu sou um deles, e tive que lidar com situações que não são de perfuração, afetando centenas de servidores perdendo milhares de dólares por minuto, muitas vezes. Na minha experiência, nada pode substituir um conhecimento profundo e intuitivo (ou seja, proveniente da compreensão e experiência reais) de todo o fluxograma (por assim dizer) do que acontece do navegador para o servidor da web e vice-versa e, especificamente, acontece em um aplicativo da Web específico, desde o momento em que uma solicitação chega até quando uma resposta é enviada.

Se você achar que seu sysadmin não pode fornecer todo o fluxo, geralmente, do navegador para o servidor e vice-versa, após o treinamento, sugiro que não valha a pena mantê-lo em uma capacidade sysadmin.

Se eu estivesse dando esse "treinamento de incêndio", eu provavelmente o deixaria livre, daria um limite de tempo e faria o sysadmin anotar seu processo de raciocínio e o que ele checaria de cima para baixo. . Você não pode esperar a perfeição lá, mas seria um bom começo para encontrar lacunas no conhecimento intuitivo.

Além disso, não deixe os administradores colocarem-se em uma caixa. Para dizer: "Esse é o banco de dados; o DBA deve solucionar isso enquanto soluciono outras coisas", por exemplo, permite que um administrador de sistema não conheça intuitivamente o fluxo de um aplicativo do início ao fim e, portanto, não o compreenda completamente. No mínimo, um administrador de sistema deve ser capaz de eliminar todas as possibilidades e, quando seu conhecimento for gasto, saber exatamente a quem pedir ajuda. (Saber quando e quem pedir ajuda é uma habilidade indispensável por si só.)

    
por 26.07.2010 / 06:14