Que passos devo seguir para determinar a causa raiz da falha do servidor linux?

1

Eu sinto muito se essa pergunta já foi respondida antes, estou assumindo que sim, mas depois de meia hora de pesquisa não consegui encontrar nada.

Enfim, para a pergunta:

Eu sou um cara do windows e um programador autodidata, então sou muito novo no linux, mas estou gostando mais do que o Windows. Temos uma pequena instalação do Wordpress que falha aparentemente aleatoriamente. Quando faço isso, não consigo SSH e minha única opção real é fazer uma reinicialização rígida do administrador do Rackspace Cloud. Sempre consertou o problema.

Eu quero saber o que devo fazer para determinar o que realmente causou o problema. Este é um exemplo trivial, mas estamos planejando colocar mais aplicações no linux no próximo ano e eu quero chegar ao ponto em que estou confortável lidando com problemas de uma maneira mais científica do que "desconecte-o e conecte-o novamente". "

Onde devo começar? Estou aberto a livros, postagens em blogs, perguntas sobre falhas em servidores, vídeos, seminários, aulas de faculdade, qualquer coisa.

Obrigado!

    
por Kyle West 21.11.2010 / 18:26

2 respostas

1

Esta é uma receita geral, não funciona apenas no linux:

Identificando problemas, em ordem:

  1. problemas de login remotos:
    1. problemas de rede
    2. problemas do daemon de login remoto (às vezes pode levar alguns minutos para fazer login com o ssh)
  2. problemas de carregamento ( uptime;df -h;free -m )
  3. leia os registros (eles estão em /var/log/ . Os registros do sistema são /var/log/messages , /var/log/syslog . No seu caso, você pode estar interessado em /var/log/apache )

Se você reinicializou seu servidor com cuidado, tome cuidado para anotar a hora em que o fez. Então você pode verificar os logs pouco antes disso.

    
por 21.11.2010 / 19:52
1

comece com a coleta de estatísticas para ver se há alguma correlação entre interrupções e atividade do sistema. você pode usar por exemplo:

  • sar - para estatísticas baseadas em texto puro
  • munin - para obter gráficos de tempo simples
  • cactos - como munin + muito mais, pode ser demais no seu caso

sem tais estatísticas você é muito cego, eles também são úteis quando você quer fazer algum planejamento de capacidade ou apenas quer ver se existem padrões / anomalias perceptíveis no comportamento do seu sistema.

comece com o monitoramento [você terá a maior parte da caixa com Munin]:

  • média de carregamento
  • cpu usage / io espera
  • troca de atividade
  • número de solicitações http veiculadas
  • tráfego de rede
  • espaço livre em disco em cada partição
  • ping resposta ao gateway padrão / algum ponto de referência na internet
  • número de [minhas] consultas SQL

minha melhor aposta é que a sua máquina está trocando a morte / ficando presa com o acesso ao disco lento, mas eu posso estar muito errado.

coisas como travamentos completos do sistema provavelmente não deixaram muitos rastros em seus logs, mas em outras situações - é sempre bom verificar o conteúdo do syslog ou logs de aplicativos específicos - talvez você tenha ficado sem espaço em algum lugar? talvez alguma coisa segfaulted?

    
por 21.11.2010 / 18:44