Que passos devo seguir para determinar a causa raiz da falha do servidor linux?

Question

Que passos devo seguir para determinar a causa raiz da falha do servidor linux?

#1 resposta do (1 votos)
#2 resposta do (1 votos)

1

Eu sinto muito se essa pergunta já foi respondida antes, estou assumindo que sim, mas depois de meia hora de pesquisa não consegui encontrar nada.

Enfim, para a pergunta:

Eu sou um cara do windows e um programador autodidata, então sou muito novo no linux, mas estou gostando mais do que o Windows. Temos uma pequena instalação do Wordpress que falha aparentemente aleatoriamente. Quando faço isso, não consigo SSH e minha única opção real é fazer uma reinicialização rígida do administrador do Rackspace Cloud. Sempre consertou o problema.

Eu quero saber o que devo fazer para determinar o que realmente causou o problema. Este é um exemplo trivial, mas estamos planejando colocar mais aplicações no linux no próximo ano e eu quero chegar ao ponto em que estou confortável lidando com problemas de uma maneira mais científica do que "desconecte-o e conecte-o novamente". "

Onde devo começar? Estou aberto a livros, postagens em blogs, perguntas sobre falhas em servidores, vídeos, seminários, aulas de faculdade, qualquer coisa.

Obrigado!

troubleshooting linux

por Kyle West 21.11.2010 / 17:26

2 respostas

Tags troubleshooting linux

Executando Java no ambiente VPS Redirect OWA 2003 para OWA 2010 vai para o URL do servidor interno

score 1 · Answer 1

Esta é uma receita geral, não funciona apenas no linux:

Identificando problemas, em ordem:

problemas de login remotos:
1. problemas de rede
2. problemas do daemon de login remoto (às vezes pode levar alguns minutos para fazer login com o ssh)
problemas de carregamento ( uptime;df -h;free -m )
leia os registros (eles estão em /var/log/ . Os registros do sistema são /var/log/messages , /var/log/syslog . No seu caso, você pode estar interessado em /var/log/apache )

Se você reinicializou seu servidor com cuidado, tome cuidado para anotar a hora em que o fez. Então você pode verificar os logs pouco antes disso.

score 1 · Answer 2

comece com a coleta de estatísticas para ver se há alguma correlação entre interrupções e atividade do sistema. você pode usar por exemplo:

sar - para estatísticas baseadas em texto puro
munin - para obter gráficos de tempo simples
cactos - como munin + muito mais, pode ser demais no seu caso

sem tais estatísticas você é muito cego, eles também são úteis quando você quer fazer algum planejamento de capacidade ou apenas quer ver se existem padrões / anomalias perceptíveis no comportamento do seu sistema.

comece com o monitoramento [você terá a maior parte da caixa com Munin]:

média de carregamento
cpu usage / io espera
troca de atividade
número de solicitações http veiculadas
tráfego de rede
espaço livre em disco em cada partição
ping resposta ao gateway padrão / algum ponto de referência na internet
número de [minhas] consultas SQL

minha melhor aposta é que a sua máquina está trocando a morte / ficando presa com o acesso ao disco lento, mas eu posso estar muito errado.

coisas como travamentos completos do sistema provavelmente não deixaram muitos rastros em seus logs, mas em outras situações - é sempre bom verificar o conteúdo do syslog ou logs de aplicativos específicos - talvez você tenha ficado sem espaço em algum lugar? talvez alguma coisa segfaulted?