Ubuntu 14.04 LTS - O SSH e o VNC não podem ser conectados com pouca freqüência / perda de conexão

1

às vezes parece impossível estabelecer uma conexão com esse servidor. Mais tarde, quando uma conexão puder ser estabelecida, não consigo ver nenhuma pista do que estava causando esse comportamento. Quando eu já estou conectado ao servidor, às vezes acontece que eu não sou capaz de fazer nada, uma vez que não vai reagir (às vezes a conexão será perdida depois de algum tempo, às vezes pode ser mantida). Parece ser o mesmo momento em que nenhuma conexão pode ser estabelecida.

Para conectar o ssh, a mensagem de erro é:

ssh: connect to host myhost port 22: Connection timed out

O servidor não deve estar ocupado de acordo com a cpu / memória a qualquer momento. Eu já verifiquei a memória com MemTest86 + sem erros.

O dmesg não lista mais mensagens para isso.

Alguém tem uma pista, o que eu posso verificar / procurar?

Atenciosamente

    
por bloodyroo7 29.01.2015 / 11:39

1 resposta

2

Nós vemos esse comportamento sob condições de alta carga ou, mais surpreendentemente, grandes condições de gravação de arquivos. Você já descartou a carga alta. Deixe-me explicar o segundo cenário.

Este é um cenário real e aconteceu recentemente há alguns dias:

  1. Suponha grandes quantidades de RAM, em relação à velocidade de gravação em disco (32 GB de RAM, 100 MB / s)

  2. Um aplicativo gera uma gravação rápida de cerca de 20 GB, em que os dados são de uma origem em cache ou gerados, de modo que a gravação é armazenada em buffer em 20 GB de RAM e gravada em segundo plano.

  3. Um "fsync" no final desta gravação de 20 GB. O aplicativo bloqueia e aguarda 200 segundos para que a gravação seja concluída.

Agora, para a parte complicada:

  1. Durante esses 200 segundos de gravação do fsync, você tenta efetuar login no console SSH ou até mesmo (virtual).

  2. O processo de login tenta registrar entradas do fsync sobre seu login.

  3. Este fsync está parado pelo fsync anterior, aguardando até 200 segundos antes de ser concluído.

  4. O processo de login expira com a mensagem que você vê.

O tempo todo a máquina é pingável. Além disso, coisas que não emitem "fsync" geralmente funcionam corretamente.

Por favor, note que isso acontece em nossos servidores CentOS 5, eu li que Theodore (Ted) Ts'o fez melhorias nos novos kernels para gerenciar melhor os fsyncs concorrentes não relacionados.

    
por 30.01.2015 / 07:37