SSH Inacessível após transferência SCP grande

1

Construiu recentemente um novo servidor i9; está rodando o ubuntu 14.

Isso aconteceu 4 vezes nos últimos 2 meses, e hoje pode ter causado uma perda de dados experimentais de um dia inteiro.

Aqui está o que aconteceu:

  • O servidor está funcionando bem por algumas semanas
  • 2 ou 3 usuários por vez durante os horários de pico
  • Hoje inicio uma transferência SCP (26MB) do servidor para um cluster remoto um país diferente (Servidor: Canadá, cluster: Alemanha)
  • SCP atinge 16% e toda a comunicação SSH é interrompida
  • Minha sessão SSH não responde, não é possível abrir novas sessões; outros usuários no servidor vêem os mesmos sintomas (sessões sem resposta, incapazes de abrir novos)
  • O arquivo está disponível no cluster, mas está incompleto / corrompido

Ping no servidor gera: "Host de destino inacessível"

Para que o servidor volte a funcionar, temos que reiniciar a máquina física.

Alguma idéia do que pode estar causando isso e como corrigi-lo? Isso aconteceu 4 vezes desde a criação do novo servidor e toda vez que ocorreu ao transferir arquivos de 20 a 30 MB do servidor para o cluster. Embora isso não aconteça toda vez que transferirmos esses arquivos, isso acontece em 5% do tempo.

EDIT: Aqui estão os logs em torno do tempo do servidor SSH se tornando indisponível (a partir de var / log / syslog):

Sep 26 09:17:01 snail CRON[34116]: (root) CMD (   cd / && run-parts --report/etc/cron.hourly)
Sep 26 10:17:01 snail CRON[34137]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@Sep 26      12:36:14 snail rsyslogd: [origin software="rsyslogd" swVersion="7.4.4" x-pid="763" x-info="http:/     /www.rsyslog.com"] start
Sep 26 12:36:14 snail rsyslogd: rsyslogd's groupid changed to 104
Sep 26 12:36:14 snail rsyslogd: rsyslogd's userid changed to 101

O servidor ficou sem resposta às 11:30 e eu reiniciei (fisicamente) às 12:36; então os logs não nos dizem nada sobre o que aconteceu às 11:30

** 'snail' é o nome do servidor

    
por FrankObr 26.09.2018 / 17:35

0 respostas