Ping funciona, SSH e outros serviços não, como depurar?

0

Portanto, o ping funcionou, mas o SSH e outros serviços não estavam respondendo (apache2, etc). Eu tive que fazer um hard reboot do servidor e agora as coisas funcionam , eu posso conectar ao SSH e o servidor web também está bem.

Como posso depurar isso após a reinicialização? Eu estou no Debian 7.10 (Wheezy) com root

Se eu inspecionar /var/log/messages eu acho que existe um buraco entre 14:36 e 14:53 (às 14:53 eu fiz o hard reboot). Você pode encontrar as mensagens em 14.36 aqui:

Dec  2 14:36:11 nsserver kernel: apache2 invoked oom-killer: gfp_mask=0x3000d0, order=2, oom_score_adj=0
Dec  2 14:36:16 nsserver kernel: apache2 cpuset=/ mems_allowed=0
Dec  2 14:36:16 nsserver kernel: CPU: 0 PID: 19242 Comm: apache2 Tainted: G        W    3.14.32-xxxx-grs-ipv6-64 #7
Dec  2 14:36:16 nsserver kernel: Hardware name: OVH SP/DG31PR, BIOS PRG3110H.86A.0071.2010.0318.1704 03/18/2010
Dec  2 14:36:16 nsserver kernel: 0000000000000000 ffffc9000516baf0 ffffffff81efbbb8 0000000000000007
Dec  2 14:36:16 nsserver kernel: ffff880129678000 ffffc9000516bb90 ffffffff81ef504f ffffc9000516bb30
Dec  2 14:36:16 nsserver kernel: ffffffff81136cc7 0000000000000000 ffff8800abafde50 ffff8800abafde68
Dec  2 14:36:16 nsserver kernel: Call Trace:
Dec  2 14:36:16 nsserver kernel: [<ffffffff81efbbb8>] dump_stack+0x46/0x58
Dec  2 14:36:16 nsserver kernel: [<ffffffff81ef504f>] dump_header+0x75/0x1ea
Dec  2 14:36:16 nsserver kernel: [<ffffffff81136cc7>] ? ktime_get_ts+0x47/0xe0
Dec  2 14:36:16 nsserver kernel: [<ffffffff81158134>] ? delayacct_end+0x84/0xa0
Dec  2 14:36:16 nsserver kernel: [<ffffffff8169faa6>] ? ___ratelimit+0x96/0x110
Dec  2 14:36:16 nsserver kernel: [<ffffffff81169b81>] oom_kill_process+0x201/0x350
Dec  2 14:36:16 nsserver kernel: [<ffffffff810f4612>] ? has_capability_noaudit+0x12/0x20
Dec  2 14:36:16 nsserver kernel: [<ffffffff8116a2cc>] out_of_memory+0x41c/0x510
Dec  2 14:36:16 nsserver kernel: [<ffffffff8116fb06>] __alloc_pages_nodemask+0x776/0x810
Dec  2 14:36:16 nsserver kernel: [<ffffffff81165f62>] ? unlock_page+0x62/0x70
Dec  2 14:36:16 nsserver kernel: [<ffffffff810e9674>] copy_process.part.47+0x124/0x17d0
Dec  2 14:36:16 nsserver kernel: [<ffffffff816b31e1>] ? __list_del_entry+0x11/0x30
Dec  2 14:36:16 nsserver kernel: [<ffffffff816b3211>] ? list_del+0x11/0x30
Dec  2 14:36:16 nsserver kernel: [<ffffffff81136cc7>] ? ktime_get_ts+0x47/0xe0
Dec  2 14:36:16 nsserver kernel: [<ffffffff811cf7d8>] ? poll_select_copy_remaining+0x138/0x280
Dec  2 14:36:16 nsserver kernel: [<ffffffff810eaee9>] do_fork+0xd9/0x310
Dec  2 14:36:16 nsserver kernel: [<ffffffff811d090b>] ? SyS_select+0x12b/0x1b0
Dec  2 14:36:16 nsserver kernel: [<ffffffff810eb1a1>] SyS_clone+0x11/0x20
Dec  2 14:36:16 nsserver kernel: [<ffffffff81f05b35>] stub_clone+0x65/0x90
Dec  2 14:36:16 nsserver kernel: [<ffffffff81f0589e>] ? system_call_fastpath+0x16/0x1b
Dec  2 14:36:16 nsserver kernel: Mem-Info:
Dec  2 14:36:16 nsserver kernel: Node 0 DMA per-cpu:
Dec  2 14:36:16 nsserver kernel: CPU    0: hi:    0, btch:   1 usd:   0
Dec  2 14:36:16 nsserver kernel: CPU    1: hi:    0, btch:   1 usd:   0
Dec  2 14:36:16 nsserver kernel: Node 0 DMA32 per-cpu:
Dec  2 14:36:16 nsserver kernel: CPU    0: hi:  186, btch:  31 usd:   0
Dec  2 14:36:16 nsserver kernel: CPU    1: hi:  186, btch:  31 usd:   0
Dec  2 14:36:16 nsserver kernel: Node 0 Normal per-cpu:
Dec  2 14:36:16 nsserver kernel: CPU    0: hi:  186, btch:  31 usd:   0
Dec  2 14:36:16 nsserver kernel: CPU    1: hi:  186, btch:  31 usd:   0
Dec  2 14:36:16 nsserver kernel: active_anon:28548 inactive_anon:28612 isolated_anon:32
Dec  2 14:36:16 nsserver kernel: active_file:295 inactive_file:425 isolated_file:0
Dec  2 14:36:16 nsserver kernel: unevictable:0 dirty:0 writeback:120 unstable:0
Dec  2 14:36:16 nsserver kernel: free:501981 slab_reclaimable:117091 slab_unreclaimable:218928
Dec  2 14:36:16 nsserver kernel: mapped:85 shmem:14 pagetables:14224 bounce:0
Dec  2 14:36:16 nsserver kernel: free_cma:0
Dec  2 14:36:16 nsserver kernel: Node 0 DMA free:15432kB min:28kB low:32kB high:40kB active_anon:0kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:15992kB managed:15908kB mlocked:0kB dirty:0kB writeback:0kB mapped:0kB shmem:0kB slab_reclaimable:256kB slab_unreclaimable:36kB kernel_stack:0kB pagetables:0kB unstable:0kB bounce:0kB free_cma:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? yes
Dec  2 14:36:16 nsserver kernel: lowmem_reserve[]: 0 3212 3915 3915
Dec  2 14:36:16 nsserver kernel: Node 0 DMA32 free:1724844kB min:6556kB low:8192kB high:9832kB active_anon:74240kB inactive_anon:74456kB active_file:740kB inactive_file:940kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:3379436kB managed:3290224kB mlocked:0kB dirty:0kB writeback:260kB mapped:204kB shmem:52kB slab_reclaimable:419520kB slab_unreclaimable:625416kB kernel_stack:296448kB pagetables:29336kB unstable:0kB bounce:0kB free_cma:0kB writeback_tmp:0kB pages_scanned:10388 all_unreclaimable? yes
Dec  2 14:36:16 nsserver kernel: lowmem_reserve[]: 0 0 702 702
Dec  2 14:36:16 nsserver kernel: Node 0 Normal free:267648kB min:1432kB low:1788kB high:2148kB active_anon:39952kB inactive_anon:39992kB active_file:440kB inactive_file:760kB unevictable:0kB isolated(anon):128kB isolated(file):0kB present:786432kB managed:719824kB mlocked:0kB dirty:0kB writeback:220kB mapped:136kB shmem:4kB slab_reclaimable:48588kB slab_unreclaimable:250260kB kernel_stack:5168kB pagetables:27560kB unstable:0kB bounce:0kB free_cma:0kB writeback_tmp:0kB pages_scanned:7288 all_unreclaimable? yes
Dec  2 14:36:16 nsserver kernel: lowmem_reserve[]: 0 0 0 0
Dec  2 14:36:16 nsserver kernel: Node 0 DMA: 0*4kB 1*8kB (U) 0*16kB 0*32kB 1*64kB (U) 0*128kB 2*256kB (UE) 1*512kB (E) 2*1024kB (UE) 2*2048kB (UE) 2*4096kB (MR) = 15432kB
Dec  2 14:36:16 nsserver kernel: Node 0 DMA32: 140964*4kB (EM) 144937*8kB (EM) 95*16kB (M) 1*32kB (R) 0*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 1724904kB
Dec  2 14:36:16 nsserver kernel: Node 0 Normal: 57353*4kB (EM) 4777*8kB (EM) 4*16kB (M) 0*32kB 0*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 267692kB
Dec  2 14:36:16 nsserver kernel: 1351 total pagecache pages
Dec  2 14:36:16 nsserver kernel: 568 pages in swap cache
Dec  2 14:36:16 nsserver kernel: Swap cache stats: add 909368, delete 908800, find 1781721897/1781923273
Dec  2 14:36:16 nsserver kernel: Free swap  = 0kB
Dec  2 14:36:16 nsserver kernel: Total swap = 523260kB
Dec  2 14:36:16 nsserver kernel: 1045465 pages RAM
Dec  2 14:36:16 nsserver kernel: 0 pages HighMem/MovableOnly
Dec  2 14:36:16 nsserver kernel: 16652 pages reserved
Dec  2 14:36:16 nsserver kernel: 0 pages hwpoisoned
...

Este é o registro completo: link

    
por giò 02.12.2017 / 15:10

1 resposta

1

Se eu tivesse que adivinhar, o apache era pseudo-aleatório :-) vítima do assassino da OOM. O intervalo no log é provável porque o syslog não estava funcionando - ele pode ter sido bloqueado ou bloqueado por algum motivo ou foi morto também. Minha aposta é que algo preencheu um dos sistemas de arquivos (/ var? / Temp? Talvez algum outro) ou memória. Você usa tmpfs?

Os programas podem criar arquivos e remover referências do diretório enquanto ainda estão abertos. Isso mantém o espaço alocado no disco até que o arquivo seja fechado pelo processo (obviamente, após a reinicialização, você não verá isso).

O SSH funcionará incorretamente se não houver espaço livre para gravar dados no sistema de arquivos ou se não puder alocar mais memória - não tenho certeza sobre detalhes, mas sei que parará de funcionar sob certas condições. É importante aqui ser preciso. Quando você tentou abrir a conexão para o ssh - foi a abertura da conexão TCP? Ou nem isso?

A conclusão é que foi um problema em tempo de execução e, após a reinicialização, pode ser difícil diagnosticar. Simplesmente o kernel estava em execução (a máquina estava respondendo ao ping), mas nenhum programa de espaço do usuário podia fazer nada. Existem muitas razões pelas quais isso poderia ter acontecido; alguns são mais prováveis, outros menos. É improvável que isso tenha ocorrido devido a um ataque de hackers.

A solução é: Se isso acontecer novamente, olhe para o console antes de matar a máquina. Deixe a sessão aberta, se puder. Comece a monitorar cpu / disk / memory para outra máquina. Envie a saída do syslog para a máquina externa - assim você poderá ver as entradas de log mesmo se o fs local estiver cheio.

PS. Há uma pequena chance de que algo aconteceu ao kernel, mas que você certamente veria no console antes de reiniciar.

    
por 04.12.2017 / 16:19