Por que meu sistema Fedora Linux está sendo trocado? [fechadas]

1

A cada poucos dias, em momentos diferentes, meu sistema começa a trocar como um louco e a carga fica extremamente alta, de modo que o sistema é muito lento para responder. Às vezes eu esperei 4 horas para recuperar, outras vezes eu apenas reiniciei ou desliguei usando a chave Magic SysRq (então sim o kernel ainda responde ok e responde prontamente). O espaço de troca e o sistema operacional estão em um par de SSDs espelhados.

Quando o sistema está ficando louco, o kswapd está sempre usando a maior parte da CPU e o restante das tarefas próximas ao topo varia.
Aqui está uma amostra da saída top quando o sistema está ficando louco. A memória usada em torno de 4,5 GB é normal para o sistema.

Àsvezes,osdropcachescorrigemoproblema.Outrasvezesissonãoacontece.Àsvezes,pararnovosprocessosdeiniciarobraspararestaurarosistema,outrasvezesnão-porexemplo,parandocron(queeutenhoagendandováriosprocessosregulares)ounagios(quedisparapluginscomuns)

Àsvezes,descobriqueokillerdaOOMmatoualgunsprocessospararecuperaralgumamemória,masissonemsempreconsertaosistema.

Acarganestesistemanãomudoumuitodurantemuitotempoe,derepente,issocomeçouaacontecer.Eupenseiquepoderiatercomeçadoquandoeuatualizeiparaokernel4.16.*Maseurevertiparaokernel4.15.*Eissonãoresolveuisso.

Euescreviumroteiroparacoletarváriasinformaçõesregularmentee,apartirdisso,vejoclaramenteosmomentosemqueosistemacomeçaaenlouquecer.Eunãotenhoessesdadosdisponíveisnomomento,vouterquefornecerissodapróximavezqueosistemaenlouquecer.

Vejacomoacargaprogride,conformeregistradoporumscriptqueeuescrevi: carregar o histórico de progressão

quando diz "Tentando corrigir alta carga", está tentando descartar os caches usando sync;echo 3 > /proc/sys/vm/drop_caches

Alguma idéia sobre o que eu deveria estar olhando? Preciso de ajuda para tentar descobrir o que está acontecendo. Obrigado

    
por user3421823 16.06.2018 / 12:15

1 resposta

2

O sistema obviamente está com falta de memória RAM em vários pontos no tempo, os eventos killer da OOM e o uso da swap deve lhe dizer isso.

No entanto, com 16GB de RAM e rodando MythTV + MySQL + Nagios + Apache, pserver, CVS e God sabe o que mais (estou apenas adivinhando coisas da sua saída top ) no mesmo servidor pode ser demais para ele. Tanto na RAM quanto na E / S.

Também não sabemos quantos eventos você tem nesse Nagios e como está o agendamento deles. Muitos eventos em um tempo muito curto, e eles começarão a ser lançados antes de darem a volta e comerem qualquer máquina, não importa o quão poderosa ela seja. E provavelmente eles não terão tempo de dar a volta completa quando a máquina começar a passar fome, e de repente você tem um monte de cheques do Nagios acontecendo. E, além disso, você diz que tem cronjobs ...

Eu pensaria em ter mais recursos e executar algumas máquinas e / ou VMs com todos esses serviços. Uma máquina de consumidor também não suportará tanto I / O, em algum momento se você estiver fazendo algum trabalho sério, você tem que ir para o servidor.

Obviamente, em algum momento, você também tem que fazer uma gestão de configuração adequada do Nagios e do MySQL / intervenção do DBA para gerenciar seus recursos disponíveis.

Como organizar tudo isso está fora do escopo desta resposta. Assim como o velho ditado diz, não coloque todos os ovos na mesma cesta.

PS. leia sua imagem no topo aqui e veja quanto RAM cada processo está usando (eles podem estar usando mais swap, mas você sabe que eles estão pelo menos usando isso. Faça sua matemática). Esse top é um indicador muito grosseiro que seus cálculos de RAM estão muito abaixo do que o sistema precisa.

PS2. Eu estou principalmente adivinhando as coisas e, obviamente, não sei sua configuração específica. Tome o texto como um guia de recomendação geral.

    
por 16.06.2018 / 13:22