Método para diagnosticar falhas do Ubuntu?

2

Eu sou um usuário pouco técnico de um desktop executando o 14.04 LTS. Eu tenho trabalhado no Ubuntu há vários anos. O hardware é um pouco antigo.

Ocasionalmente, tenho problemas técnicos com o Ubuntu - geralmente é uma lentidão ou congelamento, mas recentemente (ou seja, na última semana) tenho reiniciado o Unity com frequência (o que elimina todos os aplicativos em execução e exige um login) .

Ocorreu-me que não tenho ideia de como diagnosticar um problema como este - ou qualquer sistema falha nos problemas. Não conheço as ferramentas nem o método para diagnosticar as coisas.

A única coisa que tenho usado para monitorar problemas do sistema é o htop. A partir disso, vejo picos periódicos de CPU e memória - geralmente para o Firefox e Amarok e cromo, mas às vezes com compiz ou algum comando do sistema enigmático (como "X core: 0 -seat ...." desculpe, eu não sei como para copiar a saída do htop).

O problema tende a acontecer quando estou baixando coisas de navegadores, embora eu não queira dizer que é a única vez ....

Eu abri o dmesg e o var / log / syslog, mas confesso que não sei interpretar os dados.

O dmesg pode ter dados interessantes, mas eu não sei como descobrir o timestamp. Eu entendo o syslog, mas não tenho experiência suficiente para saber que tipo de relatório de erros é significativo e o que fazer sobre isso:

Aqui, por exemplo, está o syslog da última falha do gerenciador de janelas:  

  $(/usr/lib/php5/maxlifetime))
Jan 30 19:17:01 robert-KJ379AA-ABA-a6400f CRON[4048]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Jan 30 19:33:29 robert-KJ379AA-ABA-a6400f wpa_supplicant[992]: message repeated 29 times: [ wlan1: CTRL-EVENT-SCAN-STARTED ]
Jan 30 19:34:21 robert-KJ379AA-ABA-a6400f wpa_supplicant[992]: wlan1: WPA: Group rekeying completed with 74:9d:dc:5f:32:b1 [GTK=TKIP]
Jan 30 19:35:29 robert-KJ379AA-ABA-a6400f wpa_supplicant[992]: wlan1: CTRL-EVENT-SCAN-STARTED 
Jan 30 19:39:01 robert-KJ379AA-ABA-a6400f CRON[4123]: (root) CMD (  [ -x /usr/lib/php5/maxlifetime ] && [ -x /usr/lib/php5/sessionclean ] && [ -d /var/lib/php5 ] && /usr/lib/php5/sessionclean /var/lib/php5 $(/usr/lib/php5/maxlifetime))
Jan 30 19:59:22 robert-KJ379AA-ABA-a6400f kernel: [ 7911.658443] [drm:radeon_gem_object_create] *ERROR* Failed to allocate GEM object (4096, 2, 4096, -12)
Jan 30 19:59:29 robert-KJ379AA-ABA-a6400f kernel: [ 7918.797835] chrome invoked oom-killer: gfp_mask=0x0, order=0, oom_score_adj=200
Jan 30 19:59:29 robert-KJ379AA-ABA-a6400f kernel: [ 7918.797842] chrome cpuset=/ mems_allowed=0
Jan 30 19:59:29 robert-KJ379AA-ABA-a6400f kernel: [ 7918.797846] CPU: 1 PID: 2837 Comm: chrome Not tainted 3.13.0-76-generic #120-Ubuntu'

Eu suspeito que o acidente ocorreu em 30 de janeiro 19:39:01, porque essa é a maior lacuna de tempo. A primeira mensagem após o travamento é uma mensagem de radeon (placa de vídeo), e isso parece ser o provável culpado, mas, por outro lado, estou supondo que o uso de memória / cpu também desempenha um papel importante. Além disso, você esperaria que os dados da falha fossem exibidos DEPOIS da falha?

Estas são as únicas ferramentas para descobrir o problema? Existem métodos para reduzir o problema ao espaço de hardware / aplicativo / sistema?

UPDATE: Outra falha com mais mensagens de erro apontando para falha do gerenciador de compiz / janela. (Eu não tenho idéia de como resolver isso). Aqui estão algumas coisas do syslog:

Jan 31 11:39:28 robert-KJ379AA-ABA-a6400f kernel: [64317.672548] [drm:radeon_gem_object_create] *ERROR* Failed to allocate GEM object (1048576, 2, 4096, -23 
Jan 31 11:39:28 robert-KJ379AA-ABA-a6400f kernel: [64317.672591] compiz[15437]: segfault at 0 ip 00007f5e027bd7b6 sp 00007ffe329bf9c0 error 6 in r600_dri.so[7f5e0254d000+399000]
Jan 31 11:39:39 robert-KJ379AA-ABA-a6400f gnome-session[15215]: WARNING: Child process 15437 was already dead.
Jan 31 11:39:39 robert-KJ379AA-ABA-a6400f gnome-session[15215]: WARNING: Application 'compiz.desktop' killed by signal 11
    Jan 31 11:39:39 robert-KJ379AA-ABA-a6400f gnome-session[15215]: WARNING: App 'compiz.desktop' respawning too quickly
Jan 31 11:39:40 robert-KJ379AA-ABA-a6400f gnome-session[15215]: CRITICAL: We failed, but the fail whale is dead. Sorry....''

UPDATE 2 : vejo que as mesmas mensagens de erro acontecem todas as vezes. Algo parece estar matando compiz.desktop / gnome-session. Eu simplesmente não sei o que fazer sobre isso.

UPDATE 3 Aparentemente, o problema se tornou mais sério. Unity não carrega, e tudo que eu obtenho é um desktop em branco. Eu estou tentando as etapas de solução de problemas neste segmento sem sucesso até agora. Estou chegando à conclusão de que o problema está principalmente no lado do software / SO, em vez do lado do hardware, embora eu realmente não saiba ao certo! Unity não carrega, não inicia, não aparece nenhum Dash

    
por idiotprogrammer 31.01.2016 / 15:48

1 resposta

0

Você pode fazer uso da análise de log e dos softwares de visualização. Um deles é o Splunk Enterprise, que também está disponível gratuitamente para uso pessoal (cerca de 500 MB de análise de dados). No meu caso, eu costumava olhar para diretórios / var / log de maneira recursiva. Experimente Splunk

Se você estiver procurando por uma alternativa em OpenSource, consulte este tutorial de fim a fim em aqui

É fácil trabalhar com o Splunk OOTB, embora seja divertido configurar o ELK. Espero que isso ajude.

    
por Ashu 02.02.2016 / 05:26