IRQ “ninguém se importou” - congelamentos de vídeo e interrupções lentas (mouse / teclado)

1

16.04 usuário. Desde alguns meses atrás (2017 Q1), não tenho certeza quando, estou tendo problemas de inestilidade com minha máquina.

O sistema é um velho i7 920 em uma placa-mãe Gigabyte EX58-UD5. Atualmente com 24 GB de RAM e uma única placa GTX980. Estou usando os drivers nvidia mais recentes do ppa "graphic-drivers" e tenho hwe stack instalado (kernel 4.8 e Xorg mais recente), mas esse problema é da era 4.4 (antes da revisão ".2" LTS) e alguns Versões anteriores do driver nvidia. O sistema ficou estável desde 2009 e a configuração atual (adicionada da placa gen nvidia atual e um disco SATA extra) foi de 2015 Q2; nada mudou em 2017. A fonte de alimentação é de 1000W e não tem problemas de aquecimento.

O problema é: de repente, a tela congela, e às vezes (nem sempre) o mouse ainda se move, mas lento, como pular de coordenadas. Também não é possível alterar o tty com a combinação de teclas de função. Mas eu fui capaz de ssh para o sistema do meu netbook enquanto neste estado; o sistema ainda está ativo, não congelado.

Eu acho que pode ser útil notar que quase todas as vezes (cerca de 98%, mas não exatamente sempre), acontece durante a rolagem no firefox. De fato, no começo eu estava culpando uma versão de 5x do Firefox que permitia multiprocessamento de abas. Não foi o caso, como acabei descobrindo; cerca de uma semana atrás começou a (tentar) depurar esse problema, e eu vi essas mensagens:

Mar 27 22:17:39 Buda kernel: [ 1841.918831] irq 16: nobody cared (try booting with the "irqpoll" option)
Mar 27 22:17:39 Buda kernel: [ 1841.918836] CPU: 3 PID: 0 Comm: swapper/3 Tainted: P          IOE   4.8.0-41-generic #44~16.04.1-Ubuntu
Mar 27 22:17:39 Buda kernel: [ 1841.918837] Hardware name: Gigabyte Technology Co., Ltd. EX58-UD5/EX58-UD5, BIOS F13 01/10/2012
Mar 27 22:17:39 Buda kernel: [ 1841.918838]  0000000000000086 7b4c75c5fc78db31 ffff8d36d72c3e80 ffffffffaa22e043
Mar 27 22:17:39 Buda kernel: [ 1841.918840]  ffff8d36d24e8800 ffff8d36d24e88d4 ffff8d36d72c3ea8 ffffffffa9ee2e23
Mar 27 22:17:39 Buda kernel: [ 1841.918842]  ffff8d36d24e8800 0000000000000000 0000000000000010 ffff8d36d72c3ee0
Mar 27 22:17:39 Buda kernel: [ 1841.918844] Call Trace:
Mar 27 22:17:39 Buda kernel: [ 1841.918844]  <IRQ>  [<ffffffffaa22e043>] dump_stack+0x63/0x90
Mar 27 22:17:39 Buda kernel: [ 1841.918851]  [<ffffffffa9ee2e23>] __report_bad_irq+0x33/0xc0
Mar 27 22:17:39 Buda kernel: [ 1841.918852]  [<ffffffffa9ee31b7>] note_interrupt+0x247/0x290
Mar 27 22:17:39 Buda kernel: [ 1841.918855]  [<ffffffffa9ee0174>] handle_irq_event_percpu+0x54/0x80
Mar 27 22:17:39 Buda kernel: [ 1841.918856]  [<ffffffffa9ee01de>] handle_irq_event+0x3e/0x60
Mar 27 22:17:39 Buda kernel: [ 1841.918857]  [<ffffffffa9ee38b2>] handle_fasteoi_irq+0xa2/0x160
Mar 27 22:17:39 Buda kernel: [ 1841.918859]  [<ffffffffa9e302cd>] handle_irq+0x1d/0x30
Mar 27 22:17:39 Buda kernel: [ 1841.918862]  [<ffffffffaa69e05b>] do_IRQ+0x4b/0xd0
Mar 27 22:17:39 Buda kernel: [ 1841.918863]  [<ffffffffaa69c142>] common_interrupt+0x82/0x82
Mar 27 22:17:39 Buda kernel: [ 1841.918863]  <EOI>  [<ffffffffaa5198f8>] ? cpuidle_enter_state+0x128/0x2d0
Mar 27 22:17:39 Buda kernel: [ 1841.918869]  [<ffffffffaa519ad7>] cpuidle_enter+0x17/0x20
Mar 27 22:17:39 Buda kernel: [ 1841.918870]  [<ffffffffa9ec79fa>] call_cpuidle+0x2a/0x50
Mar 27 22:17:39 Buda kernel: [ 1841.918871]  [<ffffffffa9ec7dde>] cpu_startup_entry+0x29e/0x350
Mar 27 22:17:39 Buda kernel: [ 1841.918874]  [<ffffffffa9e518b1>] start_secondary+0x151/0x190
Mar 27 22:17:39 Buda kernel: [ 1841.918875] handlers:
Mar 27 22:17:39 Buda kernel: [ 1841.918878] [<ffffffffaa465fd0>] usb_hcd_irq
Mar 27 22:17:39 Buda kernel: [ 1841.918879] Disabling IRQ #16

A questão é sobre o IRQ 16 ser desativado. Eu cheched o que poderia estar usando o IRQ 16:

:~$ lspci -v | grep IRQ
  Flags: fast devsel, IRQ 12
  Flags: bus master, fast devsel, latency 0, IRQ 16
  Flags: bus master, medium devsel, latency 0, IRQ 16
  Flags: bus master, medium devsel, latency 0, IRQ 21
  Flags: bus master, medium devsel, latency 0, IRQ 18
  Flags: bus master, medium devsel, latency 0, IRQ 18
  Flags: bus master, fast devsel, latency 0, IRQ 30
  Flags: bus master, fast devsel, latency 0, IRQ 24
  Flags: bus master, fast devsel, latency 0, IRQ 25
  Flags: bus master, fast devsel, latency 0, IRQ 26
  Flags: bus master, fast devsel, latency 0, IRQ 27
  Flags: bus master, medium devsel, latency 0, IRQ 23
  Flags: bus master, medium devsel, latency 0, IRQ 19
  Flags: bus master, medium devsel, latency 0, IRQ 18
  Flags: bus master, medium devsel, latency 0, IRQ 23
  Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 19
  Flags: medium devsel, IRQ 7
  Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 19
  Flags: bus master, fast devsel, latency 0, IRQ 31
  Flags: fast devsel, IRQ 17
  Flags: bus master, fast devsel, latency 0, IRQ 17
  Flags: bus master, fast devsel, latency 0, IRQ 18
  Flags: bus master, fast devsel, latency 0, IRQ 28
  Flags: bus master, fast devsel, latency 0, IRQ 29
  Flags: bus master, medium devsel, latency 32, IRQ 18

E o detalhe dos dois dispositivos usando o IRQ 16 é este:

00:03.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 3 (rev 12) (prog-if 00 [Normal decode])
  Flags: bus master, fast devsel, latency 0, IRQ 16
  Bus: primary=00, secondary=01, subordinate=01, sec-latency=0
  I/O behind bridge: 0000b000-0000bfff
  Memory behind bridge: f9000000-faffffff
  Prefetchable memory behind bridge: 00000000d0000000-00000000efffffff
  Capabilities: <access denied>
  Kernel driver in use: pcieport
  Kernel modules: shpchp

00:1a.0 USB controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #4 (prog-if 00 [UHCI])
  Subsystem: Gigabyte Technology Co., Ltd Motherboard
  Flags: bus master, medium devsel, latency 0, IRQ 16
  I/O ports at ff00 [size=32]
  Capabilities: <access denied>
  Kernel driver in use: uhci_hcd

Então ... eu tentei resolver esse "conflito" de IRQ alterando as configurações da BIOS (não encontrei opções de atribuição de IRQ) ou módulos de kernel na lista negra ("shpchp", já que estou usando tanto o USB quanto o PCIE controladores) sem sucesso.

Então eu comecei a tentar os parâmetros de inicialização do kernel. A primeira tentativa foi usar a opção "irqpoll", o erro sugerido. Não resolveu nada, e também começou a ver outras mensagens:

Mar 26 14:17:23 Buda kernel: [ 1988.976483] hpet1: lost 9599 rtc interrupts
Mar 26 14:18:51 Buda kernel: [ 2076.378021] hpet1: lost 9600 rtc interrupts
Mar 26 14:20:11 Buda kernel: [ 2156.670873] hpet1: lost 9600 rtc interrupts
Mar 26 14:21:33 Buda kernel: [ 2238.533442] hpet1: lost 9599 rtc interrupts
Mar 26 14:22:17 Buda kernel: [ 2282.293272] hpet1: lost 9600 rtc interrupts
Mar 26 14:23:06 Buda kernel: [ 2331.292559] hpet1: lost 9600 rtc interrupts
Mar 26 14:24:42 Buda kernel: [ 2427.306337] hpet1: lost 9600 rtc interrupts

Pesquisando, encontrei e tentei várias outras opções de inicialização, tudo sem sucesso. No momento estou usando o sistema com "acpi = off" e é a primeira opção que "resolve" o "conflito" de IRQ, já que o único dispositivo que usa IRQ16 é o controlador USB; mas eu perdi 4 núcleos de CPU fazendo isso (eu só vejo 4 de 8 agora), e não sei o que mais eu também estou desabilitando (habilitado "acpi = off" apenas algumas horas atrás). / p>

Eu culpei o firefox, depois os drivers nvidia, então esperei por uma nova pilha kernel + xorg ... nada ajudou. Eu posso trabalhar por horas com processamento de vídeo ou tarefas de big data ou até mesmo jogar jogos AAA neste sistema sem problemas, e depois ir ver alguns vídeos youtuve ou ler as notícias e obter um congelamento do sistema sem qualquer problema de calor ou CPU. Também pode acontecer (e as últimas semanas estão acontecendo muito) logo após a inicialização, quando eu inicio o thunderbird e o firefox. Nenhuma mensagem de erro do aplicativo no log do sistema, sem falhas, apenas este material repentino de IRQ.

Estou aqui pedindo ajuda para diagnosticar isso. Não entendo completamente todos os dados que estou coletando e onde mais preciso procurar. Existe alguém com experiência em problemas desse tipo? O que mais posso fazer para depurar isso?

Obrigado antecipadamente.

    
por Daniel Cantarin 02.04.2017 / 19:53

1 resposta

0

Algumas semanas depois de postar meu problema, descobri que era um problema de hardware.

Eu não sei se era minha placa de vídeo ou algum slot de memória, mas não estava bem conectado, meio solto. Uma rotina de limpeza comum corrigiu isso.

Dito isto, se você está tendo um problema semelhante, você pode verificar isso também, mas se você não tiver a mesma sorte que eu, temo que possa ser um problema de hardware com defeito.

    
por Daniel Cantarin 05.07.2017 / 17:37