16.04 usuário. Desde alguns meses atrás (2017 Q1), não tenho certeza quando, estou tendo problemas de inestilidade com minha máquina.
O sistema é um velho i7 920 em uma placa-mãe Gigabyte EX58-UD5. Atualmente com 24 GB de RAM e uma única placa GTX980. Estou usando os drivers nvidia mais recentes do ppa "graphic-drivers" e tenho hwe stack instalado (kernel 4.8 e Xorg mais recente), mas esse problema é da era 4.4 (antes da revisão ".2" LTS) e alguns Versões anteriores do driver nvidia. O sistema ficou estável desde 2009 e a configuração atual (adicionada da placa gen nvidia atual e um disco SATA extra) foi de 2015 Q2; nada mudou em 2017. A fonte de alimentação é de 1000W e não tem problemas de aquecimento.
O problema é: de repente, a tela congela, e às vezes (nem sempre) o mouse ainda se move, mas lento, como pular de coordenadas. Também não é possível alterar o tty com a combinação de teclas de função. Mas eu fui capaz de ssh para o sistema do meu netbook enquanto neste estado; o sistema ainda está ativo, não congelado.
Eu acho que pode ser útil notar que quase todas as vezes (cerca de 98%, mas não exatamente sempre), acontece durante a rolagem no firefox. De fato, no começo eu estava culpando uma versão de 5x do Firefox que permitia multiprocessamento de abas. Não foi o caso, como acabei descobrindo; cerca de uma semana atrás começou a (tentar) depurar esse problema, e eu vi essas mensagens:
Mar 27 22:17:39 Buda kernel: [ 1841.918831] irq 16: nobody cared (try booting with the "irqpoll" option)
Mar 27 22:17:39 Buda kernel: [ 1841.918836] CPU: 3 PID: 0 Comm: swapper/3 Tainted: P IOE 4.8.0-41-generic #44~16.04.1-Ubuntu
Mar 27 22:17:39 Buda kernel: [ 1841.918837] Hardware name: Gigabyte Technology Co., Ltd. EX58-UD5/EX58-UD5, BIOS F13 01/10/2012
Mar 27 22:17:39 Buda kernel: [ 1841.918838] 0000000000000086 7b4c75c5fc78db31 ffff8d36d72c3e80 ffffffffaa22e043
Mar 27 22:17:39 Buda kernel: [ 1841.918840] ffff8d36d24e8800 ffff8d36d24e88d4 ffff8d36d72c3ea8 ffffffffa9ee2e23
Mar 27 22:17:39 Buda kernel: [ 1841.918842] ffff8d36d24e8800 0000000000000000 0000000000000010 ffff8d36d72c3ee0
Mar 27 22:17:39 Buda kernel: [ 1841.918844] Call Trace:
Mar 27 22:17:39 Buda kernel: [ 1841.918844] <IRQ> [<ffffffffaa22e043>] dump_stack+0x63/0x90
Mar 27 22:17:39 Buda kernel: [ 1841.918851] [<ffffffffa9ee2e23>] __report_bad_irq+0x33/0xc0
Mar 27 22:17:39 Buda kernel: [ 1841.918852] [<ffffffffa9ee31b7>] note_interrupt+0x247/0x290
Mar 27 22:17:39 Buda kernel: [ 1841.918855] [<ffffffffa9ee0174>] handle_irq_event_percpu+0x54/0x80
Mar 27 22:17:39 Buda kernel: [ 1841.918856] [<ffffffffa9ee01de>] handle_irq_event+0x3e/0x60
Mar 27 22:17:39 Buda kernel: [ 1841.918857] [<ffffffffa9ee38b2>] handle_fasteoi_irq+0xa2/0x160
Mar 27 22:17:39 Buda kernel: [ 1841.918859] [<ffffffffa9e302cd>] handle_irq+0x1d/0x30
Mar 27 22:17:39 Buda kernel: [ 1841.918862] [<ffffffffaa69e05b>] do_IRQ+0x4b/0xd0
Mar 27 22:17:39 Buda kernel: [ 1841.918863] [<ffffffffaa69c142>] common_interrupt+0x82/0x82
Mar 27 22:17:39 Buda kernel: [ 1841.918863] <EOI> [<ffffffffaa5198f8>] ? cpuidle_enter_state+0x128/0x2d0
Mar 27 22:17:39 Buda kernel: [ 1841.918869] [<ffffffffaa519ad7>] cpuidle_enter+0x17/0x20
Mar 27 22:17:39 Buda kernel: [ 1841.918870] [<ffffffffa9ec79fa>] call_cpuidle+0x2a/0x50
Mar 27 22:17:39 Buda kernel: [ 1841.918871] [<ffffffffa9ec7dde>] cpu_startup_entry+0x29e/0x350
Mar 27 22:17:39 Buda kernel: [ 1841.918874] [<ffffffffa9e518b1>] start_secondary+0x151/0x190
Mar 27 22:17:39 Buda kernel: [ 1841.918875] handlers:
Mar 27 22:17:39 Buda kernel: [ 1841.918878] [<ffffffffaa465fd0>] usb_hcd_irq
Mar 27 22:17:39 Buda kernel: [ 1841.918879] Disabling IRQ #16
A questão é sobre o IRQ 16 ser desativado. Eu cheched o que poderia estar usando o IRQ 16:
:~$ lspci -v | grep IRQ
Flags: fast devsel, IRQ 12
Flags: bus master, fast devsel, latency 0, IRQ 16
Flags: bus master, medium devsel, latency 0, IRQ 16
Flags: bus master, medium devsel, latency 0, IRQ 21
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, fast devsel, latency 0, IRQ 30
Flags: bus master, fast devsel, latency 0, IRQ 24
Flags: bus master, fast devsel, latency 0, IRQ 25
Flags: bus master, fast devsel, latency 0, IRQ 26
Flags: bus master, fast devsel, latency 0, IRQ 27
Flags: bus master, medium devsel, latency 0, IRQ 23
Flags: bus master, medium devsel, latency 0, IRQ 19
Flags: bus master, medium devsel, latency 0, IRQ 18
Flags: bus master, medium devsel, latency 0, IRQ 23
Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 19
Flags: medium devsel, IRQ 7
Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 19
Flags: bus master, fast devsel, latency 0, IRQ 31
Flags: fast devsel, IRQ 17
Flags: bus master, fast devsel, latency 0, IRQ 17
Flags: bus master, fast devsel, latency 0, IRQ 18
Flags: bus master, fast devsel, latency 0, IRQ 28
Flags: bus master, fast devsel, latency 0, IRQ 29
Flags: bus master, medium devsel, latency 32, IRQ 18
E o detalhe dos dois dispositivos usando o IRQ 16 é este:
00:03.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 3 (rev 12) (prog-if 00 [Normal decode])
Flags: bus master, fast devsel, latency 0, IRQ 16
Bus: primary=00, secondary=01, subordinate=01, sec-latency=0
I/O behind bridge: 0000b000-0000bfff
Memory behind bridge: f9000000-faffffff
Prefetchable memory behind bridge: 00000000d0000000-00000000efffffff
Capabilities: <access denied>
Kernel driver in use: pcieport
Kernel modules: shpchp
00:1a.0 USB controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #4 (prog-if 00 [UHCI])
Subsystem: Gigabyte Technology Co., Ltd Motherboard
Flags: bus master, medium devsel, latency 0, IRQ 16
I/O ports at ff00 [size=32]
Capabilities: <access denied>
Kernel driver in use: uhci_hcd
Então ... eu tentei resolver esse "conflito" de IRQ alterando as configurações da BIOS (não encontrei opções de atribuição de IRQ) ou módulos de kernel na lista negra ("shpchp", já que estou usando tanto o USB quanto o PCIE controladores) sem sucesso.
Então eu comecei a tentar os parâmetros de inicialização do kernel. A primeira tentativa foi usar a opção "irqpoll", o erro sugerido. Não resolveu nada, e também começou a ver outras mensagens:
Mar 26 14:17:23 Buda kernel: [ 1988.976483] hpet1: lost 9599 rtc interrupts
Mar 26 14:18:51 Buda kernel: [ 2076.378021] hpet1: lost 9600 rtc interrupts
Mar 26 14:20:11 Buda kernel: [ 2156.670873] hpet1: lost 9600 rtc interrupts
Mar 26 14:21:33 Buda kernel: [ 2238.533442] hpet1: lost 9599 rtc interrupts
Mar 26 14:22:17 Buda kernel: [ 2282.293272] hpet1: lost 9600 rtc interrupts
Mar 26 14:23:06 Buda kernel: [ 2331.292559] hpet1: lost 9600 rtc interrupts
Mar 26 14:24:42 Buda kernel: [ 2427.306337] hpet1: lost 9600 rtc interrupts
Pesquisando, encontrei e tentei várias outras opções de inicialização, tudo sem sucesso.
No momento estou usando o sistema com "acpi = off" e é a primeira opção que "resolve" o "conflito" de IRQ, já que o único dispositivo que usa IRQ16 é o controlador USB; mas eu perdi 4 núcleos de CPU fazendo isso (eu só vejo 4 de 8 agora), e não sei o que mais eu também estou desabilitando (habilitado "acpi = off" apenas algumas horas atrás). / p>
Eu culpei o firefox, depois os drivers nvidia, então esperei por uma nova pilha kernel + xorg ... nada ajudou. Eu posso trabalhar por horas com processamento de vídeo ou tarefas de big data ou até mesmo jogar jogos AAA neste sistema sem problemas, e depois ir ver alguns vídeos youtuve ou ler as notícias e obter um congelamento do sistema sem qualquer problema de calor ou CPU. Também pode acontecer (e as últimas semanas estão acontecendo muito) logo após a inicialização, quando eu inicio o thunderbird e o firefox. Nenhuma mensagem de erro do aplicativo no log do sistema, sem falhas, apenas este material repentino de IRQ.
Estou aqui pedindo ajuda para diagnosticar isso. Não entendo completamente todos os dados que estou coletando e onde mais preciso procurar. Existe alguém com experiência em problemas desse tipo? O que mais posso fazer para depurar isso?
Obrigado antecipadamente.