IRQ com o kernel 2.6.32 / 2.6.39 no Debian Squeeze x86_64

2

Recentemente, montei um novo computador para que todo o hardware seja bem novo. Desde então, tenho experimentado algum problema com os IRQs ao executar o Debian 6.0. Em ocasiões aleatórias, geralmente depois de uma hora ou mais de execução, ouço um sinal sonoro e isso aparece em dmesg :

[ 3537.762795] irq 16: nobody cared (try booting with the "irqpoll" option)
[ 3537.762797] Pid: 0, comm: swapper Tainted: P        W  O 2.6.39-2-amd64 #1
[ 3537.762798] Call Trace:
[ 3537.762799]  <IRQ>  [<ffffffff810924d4>] ? __report_bad_irq+0x3a/0xa2
[ 3537.762803]  [<ffffffff810926a4>] ? note_interrupt+0x168/0x1da
[ 3537.762805]  [<ffffffff81090dd4>] ? handle_irq_event_percpu+0x171/0x18f
[ 3537.762807]  [<ffffffff8100e0e2>] ? read_tsc+0x5/0x16
[ 3537.762809]  [<ffffffff8106b8a2>] ? update_ts_time_stats+0x32/0x6b
[ 3537.762810]  [<ffffffff81090e26>] ? handle_irq_event+0x34/0x52
[ 3537.762812]  [<ffffffff81063fb7>] ? sched_clock_idle_wakeup_event+0x12/0x1c
[ 3537.762813]  [<ffffffff81092df2>] ? handle_fasteoi_irq+0x82/0xa4
[ 3537.762815]  [<ffffffff8100aadb>] ? handle_irq+0x1a/0x23
[ 3537.762816]  [<ffffffff8100a384>] ? do_IRQ+0x45/0xaa
[ 3537.762818]  [<ffffffff81332c93>] ? common_interrupt+0x13/0x13
[ 3537.762818]  <EOI>  [<ffffffff81332c8e>] ? common_interrupt+0xe/0x13
[ 3537.762821]  [<ffffffff81026800>] ? native_safe_halt+0x2/0x3
[ 3537.762829]  [<ffffffffa016ed58>] ? acpi_idle_do_entry+0x39/0x62 [processor]
[ 3537.762831]  [<ffffffffa016edde>] ? acpi_idle_enter_c1+0x5d/0xad [processor]
[ 3537.762834]  [<ffffffff81261033>] ? cpuidle_idle_call+0x11f/0x1cc
[ 3537.762835]  [<ffffffff81008dd2>] ? cpu_idle+0xab/0xe1
[ 3537.762837]  [<ffffffff8169fc60>] ? start_kernel+0x3e0/0x3eb
[ 3537.762838]  [<ffffffff8169f3c8>] ? x86_64_start_kernel+0x102/0x10f
[ 3537.762839] handlers:
[ 3537.762840] [<ffffffffa0358d5a>] (rtl8169_interrupt+0x0/0x2d7 [r8169])
[ 3537.762842] [<ffffffffa08ff2ca>] (nv_kern_isr+0x0/0x54 [nvidia])
[ 3537.762902] Disabling IRQ #16

Depois disso, o Xorg ou investe na CPU ou é instável (até pendurar o sistema completamente). Quando eu reiniciar o Xorg, tudo estará bem novamente e o problema não ocorrerá até a próxima reinicialização.

Eu tentei atualizar o kernel do estoque 2.6.32 para 2.6.39 do repositório instável, mas isso não ajudou. A inicialização com a opção irqpoll parece apenas prolongar o período inicial após o qual o problema ocorre.

Estou usando os drivers NVIDIA mais recentes e o firmware Realtek do pacote firmware-realtek . Eu tenho dois GTX 560Ti que funcionam no SLI. Desativar o SLI ou remover um cartão completamente também não resolve o problema.

A saída de uname -a é:

Linux whitestar 2.6.39-2-amd64 #1 SMP Wed Jun 8 11:01:04 UTC 2011 x86_64 GNU/Linux

A saída de lspci é:

00:00.0 Host bridge: Intel Corporation Sandy Bridge DRAM Controller (rev 09)
00:01.0 PCI bridge: Intel Corporation Sandy Bridge PCI Express Root Port (rev 09)
00:01.1 PCI bridge: Intel Corporation Sandy Bridge PCI Express Root Port (rev 09)
00:16.0 Communication controller: Intel Corporation Cougar Point HECI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB Controller: Intel Corporation Cougar Point USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation Cougar Point High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 1 (rev b5)
00:1c.1 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 2 (rev b5)
00:1c.2 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 3 (rev b5)
00:1c.4 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 5 (rev b5)
00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5)
00:1d.0 USB Controller: Intel Corporation Cougar Point USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation Cougar Point LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation Cougar Point 6 port SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation Cougar Point SMBus Controller (rev 05)
01:00.0 VGA compatible controller: nVidia Corporation Device 1200 (rev a1)
01:00.1 Audio device: nVidia Corporation Device 0e0c (rev a1)
02:00.0 VGA compatible controller: nVidia Corporation Device 1200 (rev a1)
02:00.1 Audio device: nVidia Corporation Device 0e0c (rev a1)
04:00.0 USB Controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
06:00.0 USB Controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
07:00.0 PCI bridge: Device 1b21:1080 (rev 01)
08:02.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL-8110SC/8169SC Gigabit Ethernet (rev 10)
08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0)

Conteúdo de /proc/interrupts :

CPU0       CPU1       CPU2       CPU3       CPU4       CPU5       CPU6       CPU7
0:         77          0          0          0          0          0          0          0   IO-APIC-edge      timer
1:          2          0          0          0          0          0          0          0   IO-APIC-edge      i8042
8:          1          0          0          0          0          0          0          0   IO-APIC-edge      rtc0
9:          0          0          0          0          0          0          0          0   IO-APIC-fasteoi   acpi
12:          4          0          0          0          0          0          0          0   IO-APIC-edge      i8042
16:     699083          0          0          0          0          0          0          0   IO-APIC-fasteoi   nvidia, eth0
17:      87810          0          0          0          0          0          0          0   IO-APIC-fasteoi   firewire_ohci, hda_intel, nvidia
18:        242          0          0          0          0          0          0          0   IO-APIC-fasteoi   hda_intel
23:      85925          0          0          0          0          0          0          0   IO-APIC-fasteoi   ehci_hcd:usb5, ehci_hcd:usb6
40:          0          0          0          0          0          0          0          0   PCI-MSI-edge      PCIe PME
41:          0          0          0          0          0          0          0          0   PCI-MSI-edge      PCIe PME
42:          0          0          0          0          0          0          0          0   PCI-MSI-edge      PCIe PME
43:          0          0          0          0          0          0          0          0   PCI-MSI-edge      PCIe PME
44:          0          0          0          0          0          0          0          0   PCI-MSI-edge      PCIe PME
45:          0          0          0          0          0          0          0          0   PCI-MSI-edge      PCIe PME
46:      79853          0          0          0          0          0          0          0   PCI-MSI-edge      ahci
48:          1          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
49:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
50:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
51:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
52:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
53:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
54:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
55:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
56:          1          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
57:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
58:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
59:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
60:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
61:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
62:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
63:          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
64:     173506          0          0          0          0          0          0          0   PCI-MSI-edge      hda_intel
NMI:        482         89         25         13        277         24         11         10   Non-maskable interrupts
LOC:     783857     194752     114133      70577     372438     179065     117179     162016   Local timer interrupts
SPU:          0          0          0          0          0          0          0          0   Spurious interrupts
PMI:        482         89         25         13        277         24         11         10   Performance monitoring interrupts
IWI:          0          0          0          0          0          0          0          0   IRQ work interrupts
RES:     131917      46750       7432       3291     150003       9576       3435       3067   Rescheduling interrupts
CAL:       2759       6563       7150       6997       5387       7140       7269       6678   Function call interrupts
TLB:       4396       2038       1336        492       5434       1896       1121        606   TLB shootdowns
TRM:          0          0          0          0          0          0          0          0   Thermal event interrupts
THR:          0          0          0          0          0          0          0          0   Threshold APIC interrupts
MCE:          0          0          0          0          0          0          0          0   Machine check exceptions
MCP:         37         37         37         37         37         37         37         37   Machine check polls
ERR:          0
MIS:          0

Por último, mas não menos importante, logo após a inicialização, essas linhas geralmente estão presentes em dmesg :

[   18.367094] hda-intel: IRQ timing workaround is activated for card #1. Suggest a bigger bdl_pos_adj.
[   18.458859] hda-intel: IRQ timing workaround is activated for card #2. Suggest a bigger bdl_pos_adj.

Não tenho certeza se isso é relacionado ou um sintoma de um problema maior, por isso estou postando apenas por precaução.

Eu realmente não sei quais outras informações podem ser relevantes aqui. Não hesite em pedir mais nos comentários.

    
por MasterM 24.06.2011 / 13:05

4 respostas

1

Parece que finalmente encontrei uma solução alternativa para esse problema.

É necessário adicionar a opção de inicialização pci=routeirq ao kernel. Conforme indicado na documentação, ele faz o seguinte:

Do IRQ routing for all PCI devices. This is normally done in pci_enable_device(), so this option is a temporary workaround for broken drivers that don't call it.

Parece que o driver NVIDIA Xorg é o culpado aqui. Eu provavelmente deveria enviar um relatório de bug.

    
por 01.09.2011 / 00:15
0

Apenas um palpite ... Entre no seu BIOS e desabilite qualquer coisa sobre o seu recurso "SERR". Você também pode tentar atualizar para um kernel posterior, se possível.

    
por 24.06.2011 / 13:49
0

Eu tenho exatamente o mesmo problema, rodando Debian 6.0, tentei muitos kernels (2.6.32, 2.6.38, 2.6.39) e muitos parâmetros de kernel ("irqpoll" ou "noapic" não fizeram diferença, mas "acpi = off" tornou o sistema utilizável algumas vezes por quase alguns dias. Então, você pode tentar rodar com "acpi = off" para iniciantes.

Minha placa-mãe é uma Asus P8H67-M EVO, você também está usando uma placa-mãe da Asus com um chipset Sandy Bridge? Se sim, tente também atualizar o BIOS, isso pode resolver o problema.

    
por 14.07.2011 / 23:01
0

O mesmo problema aqui Correndo Sandy Bridge ...

Asus P-67 Sabertooth i7 2600k @ 3,4 nVidia Evga GTX 570 Debian Squeeze 2.6.39-bpo.2-amd64

Estou obtendo o kernel Oopses Desabilitando o IRQ 17 com firewire_ohci, hda_intel em 17.

    
por 28.12.2011 / 06:41