Fedora 23 trava no reboot / poweroff [nvidia.ko derereferência do ponteiro NULL]

3

Isso parece ser bem aleatório, está acontecendo há muito tempo e eu atualizo tudo regularmente.

  • Às vezes, a reinicialização e o desligamento funcionam bem e rapidamente.
  • Às vezes demora um pouco, sentado em uma tela preta. Eu posso acertar o escape e ver que um "stop job" está sendo executado e uma reinicialização acontecerá em 1.5 minutos. Nestes casos, eu posso ctrl-alt-del 7 vezes dentro de 2 segundos e a reinicialização acontece (ainda não tão imediatamente como indicado).
  • Às vezes, antes que a contagem regressiva termine, congela e eu tenho que puxar o poder.
  • Às vezes, congela antes que eu consiga escapar e acabo ficando com uma tela preta.

Quais logs posso ver para obter mais informações sobre isso (isto é, há um log de desligamento específico)?

Qual pode ser a causa e como posso reiniciar?

Considero minha responsabilidade garantir que todos os programas importantes tenham terminado e não sejam contra uma reinicialização mais rigorosa que simplesmente não permite que os processos cheguem a qualquer momento.

Esta questão é muito parecida, mas eu geralmente só tenho uma tela em branco, então eu suponho que X fechou.

UPDATE:
Aqui está o final de uma falha em reboot usando journalctl --boot=-1 . Algumas dessas linhas aparecem em relatórios de bugs, mas ainda não encontrei nenhuma solução.

May 10 22:55:37 localhost abrt-hook-ccpp[15180]: /var/spool/abrt is 3433423071 bytes (more than 1279MiB), deleting 'ccpp-2016-05-10-22:55:30-1387'
May 10 22:55:38 localhost kernel: BUG: unable to handle kernel NULL pointer dereference at 0000000000000178
May 10 22:55:38 localhost kernel: IP: [<ffffffffa02d83f8>] _nv003139rm+0x68/0x240 [nvidia]
May 10 22:55:38 localhost kernel: PGD 0 
May 10 22:55:38 localhost kernel: Oops: 0000 [#1] SMP 
May 10 22:55:38 localhost kernel: Modules linked in: nvidia_modeset(POE) ip6t_rpfilter ip6t_REJECT nf_reject_ipv6 xt_conntrack ip_set nfnetlink ebtable_nat ebtable_broute bridge stp llc ebtable_filter ebtables ip6table_mangle ip6table_security ip6table_nat nf_conntrack_ipv6 nf_defrag_ipv6 nf_nat_ipv6 ip6table_raw ip6table_filter ip6_tables iptable_mangle iptable_security iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat nf_conntrack iptable_raw iTCO_wdt iTCO_vendor_support coretemp kvm_intel kvm fuse irqbypass snd_hda_codec_analog snd_hda_codec_generic crc32c_intel i2c_i801 snd_hda_codec_hdmi snd_usb_audio snd_usbmidi_lib nvidia(POE) snd_rawmidi lpc_ich joydev snd_hda_intel snd_hda_codec snd_hda_core snd_hwdep snd_seq snd_seq_device drm snd_pcm snd_timer snd soundcore i7core_edac i5500_temp edac_core shpchp
May 10 22:55:38 localhost kernel:  tpm_infineon asus_atk0110 acpi_cpufreq tpm_tis tpm nfsd auth_rpcgss nfs_acl lockd grace sunrpc hid_microsoft mxm_wmi serio_raw ata_generic pata_acpi sky2 wmi fjes
May 10 22:55:38 localhost kernel: CPU: 1 PID: 1387 Comm: kwin_x11 Tainted: P          IOE   4.4.8-300.fc23.x86_64 #1
May 10 22:55:38 localhost kernel: Hardware name: System manufacturer System Product Name/P6T DELUXE V2, BIOS 1003    03/08/2010
May 10 22:55:38 localhost kernel: task: ffff8800b1305640 ti: ffff8801ae410000 task.ti: ffff8801ae410000
May 10 22:55:38 localhost kernel: RIP: 0010:[<ffffffffa02d83f8>]  [<ffffffffa02d83f8>] _nv003139rm+0x68/0x240 [nvidia]
May 10 22:55:38 localhost kernel: RSP: 0018:ffff8801ae4137d8  EFLAGS: 00010286
May 10 22:55:38 localhost kernel: RAX: ffff8800b9ffafe8 RBX: ffff8801ad9e2008 RCX: 0000000000000000
May 10 22:55:38 localhost kernel: RDX: ffff880198d6d408 RSI: ffff8801b7bc5808 RDI: ffff8801b6694008
May 10 22:55:38 localhost kernel: RBP: ffff880197bcaca8 R08: 0000000000000001 R09: 0000000000000000
May 10 22:55:38 localhost kernel: R10: ffffea0002e8cc40 R11: ffffffffa076f040 R12: ffff880198d6d408
May 10 22:55:38 localhost kernel: R13: ffff8801b6694008 R14: 0000000000000000 R15: ffff880198d6d408
May 10 22:55:38 localhost kernel: FS:  00007f59274b6940(0000) GS:ffff8801b9240000(0000) knlGS:0000000000000000
May 10 22:55:38 localhost kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 000000008005003b
May 10 22:55:38 localhost kernel: CR2: 0000000000000178 CR3: 0000000001c09000 CR4: 00000000000006e0
May 10 22:55:38 localhost kernel: Stack:
May 10 22:55:38 localhost kernel:  ffff8801b6694008 ffff880198d6d408 0000000000000000 ffff8801ad9e2008
May 10 22:55:38 localhost kernel:  ffff880197bcad20 ffffffffa066b918 ffff8801b6faedb0 ffff880198d6d408
May 10 22:55:38 localhost kernel:  ffff8801b5acce08 ffff8801b6694008 0000000000000000 ffffffffa066bb44
May 10 22:55:38 localhost kernel: Call Trace:
May 10 22:55:38 localhost kernel:  [<ffffffffa066b918>] ? _nv015306rm+0xb8/0x3d70 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa066bb44>] ? _nv015306rm+0x2e4/0x3d70 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa061a299>] ? _nv014791rm+0x439/0x920 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa061a46e>] ? _nv014791rm+0x60e/0x920 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa0560129>] ? _nv010603rm+0x1e9/0x310 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa04ab422>] ? _nv007106rm+0x352/0x380 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa04a6efb>] ? _nv007114rm+0xbb/0xf0 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa049f5d6>] ? _nv007665rm+0xb56/0x13c0 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa059939a>] ? _nv011536rm+0x20a/0x380 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa0598112>] ? _nv011559rm+0x10b2/0x1690 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa05947a1>] ? _nv011534rm+0x81/0x690 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa049f2d9>] ? _nv007665rm+0x859/0x13c0 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa049d1d8>] ? _nv007704rm+0x108/0x1750 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa0528163>] ? _nv002124rm+0x2c33/0x3cf0 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa07ab5cf>] ? _nv000818rm+0x1cf/0x270 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa079fba8>] ? rm_shutdown_adapter+0xc8/0xf0 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffff8141a500>] ? free_msi_irqs+0xc0/0x190
May 10 22:55:38 localhost kernel:  [<ffffffffa0279768>] ? nv_close_device+0x118/0x130 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa027b940>] ? nvidia_close+0xd0/0x300 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffffa027939c>] ? nvidia_frontend_close+0x2c/0x50 [nvidia]
May 10 22:55:38 localhost kernel:  [<ffffffff8122fd5c>] ? __fput+0xdc/0x1e0
May 10 22:55:38 localhost kernel:  [<ffffffff8122fe9e>] ? ____fput+0xe/0x10
May 10 22:55:38 localhost kernel:  [<ffffffff810c0b53>] ? task_work_run+0x73/0x90
May 10 22:55:38 localhost kernel:  [<ffffffff810a6d32>] ? do_exit+0x2d2/0xad0
May 10 22:55:38 localhost kernel:  [<ffffffff810a75b7>] ? do_group_exit+0x47/0xb0
May 10 22:55:38 localhost kernel:  [<ffffffff810b2a34>] ? get_signal+0x294/0x610
May 10 22:55:38 localhost kernel:  [<ffffffff81017297>] ? do_signal+0x37/0x6b0
May 10 22:55:38 localhost kernel:  [<ffffffff810b0dbe>] ? send_signal+0x3e/0x80
May 10 22:55:38 localhost kernel:  [<ffffffff817a0e4e>] ? _raw_spin_unlock_irqrestore+0xe/0x10
May 10 22:55:38 localhost kernel:  [<ffffffff810b17ec>] ? do_send_sig_info+0x6c/0xa0
May 10 22:55:38 localhost kernel:  [<ffffffff8100320c>] ? exit_to_usermode_loop+0x8c/0xd0
May 10 22:55:38 localhost kernel:  [<ffffffff81003d41>] ? syscall_return_slowpath+0xa1/0xb0
May 10 22:55:38 localhost kernel:  [<ffffffff817a150c>] ? int_ret_from_sys_call+0x25/0x8f
May 10 22:55:38 localhost kernel: Code: 00 00 48 89 45 28 be 30 00 00 00 48 8b bb f0 0a 00 00 ff 93 88 06 00 00 4c 8b 30 48 8b 75 28 4c 89 fa 41 b8 01 00 00 00 4c 89 ef <41> 8b 8e 78 01 00 00 e8 ac 54 19 00 85 c0 ba 1f 00 00 00 75 46 
May 10 22:55:38 localhost kernel: RIP  [<ffffffffa02d83f8>] _nv003139rm+0x68/0x240 [nvidia]
May 10 22:55:38 localhost kernel:  RSP <ffff8801ae4137d8>
May 10 22:55:38 localhost kernel: CR2: 0000000000000178
May 10 22:55:38 localhost kernel: ---[ end trace b99676761802a72c ]---
May 10 22:55:38 localhost kernel: Fixing recursive fault but reboot is needed!
May 10 22:55:38 localhost systemd[1]: Received SIGCHLD from PID 1304 (kded5).
May 10 22:55:38 localhost systemd[1]: Child 1304 (kded5) died (code=killed, status=11/SEGV)
May 10 22:55:38 localhost systemd[1]: session-1.scope: Child 1304 belongs to session-1.scope
May 10 22:55:49 localhost systemd-coredump[15204]: Process 15193 (klauncher) of user 1000 dumped core.

  Stack trace of thread 15193:
  #0  0x00007fda66c30a98 raise (libc.so.6)
  #1  0x00007fda66c3269a abort (libc.so.6)
  #2  0x00007fda678ed031 _ZNK14QMessageLogger5fatalEPKcz (libQt5Core.so.5)
  #3  0x00007fda4d8e24d0 _ZN14QXcbConnectionC1EP19QXcbNativeInterfacebjPKc (libQt5XcbQpa.so.5)
  #4  0x00007fda4d8e7a91 _ZN15QXcbIntegrationC1ERK11QStringListRiPPc (libQt5XcbQpa.so.5)
  #5  0x00007fda699a55cd _ZN21QXcbIntegrationPlugin6createERK7QStringRK11QStringListRiPPc (/usr/lib64/qt5/plugins/platforms/libqxcb.so)
  #6  0x00007fda67e1159f _ZN27QPlatformIntegrationFactory6createERK7QStringRK11QStringListRiPPcS2_ (libQt5Gui.so.5)
  #7  0x00007fda67e1f933 _ZN22QGuiApplicationPrivate25createPlatformIntegrationEv (libQt5Gui.so.5)
  #8  0x00007fda67e2075d _ZN22QGuiApplicationPrivate21createEventDispatcherEv (libQt5Gui.so.5)
  #9  0x00007fda67adeb7f _ZN16QCoreApplication4initEv (libQt5Core.so.5)
  #10 0x00007fda67adec56 _ZN16QCoreApplicationC1ER23QCoreApplicationPrivate (libQt5Core.so.5)
  #11 0x00007fda67e22e9d _ZN15QGuiApplicationC2ERiPPci (libQt5Gui.so.5)
  #12 0x00007fda4e2634aa kdemain (libkdeinit5_klauncher.so)
  #13 0x000055e2014b0a8d _ZL6launchiPKcS0_S0_iS0_bS0_bS0_.constprop.27 (kdeinit5)
  #14 0x000055e2014ad691 main (kdeinit5)
  #15 0x00007fda66c1c580 __libc_start_main (libc.so.6)
  #16 0x000055e2014adb79 _start (kdeinit5)

(driver da Nvidia 361.42, kernel do Linux 4.4.7)

    
por jozxyqk 07.05.2016 / 11:43

1 resposta

0

Infelizmente, "nvidia.ko come NULL on shutdown" não é muito específico para se trabalhar. Você não pode pedir ao kernel devs para depurá-lo que não tenha informações completas de depuração para o anel 0 (veja o backtrace). Há apenas uma empresa que tem isso;). Você precisa relatar os detalhes da falha à NVidia (suponho que eles não tenham nenhum relatório automatizado). Eles podem ter um processo de solução de problemas para você seguir.

(Ou você pode voltar para o nouveau e este backtrace específico irá parar).

    
por 11.05.2016 / 10:40