Dispositivos PCIe travando o Ubuntu 16.04

0

Estou usando uma torre Dell Precision 5820 executando o Ubuntu 16.04 LTS que possui 4 placas PCIe DAQ e uma placa de vídeo AMD RV710 (portanto, há um total de 5 dispositivos PCIe na torre). Eu projetei alguns softwares que me permitem iniciar e interromper toda e qualquer uma das 4 placas PCIe DAQ pressionando apenas um ou mais botões. O problema que estou tendo envolve o congelamento do meu sistema assim que eu executo os dispositivos PCIe. Mais detalhes sobre como a questão surge:

  • Depois que eu terminar um apagamento completo e reinstalar o Ubuntu 16.04, o sistema irá congelar quando eu decidir rodar o 4º dispositivo DAQ PCIe se as outras 3 placas PCIe DAQ estiverem rodando. O sistema estará completamente operacional se eu executar simultaneamente 3 das 4 placas PCIe DAQ, mas assim que eu pressionar o botão de operação para o 4º dispositivo PCIe, o sistema congela e para de responder ao mouse e teclado, forçando-me a fazer um desligamento strong. Os dispositivos PCIe não param de ser executados quando o sistema é congelado. As 4 placas PCIe DAQ continuam a operar e se comportam normalmente, mas eu não consigo mais interagir com elas, pois o sistema não responde ao meu teclado ou mouse.

  • Quando o sistema congela devido à série de eventos descritos no marcador anterior, o sistema inicializará e operará sem um problema, mas congelará sempre que eu executar qualquer um dos dispositivos PCIe DAQ. Antes do sistema me permitir executar até 3 dispositivos simultaneamente sem congelar, mas uma vez congelado devido aos eventos descritos no marcador anterior, não posso executar nenhum dos dispositivos PCIe DAQ sem o congelamento do sistema.

  • Se eu apagar completamente e reinstalar o Ubuntu 16.04 LTS, posso usar até 3 das placas PCIe DAQ simultaneamente mais uma vez.

Quando o sistema está congelado, ele não responde ao mouse ou ao teclado. Eu fiz o sistema congelar quando eu tinha um vídeo do youtube tocando em segundo plano. Isso não causou nenhum problema com a reprodução de vídeo do youtube: nenhuma interrupção no áudio ou no vídeo foi observada, mas o sistema não estava respondendo ao meu teclado ou mouse.

Veja mais informações sobre o meu dispositivo:

SO: Ubuntu 16.04 LTS

Memória: 15.4 GiB

Processador: CPU Intel® Xeon (R) W-2123 @ 3.60GHz × 8

Gráficos: AMD RV710 (DRM 2.48.0 / 4.9.0-040900-genérico, LLVM 5.0.0)

Tipo de SO: 64 bits

Disco: 967,8 GB

Saída do lspci:

username@TOWER:~$ lspci
00:00.0 Host bridge: Intel Corporation Device 2020 (rev 04)
00:04.0 System peripheral: Intel Corporation Sky Lake-E CBDMA Registers (rev 04)
00:04.1 System peripheral: Intel Corporation Sky Lake-E CBDMA Registers (rev 04)
00:04.2 System peripheral: Intel Corporation Sky Lake-E CBDMA Registers (rev 04)
00:04.3 System peripheral: Intel Corporation Sky Lake-E CBDMA Registers (rev 04)
00:04.4 System peripheral: Intel Corporation Sky Lake-E CBDMA Registers (rev 04)
00:04.5 System peripheral: Intel Corporation Sky Lake-E CBDMA Registers (rev 04)
00:04.6 System peripheral: Intel Corporation Sky Lake-E CBDMA Registers (rev 04)
00:04.7 System peripheral: Intel Corporation Sky Lake-E CBDMA Registers (rev 04)
00:05.0 System peripheral: Intel Corporation Sky Lake-E MM/Vt-d Configuration Registers (rev 04)
00:05.2 System peripheral: Intel Corporation Device 2025 (rev 04)
00:05.4 PIC: Intel Corporation Device 2026 (rev 04)
00:08.0 System peripheral: Intel Corporation Sky Lake-E Ubox Registers (rev 04)
00:08.1 Performance counters: Intel Corporation Sky Lake-E Ubox Registers (rev 04)
00:08.2 System peripheral: Intel Corporation Sky Lake-E Ubox Registers (rev 04)
00:14.0 USB controller: Intel Corporation Device a2af
00:14.2 Signal processing controller: Intel Corporation Device a2b1
00:16.0 Communication controller: Intel Corporation Device a2ba
00:17.0 RAID bus controller: Intel Corporation C600/X79 series chipset SATA RAID Controller
00:1c.0 PCI bridge: Intel Corporation Device a290 (rev f0)
00:1c.5 PCI bridge: Intel Corporation Device a295 (rev f0)
00:1c.6 PCI bridge: Intel Corporation Device a296 (rev f0)
00:1d.0 PCI bridge: Intel Corporation Device a298 (rev f0)
00:1f.0 ISA bridge: Intel Corporation Device a2d3
00:1f.2 Memory controller: Intel Corporation Device a2a1
00:1f.3 Audio device: Intel Corporation Device a2f0
00:1f.4 SMBus: Intel Corporation Device a2a3
00:1f.6 Ethernet controller: Intel Corporation Ethernet Connection (5) I219-LM
02:00.0 PCI bridge: PLX Technology, Inc. PEX8112 x1 Lane PCI Express-to-PCI Bridge (rev aa)
03:00.0 Unassigned class [ffff]: Measurement Computing PCIe-DAS1602/16
04:00.0 PCI bridge: Texas Instruments XIO2001 PCI Express-to-PCI Bridge
06:00.0 PCI bridge: PLX Technology, Inc. PEX8112 x1 Lane PCI Express-to-PCI Bridge (rev aa)
07:00.0 Unassigned class [ffff]: Measurement Computing PCIe-DAS1602/16
16:00.0 PCI bridge: Intel Corporation Sky Lake-E PCI Express Root Port 1A (rev 04)
16:05.0 System peripheral: Intel Corporation Device 2034 (rev 04)
16:05.2 System peripheral: Intel Corporation Sky Lake-E RAS Configuration Registers (rev 04)
16:05.4 PIC: Intel Corporation Device 2036 (rev 04)
16:08.0 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:08.1 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:08.2 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:08.3 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:08.4 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:08.5 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:08.6 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:08.7 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:09.0 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:09.1 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:0e.0 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:0e.1 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:0e.2 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:0e.3 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:0e.4 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:0e.5 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:0e.6 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:0e.7 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:0f.0 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:0f.1 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:1d.0 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:1d.1 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:1d.2 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:1d.3 System peripheral: Intel Corporation Sky Lake-E CHA Registers (rev 04)
16:1e.0 System peripheral: Intel Corporation Sky Lake-E PCU Registers (rev 04)
16:1e.1 System peripheral: Intel Corporation Sky Lake-E PCU Registers (rev 04)
16:1e.2 System peripheral: Intel Corporation Sky Lake-E PCU Registers (rev 04)
16:1e.3 System peripheral: Intel Corporation Sky Lake-E PCU Registers (rev 04)
16:1e.4 System peripheral: Intel Corporation Sky Lake-E PCU Registers (rev 04)
16:1e.5 System peripheral: Intel Corporation Sky Lake-E PCU Registers (rev 04)
16:1e.6 System peripheral: Intel Corporation Sky Lake-E PCU Registers (rev 04)
17:00.0 PCI bridge: PLX Technology, Inc. PEX8112 x1 Lane PCI Express-to-PCI Bridge (rev aa)
18:00.0 Unassigned class [ffff]: Measurement Computing PCIe-DAS1602/16
64:00.0 PCI bridge: Intel Corporation Sky Lake-E PCI Express Root Port 1A (rev 04)
64:05.0 System peripheral: Intel Corporation Device 2034 (rev 04)
64:05.2 System peripheral: Intel Corporation Sky Lake-E RAS Configuration Registers (rev 04)
64:05.4 PIC: Intel Corporation Device 2036 (rev 04)
64:08.0 System peripheral: Intel Corporation Device 2066 (rev 04)
64:09.0 System peripheral: Intel Corporation Device 2066 (rev 04)
64:0a.0 System peripheral: Intel Corporation Device 2040 (rev 04)
64:0a.1 System peripheral: Intel Corporation Device 2041 (rev 04)
64:0a.2 System peripheral: Intel Corporation Device 2042 (rev 04)
64:0a.3 System peripheral: Intel Corporation Device 2043 (rev 04)
64:0a.4 System peripheral: Intel Corporation Device 2044 (rev 04)
64:0a.5 System peripheral: Intel Corporation Device 2045 (rev 04)
64:0a.6 System peripheral: Intel Corporation Device 2046 (rev 04)
64:0a.7 System peripheral: Intel Corporation Device 2047 (rev 04)    
64:0b.0 System peripheral: Intel Corporation Device 2048 (rev 04)
64:0b.1 System peripheral: Intel Corporation Device 2049 (rev 04)
64:0b.2 System peripheral: Intel Corporation Device 204a (rev 04)
64:0b.3 System peripheral: Intel Corporation Device 204b (rev 04)
64:0c.0 System peripheral: Intel Corporation Device 2040 (rev 04)
64:0c.1 System peripheral: Intel Corporation Device 2041 (rev 04)
64:0c.2 System peripheral: Intel Corporation Device 2042 (rev 04)
64:0c.3 System peripheral: Intel Corporation Device 2043 (rev 04)
64:0c.4 System peripheral: Intel Corporation Device 2044 (rev 04)
64:0c.5 System peripheral: Intel Corporation Device 2045 (rev 04)
64:0c.6 System peripheral: Intel Corporation Device 2046 (rev 04)
64:0c.7 System peripheral: Intel Corporation Device 2047 (rev 04)
64:0d.0 System peripheral: Intel Corporation Device 2048 (rev 04)
64:0d.1 System peripheral: Intel Corporation Device 2049 (rev 04)
64:0d.2 System peripheral: Intel Corporation Device 204a (rev 04)
64:0d.3 System peripheral: Intel Corporation Device 204b (rev 04)
65:00.0 PCI bridge: PLX Technology, Inc. PEX8112 x1 Lane PCI Express-to-PCI Bridge (rev aa)
66:00.0 Unassigned class [ffff]: Measurement Computing PCIe-DAS1602/16
b2:00.0 PCI bridge: Intel Corporation Sky Lake-E PCI Express Root Port 1A (rev 04)
b2:02.0 PCI bridge: Intel Corporation Sky Lake-E PCI Express Root Port 1C (rev 04)
b2:03.0 PCI bridge: Intel Corporation Sky Lake-E PCI Express Root Port 1D (rev 04)
b2:05.0 System peripheral: Intel Corporation Device 2034 (rev 04)
b2:05.2 System peripheral: Intel Corporation Sky Lake-E RAS Configuration Registers (rev 04)
b2:05.4 PIC: Intel Corporation Device 2036 (rev 04)
b2:12.0 Performance counters: Intel Corporation Sky Lake-E M3KTI Registers (rev 04)
b2:12.1 Performance counters: Intel Corporation Sky Lake-E M3KTI Registers (rev 04)
b2:12.2 System peripheral: Intel Corporation Sky Lake-E M3KTI Registers (rev 04)
b2:15.0 System peripheral: Intel Corporation Sky Lake-E M2PCI Registers (rev 04)
b2:16.0 System peripheral: Intel Corporation Sky Lake-E M2PCI Registers (rev 04)
b2:16.4 System peripheral: Intel Corporation Sky Lake-E M2PCI Registers (rev 04)
b2:17.0 System peripheral: Intel Corporation Sky Lake-E M2PCI Registers (rev 04)
b3:00.0 VGA compatible controller: Advanced Micro Devices, Inc. [AMD/ATI] RV710/M92 [Mobility Radeon HD 4330]
b3:00.1 Audio device: Advanced Micro Devices, Inc. [AMD/ATI] RV710/730 HDMI Audio [Radeon HD 4000 series]

Saída do uname -r:

username@TOWER:~$ uname -r
4.9.0-040900-generic

Coisas que tentei:

- Usando uma placa de vídeo diferente. Eu tentei algumas placas NVIDIA (NVS 310 e 315, Quadro K620), mas sem sucesso. Mudei para uma placa AMD porque os drivers NVIDIA e Xorg foram considerados a causa. Trocar placas de vídeo não provou ser benéfico.

- Usando drivers de placa de vídeo diferentes. Eu tentei drivers NVIDIA e Xorg (nouveau) com cada uma das placas NVIDIA que tentei, mas sem alteração no desempenho do sistema.

- Usando kernels diferentes. Eu tentei os seguintes kernels sem sucesso: 4.9.0-040900-genérico, 4.10.0-28-genérico, 4.13.0-43-genérico, 4.6.2. Curiosamente, o kernel 4.6.2 responde ao teclado quando ele congela, mas a eliminação dos processos usando a linha de comando não recupera o sistema.

- Perguntar à Dell sobre o problema. Ninguém na Dell tem ideia do que estou falando.

Eu tenho um Dell Precision 5810 que está executando o Ubuntu 16.04 no kernel 4.6.2 que executa todas as 4 das mesmas placas DAQ simultaneamente sem um problema. Esse computador foi vendido a um cliente, então eu tenho acesso limitado a ele, mas sei que ele tinha uma placa de vídeo NVIDIA K620, que ele está usando os drivers Xorg com essa placa, que ele tem Intel Xeon E5-1620 x8 para CPUs. Eu posso ter uma impressão do lspci para aquela torre em algum lugar.

Algum de vocês pode esclarecer porque meu sistema está congelando ao usar o 4º dispositivo PCIe, e por que o sistema começa a congelar quando qualquer dispositivo PCIe é usado após o congelamento inicial? Qualquer entrada seria realmente útil. Eu tenho tido esse problema por cerca de 4 meses agora.

Editar 1

Eu tentei trocar as placas do DAQ para ver se o problema com o início da quarta placa está relacionado a uma placa em particular, mas a questão persistiu como descrito inicialmente. Eu não mencionei isso antes, mas as 4 placas DAQ são idênticas.

Editar 2

Eu tentei entrar no tty (alt + ctrl + F1) enquanto o Tower estava congelado para ver se eu poderia executar alguns comandos no console, mas tty fica preso em um loop de login. Ele solicita meu ID de login, mas não progride ao ponto de solicitar minha senha depois que eu enviar o nome de login.

    
por BFranks 30.05.2018 / 22:19

0 respostas