O que causa isso? pcieport 0000: 00: 03.0: erro de barramento PCIe: AER / Bad TLP

11

Estou vendo mensagens de erro como estas abaixo:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Isso causará desempenho degradado mesmo que (até o momento) tenha sido corrigido. Obviamente, esse problema precisa ser resolvido. No entanto, não consigo encontrar muito sobre isso na Internet. (Talvez eu esteja procurando nos lugares errados.) Encontrei apenas alguns links que vou postar abaixo.

Alguém sabe mais sobre esses erros?

É a placa-mãe, o Samsung 950 Pro ou o GPU (ou alguma combinação deles)?

O hardware é: Asus X99 Deluxe II Samsung 950 Pro NVMe no M2. slot no mb (que compartilha a porta 3 do PCIe). Nada mais é conectado à porta PCIe 3. Uma GeForce GTX 1070 no slot PCIe 1 CPU Core i7 6850K

Alguns dos links que encontrei mencionam o mesmo hardware (X99 Deluxe II mb & Samsung950 Pro). Estou executando o Arch Linux.

Eu não encontro a string "8086: 6f08" no journalctl ou em qualquer outro lugar que eu tenha pesquisado até agora.

mensagem de erro estranha com nvme ssd (Bad TLP): linuxquestions link

PCIe: Seu cartão está lutando silenciosamente com retransmissões de TLP? link

GTX 1080 lançando erros de barramento PCIe ruins no TLP - Fóruns da GeForce link

drivers - Erro PCIe no log do dmesg - Pergunte ao Ubuntu link

Disco rígido 780Ti X99 - Erros PCIE - Fóruns dos Desenvolvedores NVIDIA link

    
por MountainX 03.12.2016 / 09:00

6 respostas

17

Eu posso dar pelo menos alguns detalhes, mesmo que eu não possa explicar completamente o que acontece.

Como descrito, por exemplo, aqui , a CPU se comunica com o Controlador de barramento PCIe por pacotes da camada de transação (TLPs). O hardware detecta quando há falhas, e o kernel Linux reporta isso como mensagens.

A opção do kernel pci=nommconf desabilita o Espaço de Configuração PCI Mapeado na Memória, que está disponível no Linux desde o kernel 2.6. Mais ou menos, todos os dispositivos PCI têm uma área que descreve esse dispositivo (que você vê com lspci -vv ) e o método original para acessar essa área envolve passar por portas de E / S, enquanto o PCIe permite que esse espaço seja mapeado para a memória. acesso mais simples.

Isso significa que, nesse caso específico, algo dá errado quando o controlador PCIe usa esse método para acessar o espaço de configuração de um determinado dispositivo. Pode ser um bug de hardware no dispositivo, no controlador de raiz PCIe na placa-mãe, na interação específica desses dois ou em outra coisa.

Usando pci=nommconf , o espaço de configuração de todos os dispositivos será acessado da maneira original e a alteração dos métodos de acesso contorna esse problema. Então, se você quiser, está resolvendo e suprimindo isso.

    
por 04.06.2017 / 07:34
4

Tente estes passos:

  1. cp /etc/default/grub ~/Desktop
  2. Edite o grub. Adicione pci=noaer no final de GRUB_CMDLINE_LINUX_DEFAULT . A linha será assim:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. Reinicie agora
por 28.05.2018 / 04:51
2

Adicionando a opção de linha de comando do kernel pci=nommconf resolveu o problema para mim. Portanto, suponho que o problema esteja relacionado à placa-mãe. Isso acontece em todos meus computadores equipados com placa-mãe X99. Isso não acontece nos sistemas Z170 ou em qualquer outro hardware que eu possua.

    
por 19.04.2017 / 06:43
2

Alterei a configuração do slot PCIE16_3 na Bios no meu x99-E para ser estática definida para o modo x8 em vez de automática, que é o padrão para o suporte a dispositivos M.2. Funciona bem agora sem erros de TLP em ambas as minhas placas 1070GTX conectadas via placas de extensão PCIe 1x a 16x.

Eu não usei a porta 16_3 primeiro, movi para esse slot para testar, mas ainda tive problemas antes da alteração no BIOS. Também mudou a configuração do bsleep para todas as cartas para 30 na configuração do minerador.

Antes da mudança eu tinha o log do kernel com spam. Também tentou sistema de moto antes e depois da mudança. Parece ser bem persistente.

    
por 03.04.2018 / 19:24
2

Procure no manual da sua placa-mãe por "AER". Você pode eliminar a origem do problema corrigindo a incompatibilidade específica ou desativando completamente o AER. Só use isso se todo o spam de erro se referir a erros corrigidos , caso contrário, você pode estar encobrindo um problema real.

    
por 20.10.2018 / 01:20
1

Eu recebo os mesmos erros (Bad TLP associado ao dispositivo 8086: 6f08). Eu tenho X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Esses problemas parecem estar associados ao chipset X99 e ao dispositivo M.2, como o Samsung Pro.

A placa-mãe X99 Deluxe II compartilha a largura de banda entre o slot PCIE16_3 e o M.2 / U.2. Após comentário do @Nic, na BIOS eu mudei Onboard Devices Configuration | U.2_2 Largura de banda de Auto para U.2_2. Isso resolveu o problema para mim.

    
por 10.05.2018 / 03:40

Tags