O que causa isso? pcieport 0000: 00: 03.0: Erro no barramento PCIe: AER / TLP incorreto

20

Estou vendo mensagens de erro como estas abaixo:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Isso causará desempenho degradado, mesmo que eles tenham sido (até agora) corrigidos. Obviamente, esse problema precisa ser resolvido. No entanto, não consigo encontrar muito sobre isso na Internet. (Talvez eu esteja procurando nos lugares errados.) Encontrei apenas alguns links que postarei abaixo.

Alguém sabe mais sobre esses erros?

É a placa-mãe, o Samsung 950 Pro ou a GPU (ou alguma combinação desses)?

O hardware é: Asus X99 Deluxe II Samsung 950 Pro NVMe no M2. slot no mb (que compartilha a porta PCIe 3). Nada mais está conectado à porta PCIe 3. Uma GeForce GTX 1070 no slot PCIe 1 CPU Core i7 6850K

Alguns dos links que encontrei mencionam o mesmo hardware (X99 Deluxe II mb e Samsung950 Pro). Estou executando o Arch Linux.

Não encontro a string "8086: 6f08" no journalctl ou em qualquer outro lugar que pensei pesquisar até agora.

mensagem de erro estranha com nvme ssd (TLP incorreto): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: sua placa está lutando silenciosamente com retransmissões de TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 lançando erros de barramento TLP PCIe incorretos - Fóruns da GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

drivers - erro PCIe no log dmesg - Ask Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log

780Ti X99 hard lock - erros PCIE - Fóruns de desenvolvedores da NVIDIA https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

MountainX para Monica Cellio
fonte
Eu mudei meu gtx 710 do slot pcie x16 para o slot x1 (asus prime b450-plus, ryzen 5 3600, samsung nvme 970)
trants

Respostas:

23

Eu posso dar pelo menos alguns detalhes, mesmo que eu não possa explicar completamente o que acontece.

Conforme descrito, por exemplo , aqui , a CPU se comunica com o controlador de barramento PCIe por pacotes de camada de transação (TLPs). O hardware detecta quando há problemas, e o kernel do Linux informa isso como mensagens.

A opção do kernel pci=nommconfdesativa o Espaço de configuração do PCI mapeado na memória, disponível no Linux desde o kernel 2.6. De maneira geral, todos os dispositivos PCI possuem uma área que descreve esse dispositivo (com o qual você vê lspci -vv), e o método original para acessar essa área envolve passar pelas portas de E / S, enquanto o PCIe permite que esse espaço seja mapeado na memória para um acesso mais simples.

Isso significa que, nesse caso específico, algo dá errado quando o controlador PCIe usa esse método para acessar o espaço de configuração de um dispositivo específico. Pode ser um erro de hardware no dispositivo, no controlador raiz PCIe na placa-mãe, na interação específica desses dois ou em qualquer outra coisa.

Ao usar pci=nommconf, o espaço de configuração de todos os dispositivos será acessado da maneira original e a alteração dos métodos de acesso soluciona esse problema. Então, se você quiser, é ao mesmo tempo resolvê-lo e suprimi-lo.

dirkt
fonte
Posso saber se é o problema da minha placa-mãe? Ou meu problema de CPU. Devo mudá-los?
precisa
@ user2675516: Não está relacionado à CPU. É um problema do controlador raiz PCIe (que geralmente está no Southbridge) e / ou do controlador PCIe do dispositivo ou de sua interação. Sim, trocar a placa-mãe por outra com hardware diferente geralmente se livra dela.
dirkt
Mudei de asus e-ws para asus deluxe, mas o problema ainda persiste. É por isso que eu suspeito que seja a CPU. Ou é porque ambos são chipset X99?
user10024395
11
@ user2675516: Se o chipset for o mesmo, esp. o controlador PCIe, mudar a placa-mãe, é claro, não ajudará. Por isso escrevi "placa mãe com hardware diferente ".
dirkt
o fator comum para mim parece ser uma placa-mãe com o chipset X99
MountainX para Monica Cellio
3

A adição da opção de linha de comando do kernel pci=nommconfresolveu o problema para mim. Portanto, suponho que o problema esteja relacionado à placa-mãe. Isso acontece em todos os meus computadores equipados com a placa-mãe X99. Isso não acontece nos sistemas Z170 ou em qualquer outro hardware que possuo.

MountainX para Monica Cellio
fonte
11
Oi, eu também estou enfrentando esse problema. Posso saber o que o pci-nommconf faz? É apenas suprimir o problema ou resolvê-lo?
precisa
Não é possível confirmar - obtendo o erro no z170i, executando o arch 4.13.12
sitilge
@sitilge - obrigado pelo seu comentário. Qual marca / modelo z170i? Minhas placas-mãe são da Asus. One is X99 Deluxe II
MountainX para Monica Cellio
É um jogo profissional asus z170i.
sitilge
3

Tente estas etapas:

  1. cp /etc/default/grub ~/Desktop
  2. Edite o grub. Adicione pci=noaerno final de GRUB_CMDLINE_LINUX_DEFAULT. A linha será assim:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. Reinicie agora
Ehtesham
fonte
Eu apliquei a sua solução, mas em vez de pci=noaereu usei pci=nommconfcomo sugerido por @dirkt
user3405291
Obrigado, pci = noaer fixo meu problema slackware 14.2x64 instalado em um laptop HP (desktop instalação não apresentam esse problema em tudo)
John Forkosh
7
Você se importaria de elaborar um pouco? O que essa opção faz e como você espera que ela resolva o problema?
Calimo 30/11
Por que você simplesmente não usaria sudoeditpara edição segura? -1 para esta cópia aqui e ali as etapas são absurdas completas
LinuxSecurityFreak
4
pci=noaerapenas desativa o Relatório avançado de erros. Então você ainda tem esses erros, você simplesmente não os vê ...
dirkt
2

Eu recebo os mesmos erros (TLP inválido associado ao dispositivo 8086: 6f08). Tenho X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Esses problemas parecem estar associados ao chipset X99 e ao dispositivo M.2, como o Samsung Pro.

A placa-mãe X99 Deluxe II compartilha largura de banda entre o slot PCIE16_3 e o M.2 / U.2. Após o comentário de @Nic, no BIOS eu mudei a Onboard Devices Configuration | U.2_2 Largura de banda de Auto para U.2_2. Isso corrigiu o problema para mim.

user1759557
fonte
Como você determinou que é exatamente esse chipset? Tentou todos os outros chipsets? Ocorre em uma ampla variedade de hardware.
doug65536 25/09
2

Alterei o Config PCIE16_3 do slot no BIOS do meu x99-E para ficar estático no modo x8 em vez de automático, que é o padrão para o suporte ao dispositivo M.2. Agora funciona bem sem erros de TLP em ambas as minhas placas 1070GTX conectadas via placas de extensão PCIe 1x a 16x.

Eu não usei a porta 16_3 primeiro, mudei para esse slot para testar, mas ainda tinha problemas antes da alteração no BIOS. Também alterou a configuração bsleep para todas as placas para 30 na configuração do mineiro.

Antes da mudança, o log do kernel era spam com falhas. Também tentei ligar o sistema antes e depois da mudança. Parece ser bastante persistente.

Nic
fonte
2

Procure no manual da placa mãe por "AER". Você pode eliminar a origem do problema, corrigindo a incompatibilidade específica ou desativando o AER completamente. Use-o somente se todo o spam de erro disser respeito a erros corrigidos ; caso contrário, você poderá estar ocultando um problema real.

N3V3N
fonte