Estou vendo mensagens de erro como estas abaixo:
Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer,
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0:
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP
Isso causará desempenho degradado, mesmo que eles tenham sido (até agora) corrigidos. Obviamente, esse problema precisa ser resolvido. No entanto, não consigo encontrar muito sobre isso na Internet. (Talvez eu esteja procurando nos lugares errados.) Encontrei apenas alguns links que postarei abaixo.
Alguém sabe mais sobre esses erros?
É a placa-mãe, o Samsung 950 Pro ou a GPU (ou alguma combinação desses)?
O hardware é: Asus X99 Deluxe II Samsung 950 Pro NVMe no M2. slot no mb (que compartilha a porta PCIe 3). Nada mais está conectado à porta PCIe 3. Uma GeForce GTX 1070 no slot PCIe 1 CPU Core i7 6850K
Alguns dos links que encontrei mencionam o mesmo hardware (X99 Deluxe II mb e Samsung950 Pro). Estou executando o Arch Linux.
Não encontro a string "8086: 6f08" no journalctl ou em qualquer outro lugar que pensei pesquisar até agora.
mensagem de erro estranha com nvme ssd (TLP incorreto): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/
PCIe: sua placa está lutando silenciosamente com retransmissões de TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/
GTX 1080 lançando erros de barramento TLP PCIe incorretos - Fóruns da GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/
drivers - erro PCIe no log dmesg - Ask Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log
780Ti X99 hard lock - erros PCIE - Fóruns de desenvolvedores da NVIDIA https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/
Respostas:
Eu posso dar pelo menos alguns detalhes, mesmo que eu não possa explicar completamente o que acontece.
Conforme descrito, por exemplo , aqui , a CPU se comunica com o controlador de barramento PCIe por pacotes de camada de transação (TLPs). O hardware detecta quando há problemas, e o kernel do Linux informa isso como mensagens.
A opção do kernel
pci=nommconf
desativa o Espaço de configuração do PCI mapeado na memória, disponível no Linux desde o kernel 2.6. De maneira geral, todos os dispositivos PCI possuem uma área que descreve esse dispositivo (com o qual você vêlspci -vv
), e o método original para acessar essa área envolve passar pelas portas de E / S, enquanto o PCIe permite que esse espaço seja mapeado na memória para um acesso mais simples.Isso significa que, nesse caso específico, algo dá errado quando o controlador PCIe usa esse método para acessar o espaço de configuração de um dispositivo específico. Pode ser um erro de hardware no dispositivo, no controlador raiz PCIe na placa-mãe, na interação específica desses dois ou em qualquer outra coisa.
Ao usar
pci=nommconf
, o espaço de configuração de todos os dispositivos será acessado da maneira original e a alteração dos métodos de acesso soluciona esse problema. Então, se você quiser, é ao mesmo tempo resolvê-lo e suprimi-lo.fonte
A adição da opção de linha de comando do kernel
pci=nommconf
resolveu o problema para mim. Portanto, suponho que o problema esteja relacionado à placa-mãe. Isso acontece em todos os meus computadores equipados com a placa-mãe X99. Isso não acontece nos sistemas Z170 ou em qualquer outro hardware que possuo.fonte
Tente estas etapas:
cp /etc/default/grub ~/Desktop
Edite o grub. Adicione
pci=noaer
no final deGRUB_CMDLINE_LINUX_DEFAULT
. A linha será assim:sudo cp ~/Desktop/grub /etc/default/
sudo update-grub
fonte
pci=noaer
eu useipci=nommconf
como sugerido por @dirktsudoedit
para edição segura? -1 para esta cópia aqui e ali as etapas são absurdas completaspci=noaer
apenas desativa o Relatório avançado de erros. Então você ainda tem esses erros, você simplesmente não os vê ...Eu recebo os mesmos erros (TLP inválido associado ao dispositivo 8086: 6f08). Tenho X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Esses problemas parecem estar associados ao chipset X99 e ao dispositivo M.2, como o Samsung Pro.
A placa-mãe X99 Deluxe II compartilha largura de banda entre o slot PCIE16_3 e o M.2 / U.2. Após o comentário de @Nic, no BIOS eu mudei a Onboard Devices Configuration | U.2_2 Largura de banda de Auto para U.2_2. Isso corrigiu o problema para mim.
fonte
Alterei o Config PCIE16_3 do slot no BIOS do meu x99-E para ficar estático no modo x8 em vez de automático, que é o padrão para o suporte ao dispositivo M.2. Agora funciona bem sem erros de TLP em ambas as minhas placas 1070GTX conectadas via placas de extensão PCIe 1x a 16x.
Eu não usei a porta 16_3 primeiro, mudei para esse slot para testar, mas ainda tinha problemas antes da alteração no BIOS. Também alterou a configuração bsleep para todas as placas para 30 na configuração do mineiro.
Antes da mudança, o log do kernel era spam com falhas. Também tentei ligar o sistema antes e depois da mudança. Parece ser bastante persistente.
fonte
Procure no manual da placa mãe por "AER". Você pode eliminar a origem do problema, corrigindo a incompatibilidade específica ou desativando o AER completamente. Use-o somente se todo o spam de erro disser respeito a erros corrigidos ; caso contrário, você poderá estar ocultando um problema real.
fonte