Что вызывает это? pcieport 0000: 00: 03.0: Ошибка шины PCIe: AER / Bad TLP

20

Я вижу сообщения об ошибках, подобные этим ниже:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Это приведет к снижению производительности, даже если они (до сих пор) были исправлены. Очевидно, что эта проблема должна быть решена. Тем не менее, я не могу найти много об этом в Интернете. (Может быть, я смотрю не в том месте.) Я нашел только несколько ссылок, которые я опубликую ниже.

Кто-нибудь знает больше об этих ошибках?

Это материнская плата, Samsung 950 Pro или GPU (или какая-то их комбинация)?

Аппаратное обеспечение: Asus X99 Deluxe II Samsung 950 Pro NVMe в M2. слот на мб (который разделяет порт PCIe 3). Больше ничего не подключено к порту PCIe 3. GeForce GTX 1070 в слоте PCIe 1 Core i7 6850K CPU

В нескольких ссылках, которые я нашел, упоминается одно и то же оборудование (X99 Deluxe II mb и Samsung950 Pro). Я использую Arch Linux.

Я не нахожу строку "8086: 6f08" ни в журнале, ни где-либо еще, где я думал искать.

странное сообщение об ошибке с nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: ваша карта молча борется с ретрансляцией TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 выдает плохие ошибки шины TLP PCIe - GeForce Forums https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

драйверы - Ошибка PCIe в журнале dmesg - Задайте вопрос Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log

780Ti X99 hard lock - ошибки PCIE - Форумы разработчиков NVIDIA https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

MountainX для Моники Челлио
источник
я переместил 710 от GTX - го PCIe x16 слота для слота x1 (ASUS премьер - B450-плюс, ryzen 5 3600, Samsung nvme 970)
trants

Ответы:

23

Я могу дать хотя бы несколько подробностей, хотя я не могу полностью объяснить, что происходит.

Как описано, например, здесь , CPU обменивается данными с контроллером шины PCIe пакетами уровня транзакций (TLP). Аппаратное обеспечение обнаруживает неисправности, и ядро ​​Linux сообщает об этом в виде сообщений.

Опция ядра pci=nommconfотключает Memory-Mapped PCI Configuration Space, которая доступна в Linux начиная с ядра 2.6. Грубо говоря, все PCI-устройства имеют область, которая описывает это устройство (которое вы видите lspci -vv), и первоначально метод доступа к этой области предполагает прохождение через порты ввода-вывода, в то время как PCIe позволяет отображать это пространство в памяти для более простого доступа.

Это означает, что в данном конкретном случае что-то идет не так, когда контроллер PCIe использует этот метод для доступа к пространству конфигурации конкретного устройства. Это может быть аппаратная ошибка в устройстве, в корневом контроллере PCIe на материнской плате, в конкретном взаимодействии этих двух или что-то еще.

При использовании pci=nommconfк пространству конфигурации всех устройств будет обращаться оригинальным способом, и изменение методов доступа обходит эту проблему. Так что, если вы хотите, это и решает, и подавляет это.

dirkt
источник
Могу ли я узнать, это моя проблема с материнской платой? Или моя проблема с процессором. Должен ли я изменить их?
user10024395
@ user2675516: Это не связано с процессором. Это проблема корневого контроллера PCIe (который часто находится в южном мосту) и / или контроллера PCIe устройства, или их взаимодействия. Да, замена материнской платы на другую с другим оборудованием обычно избавляет от нее.
dirkt
Я перешел с asus e-ws на asus deluxe, но проблема все еще сохраняется. Вот почему я подозреваю, что это процессор. Или это потому, что оба чипсета X99?
user10024395
1
@ user2675516: Если чипсет такой же, esp. контроллер PCIe, то замена материнской платы, конечно, не поможет. Вот почему я написал «материнская плата с другим оборудованием ».
dirkt
для меня общим фактором, похоже, является материнская плата с чипсетом X99
MountainX для Monica
3

Добавление опции командной строки ядра pci=nommconfрешило проблему для меня. Поэтому я предполагаю, что проблема связана с материнской платой. Это происходит на всех моих компьютерах с материнской платой X99. Это не происходит в системах Z170 или любом другом оборудовании, которое у меня есть.

MountainX для Моники Челлио
источник
1
Привет, я тоже сталкиваюсь с этой проблемой. Могу ли я узнать, что делает pci-nommconf? Это просто подавление проблемы или ее решение?
user10024395
Не могу подтвердить - получаю ошибку на z170i, работает arch 4.13.12
sitilge
@sitilge - спасибо за ваш комментарий. Какой бренд / модель z170i? Мои материнские платы Asus. Одним из них является X99 Deluxe II
MountainX для Моники
Это Asus Z170i Pro для игр.
sitilge
3

Попробуйте это шаги:

  1. cp /etc/default/grub ~/Desktop
  2. Редактировать личинку. Добавьте pci=noaerв конце GRUB_CMDLINE_LINUX_DEFAULT. Линия будет выглядеть так:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. Перезагрузить сейчас
Этешам
источник
Я применил ваше решение, но вместо того, чтобы pci=noaerиспользовать pci=nommconfкак предложено @dirkt
user3405291
Спасибо, pci = noaer исправил мою проблему slackware 14.2x64, установленную на ноутбуке hp (при установке на компьютере эта проблема вообще не
возникала
7
Не могли бы вы немного уточнить? Что делает этот вариант и как вы ожидаете, что он решит проблему?
Calimo
Почему бы вам просто не использовать sudoeditдля безопасного редактирования? -1 для этих копий здесь и там шаги полная ерунда
LinuxSecurityFreak
4
pci=noaerпросто отключает расширенные отчеты об ошибках. Таким образом, у вас все еще есть эти ошибки, вы просто не видите их ...
Диркт
2

Я получаю те же ошибки (Bad TLP, связанный с устройством 8086: 6f08). У меня X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Эти проблемы, кажется, связаны с чипсетом X99 и устройством M.2, таким как Samsung Pro.

Материнская плата X99 Deluxe II разделяет пропускную способность между слотом PCIE16_3 и M.2 / U.2. Следуя комментарию @Nic, в BIOS я изменил конфигурацию встроенных устройств | U.2_2 Пропускная способность от Авто до U.2_2. Это решило проблему для меня.

user1759557
источник
Как вы определили, что это именно тот чипсет? Пробовал любой другой чипсет? Это происходит на самых разных аппаратных средствах.
doug65536
2

Я изменил конфигурацию слота PCIE16_3 в Bios на моем x99-E, чтобы он был статическим, установленным в режим x8 вместо автоматического, который используется по умолчанию для поддержки устройств M.2. Теперь работает нормально, без ошибок TLP на обеих моих картах 1070GTX, подключенных через платы расширения PCIe 1x к 16x.

Сначала я не использовал порт 16_3, переехал в этот слот для тестирования, но все еще были проблемы до изменения в BIOS. Также изменил настройку bsleep для всех карт на 30 в конфиге майнера.

Перед изменением у меня был спам в журнале ядра с ошибками. Также попытался перезагрузить систему до и после изменения. Кажется довольно настойчивым.

Nic
источник
2

Найдите в руководстве по материнской плате "AER". Вы можете устранить источник проблемы, исправив конкретную несовместимость или вообще отключив AER. Используйте его только в том случае, если спам, связанный с ошибками, касается исправленных ошибок, в противном случае вы можете скрывать фактическую проблему.

N3V3N
источник