Я вижу сообщения об ошибках, подобные этим ниже:
Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer,
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0:
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP
Это приведет к снижению производительности, даже если они (до сих пор) были исправлены. Очевидно, что эта проблема должна быть решена. Тем не менее, я не могу найти много об этом в Интернете. (Может быть, я смотрю не в том месте.) Я нашел только несколько ссылок, которые я опубликую ниже.
Кто-нибудь знает больше об этих ошибках?
Это материнская плата, Samsung 950 Pro или GPU (или какая-то их комбинация)?
Аппаратное обеспечение: Asus X99 Deluxe II Samsung 950 Pro NVMe в M2. слот на мб (который разделяет порт PCIe 3). Больше ничего не подключено к порту PCIe 3. GeForce GTX 1070 в слоте PCIe 1 Core i7 6850K CPU
В нескольких ссылках, которые я нашел, упоминается одно и то же оборудование (X99 Deluxe II mb и Samsung950 Pro). Я использую Arch Linux.
Я не нахожу строку "8086: 6f08" ни в журнале, ни где-либо еще, где я думал искать.
странное сообщение об ошибке с nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/
PCIe: ваша карта молча борется с ретрансляцией TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/
GTX 1080 выдает плохие ошибки шины TLP PCIe - GeForce Forums https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/
драйверы - Ошибка PCIe в журнале dmesg - Задайте вопрос Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log
780Ti X99 hard lock - ошибки PCIE - Форумы разработчиков NVIDIA https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/
Ответы:
Я могу дать хотя бы несколько подробностей, хотя я не могу полностью объяснить, что происходит.
Как описано, например, здесь , CPU обменивается данными с контроллером шины PCIe пакетами уровня транзакций (TLP). Аппаратное обеспечение обнаруживает неисправности, и ядро Linux сообщает об этом в виде сообщений.
Опция ядра
pci=nommconf
отключает Memory-Mapped PCI Configuration Space, которая доступна в Linux начиная с ядра 2.6. Грубо говоря, все PCI-устройства имеют область, которая описывает это устройство (которое вы видитеlspci -vv
), и первоначально метод доступа к этой области предполагает прохождение через порты ввода-вывода, в то время как PCIe позволяет отображать это пространство в памяти для более простого доступа.Это означает, что в данном конкретном случае что-то идет не так, когда контроллер PCIe использует этот метод для доступа к пространству конфигурации конкретного устройства. Это может быть аппаратная ошибка в устройстве, в корневом контроллере PCIe на материнской плате, в конкретном взаимодействии этих двух или что-то еще.
При использовании
pci=nommconf
к пространству конфигурации всех устройств будет обращаться оригинальным способом, и изменение методов доступа обходит эту проблему. Так что, если вы хотите, это и решает, и подавляет это.источник
Добавление опции командной строки ядра
pci=nommconf
решило проблему для меня. Поэтому я предполагаю, что проблема связана с материнской платой. Это происходит на всех моих компьютерах с материнской платой X99. Это не происходит в системах Z170 или любом другом оборудовании, которое у меня есть.источник
Попробуйте это шаги:
cp /etc/default/grub ~/Desktop
Редактировать личинку. Добавьте
pci=noaer
в концеGRUB_CMDLINE_LINUX_DEFAULT
. Линия будет выглядеть так:sudo cp ~/Desktop/grub /etc/default/
sudo update-grub
источник
pci=noaer
использоватьpci=nommconf
как предложено @dirktsudoedit
для безопасного редактирования? -1 для этих копий здесь и там шаги полная ерундаpci=noaer
просто отключает расширенные отчеты об ошибках. Таким образом, у вас все еще есть эти ошибки, вы просто не видите их ...Я получаю те же ошибки (Bad TLP, связанный с устройством 8086: 6f08). У меня X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Эти проблемы, кажется, связаны с чипсетом X99 и устройством M.2, таким как Samsung Pro.
Материнская плата X99 Deluxe II разделяет пропускную способность между слотом PCIE16_3 и M.2 / U.2. Следуя комментарию @Nic, в BIOS я изменил конфигурацию встроенных устройств | U.2_2 Пропускная способность от Авто до U.2_2. Это решило проблему для меня.
источник
Я изменил конфигурацию слота PCIE16_3 в Bios на моем x99-E, чтобы он был статическим, установленным в режим x8 вместо автоматического, который используется по умолчанию для поддержки устройств M.2. Теперь работает нормально, без ошибок TLP на обеих моих картах 1070GTX, подключенных через платы расширения PCIe 1x к 16x.
Сначала я не использовал порт 16_3, переехал в этот слот для тестирования, но все еще были проблемы до изменения в BIOS. Также изменил настройку bsleep для всех карт на 30 в конфиге майнера.
Перед изменением у меня был спам в журнале ядра с ошибками. Также попытался перезагрузить систему до и после изменения. Кажется довольно настойчивым.
источник
Найдите в руководстве по материнской плате "AER". Вы можете устранить источник проблемы, исправив конкретную несовместимость или вообще отключив AER. Используйте его только в том случае, если спам, связанный с ошибками, касается исправленных ошибок, в противном случае вы можете скрывать фактическую проблему.
источник