Кто-нибудь может дать мне приблизительное время (в наносекундах) для доступа к кэшам L1, L2 и L3, а также к основной памяти на процессорах Intel i7?
Хотя это не вопрос программирования, знание таких подробностей о скорости необходимо для некоторых задач программирования с малой задержкой.
memory
latency
cpu-cache
low-latency
Тед Грэм
источник
источник
Ответы:
Вот руководство по анализу производительности для ряда процессоров i7 и Xeon. Я должен подчеркнуть, что это имеет то, что вам нужно, и даже больше (например, проверьте страницу 22 для некоторых таймингов и циклов, например).
Кроме того, на этой странице есть некоторые подробности о тактах и т. Д. Вторая ссылка обслуживала следующие номера:
EDIT2
:Наиболее важным является уведомление цитируемого стола, говоря:
РЕДАКТИРОВАТЬ: Я должен подчеркнуть, что, наряду с информацией о времени / цикле, вышеупомянутый документ Intel рассматривает гораздо более (чрезвычайно) полезные детали процессоров i7 и Xeon (с точки зрения производительности).
источник
Числа, которые должен знать каждый
От: Первоначально Питер Норвиг:
- http://norvig.com/21-days.html#answers
- http://surana.wordpress.com/2009/01/01/numbers-everyone-should-know/ ,
- http://sites.google.com/site/io/building-scalable-web-applications-with-google-app-engine
источник
Стоимость доступа к различным воспоминаниям на красивой странице
Резюме
Значения снизились, но стабилизируются с 2005 года
Еще некоторые улучшения, прогноз на 2020 год
Смотрите также другие источники
Старое, но все же отличное глубокое объяснение взаимодействия памяти и программного обеспечения.
Смотрите также
Для дальнейшего понимания я рекомендую великолепную презентацию современных архитектур кэша (июнь 2014 г.) от Герхарда Веллайна , Ханнеса Хофманна и Дитмара Фея из Университета Эрланген-Нюрнберг .
Франкоязычные люди могут по достоинству оценить статью SpaceFox, в которой сравниваются процессор и разработчик, ожидающие информации, необходимой для продолжения работы.
источник
[A]
размещенные ниже.Просто ради обзора 2020 года прогнозов на 2025 год:
Последние около 44 лет технологии интегральных микросхем классические (не квантовые) процессоры развивались буквально и физически "Per Aspera ad Astra" . Последнее десятилетие свидетельствует, что классический процесс приблизился к некоторым препятствиям, которые не имеют достижимого физического пути вперед.
Number of logical cores
может и может расти, но не более, чем трудно, если не невозможно обойти физический потолок, который уже ударил, может и может расти, но может расти меньше, чем (мощность, шум, «часы») , но проблемы с распределением мощности и тепловыделением будет увеличиваться, может расти, имея прямые выгоды от больших объемов кэша и более быстрых и широких операций ввода-вывода памяти и косвенных преимуществ от менее частого принудительного переключения контекста системы, поскольку у нас может быть больше ядер для разделения других потоков / процессов междуO(n^2~3)
Frequency [MHz]
Transistor Count
O(n^2~3)
Power [W]
Single Thread Perf
(Кредиты идут Леонардо Суриано и Карлу Руппу)
Только ради обзора прогнозов на 2020 год на 2015 год:
Просто для сравнения времени ожидания CPU и GPU:
Непростая задача сравнить даже самые простые цепочки CPU / cache / DRAM (даже в унифицированной модели доступа к памяти), где DRAM-скорость является фактором, определяющим задержку, и загруженную задержку (насыщенная система), где последняя управляет и является что-то, что корпоративные приложения будут испытывать больше, чем просто бездействующая система.
GPU-движки получили много технического маркетинга, в то время как глубокие внутренние зависимости являются ключом к пониманию как реальных, так и реальных недостатков, с которыми сталкиваются эти архитектуры на практике (как правило, сильно отличающихся от агрессивных маркетинговых ожиданий).
Понимание внутренних особенностей, таким образом, гораздо важнее, чем в других областях, где публикуются архитектуры и свободно доступны многочисленные тесты. Большое спасибо микро-тестерам GPU, которые потратили свое время и творческий потенциал, чтобы раскрыть правду о реальных схемах работы в рамках «черного ящика», протестированных GPU-устройств.
Приношу свои извинения за «большую картину», но у демакции задержки также есть кардинальные ограничения, налагаемые на встроенные емкости smREG / L1 / L2 и коэффициенты попаданий / промахов.
Суть?
Любой мотивированный проект с малой задержкой должен скорее перепроектировать «гидравлику ввода / вывода» (поскольку 0 1-XFER несжимаемы по своей природе), и результирующие задержки определяют ограничение производительности для любого решения GPGPU, будь то интенсивное вычисление ( читай : там, где затраты на обработку немного превышают XFER с малой задержкой ...) или нет ( читай : где (может быть, кого-то удивит) ЦП быстрее в сквозной обработке, чем матрицы GPU [цитаты доступны] ).
источник
Посмотрите на этот «лестничный» сюжет, отлично иллюстрирующий разное время доступа (с точки зрения тактов часов). Обратите внимание, что красный процессор имеет дополнительный «шаг», возможно потому, что у него L4 (в то время как у других его нет).
Взято из этой статьи Extremetech.
В информатике это называется «сложность ввода / вывода».
источник