dd: Как рассчитать оптимальный размер блока? [закрыто]

122

Как рассчитать оптимальный размер блока при запуске dd? Я немного исследовал это и не нашел ничего, что подсказывало бы, как это можно сделать.

У меня сложилось впечатление, что чем больше размер блока, тем быстрее dd... это правда?

Я собираюсь использовать ddдва идентичных жестких диска Hitachi емкостью 500 ГБ, которые работают со скоростью 7200 об / мин на коробке с Intel Core i3 с 4 ГБ DDR3 1333 МГц RAM, поэтому я пытаюсь выяснить, какой размер блока использовать. (Я собираюсь загрузить Ubuntu 10.10 x86 с флеш-накопителя и запустить его с него.)

eckza
источник
Принят ответ @ tdg5 для macOS - macos_dd_ibs_test.sh и macos_dd_obs_test.sh
mixel
1
Лучшим ответом было бы добавить функцию для ddнахождения оптимального размера блока при передаче файла
Борис
Почему это было помечено как не по теме и не перенесено на суперпользователя?
user267092 07

Ответы:

95

Оптимальный размер блока зависит от различных факторов, включая операционную систему (и ее версию), а также различные задействованные аппаратные шины и диски. Несколько Unix-подобных систем (включая Linux и, по крайней мере, некоторые разновидности BSD) определяют st_blksizeчлен в классе, struct statкоторый дает то, что ядро ​​считает оптимальным размером блока:

#include <sys/stat.h>
#include <stdio.h>

int main(void)
{
    struct stat stats;

    if (!stat("/", &stats))
    {
        printf("%u\n", stats.st_blksize);
    }
}

Лучше всего поэкспериментировать: скопировать гигабайт с разными размерами блока и временем этого. (Не забывайте очищать кеш буфера ядра перед каждым запуском :) echo 3 > /proc/sys/vm/drop_caches.

Однако, как показывает опыт, я обнаружил, что достаточно большой размер блока позволяет ddхорошо выполнять свою работу, а разница между, скажем, 64 КиБ и 1 МиБ незначительна, по сравнению с 4 КиБ против 64 КиБ. (Хотя, по общему признанию, прошло много времени с тех пор, как я это сделал. Сейчас я использую мебибайт по умолчанию или просто позволяю ddвыбирать размер.)

Boiethios
источник
11
Мне очень жаль, что я не принял это как ответ ... спасибо!
eckza 01
Отличный момент о том, чтобы не забыть сбросить кеши Это испортило мои измерения! (Хотя небольшая проблема: это "drop_caches" с подчеркиванием. Очевидно, редактирование должно содержать не менее 6 символов ... :()
Том
73

Как говорили другие, не существует универсально правильного размера блока; что оптимально для одной ситуации, или одно оборудование может быть ужасно неэффективным для другой. Кроме того, в зависимости от состояния дисков может быть предпочтительнее использовать размер блока, отличный от «оптимального».

Одна вещь, которая является довольно надежной на современном оборудовании, заключается в том, что размер блока по умолчанию в 512 байтов, как правило, почти на порядок медленнее, чем более оптимальная альтернатива. Если вы сомневаетесь, я обнаружил, что 64K - довольно надежный современный стандарт по умолчанию. Хотя 64 КБ обычно не является оптимальным размером блока, по моему опыту, он имеет тенденцию быть намного более эффективным, чем значение по умолчанию. 64K также имеет довольно солидную историю надежной производительности: вы можете найти сообщение в списке рассылки Eug-Lug, примерно в 2002 году, рекомендующее размер блока 64K здесь: http://www.mail-archive.com/eug- lug@efn.org/msg12073.html

Для определения оптимального размера выходного блока я написал следующий скрипт, который тестирует запись 128-мегабайтного тестового файла с dd в диапазоне различных размеров блока, от 512 байт по умолчанию до 64 мегабайт. Имейте в виду, что этот скрипт внутренне использует dd, поэтому используйте его с осторожностью.

dd_obs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_obs_testfile}
TEST_FILE_EXISTS=0
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=1; fi
TEST_FILE_SIZE=134217728

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Calculate number of segments required to copy
  COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))

  if [ $COUNT -le 0 ]; then
    echo "Block size of $BLOCK_SIZE estimated to require $COUNT blocks, aborting further tests."
    break
  fi

  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Create a test file with the specified block size
  DD_RESULT=$(dd if=/dev/zero of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync 2>&1 1>/dev/null)

  # Extract the transfer rate from dd's STDERR output
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  # Clean up the test file if we created one
  if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

  # Output the result
  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

Посмотреть на GitHub

Я тестировал этот сценарий только в системе Debian (Ubuntu) и OSX Yosemite, поэтому, вероятно, потребуется некоторая настройка, чтобы он работал с другими версиями Unix.

По умолчанию команда создаст тестовый файл с именем dd_obs_testfile в текущем каталоге. В качестве альтернативы вы можете указать путь к пользовательскому файлу теста, указав путь после имени скрипта:

$ ./dd_obs_test.sh /path/to/disk/test_file

Результатом скрипта является список протестированных размеров блоков и их соответствующих скоростей передачи, например:

$ ./dd_obs_test.sh
block size : transfer rate
       512 : 11.3 MB/s
      1024 : 22.1 MB/s
      2048 : 42.3 MB/s
      4096 : 75.2 MB/s
      8192 : 90.7 MB/s
     16384 : 101 MB/s
     32768 : 104 MB/s
     65536 : 108 MB/s
    131072 : 113 MB/s
    262144 : 112 MB/s
    524288 : 133 MB/s
   1048576 : 125 MB/s
   2097152 : 113 MB/s
   4194304 : 106 MB/s
   8388608 : 107 MB/s
  16777216 : 110 MB/s
  33554432 : 119 MB/s
  67108864 : 134 MB/s

(Примечание: единицы скорости передачи зависят от ОС)

Чтобы проверить оптимальный размер блока чтения, вы можете использовать более или менее тот же процесс, но вместо чтения из / dev / zero и записи на диск вы должны читать с диска и писать в / dev / null. Скрипт для этого может выглядеть так:

dd_ibs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_ibs_testfile}
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=$?; fi
TEST_FILE_SIZE=134217728

# Exit if file exists
if [ -e $TEST_FILE ]; then
  echo "Test file $TEST_FILE exists, aborting."
  exit 1
fi
TEST_FILE_EXISTS=1

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Create test file
echo 'Generating test file...'
BLOCK_SIZE=65536
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
dd if=/dev/urandom of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync > /dev/null 2>&1

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Read test file out to /dev/null with specified block size
  DD_RESULT=$(dd if=$TEST_FILE of=/dev/null bs=$BLOCK_SIZE 2>&1 1>/dev/null)

  # Extract transfer rate
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

Посмотреть на GitHub

Важным отличием в этом случае является то, что тестовый файл - это файл, записываемый сценарием. Не указывайте этой командой существующий файл, иначе существующий файл будет перезаписан нулями!

Для моего конкретного оборудования я обнаружил, что 128 КБ был наиболее оптимальным размером входного блока на жестком диске, а 32 КБ был наиболее оптимальным для SSD.

Хотя этот ответ охватывает большинство моих выводов, я сталкивался с этой ситуацией достаточно раз, чтобы написать об этом сообщение в блоге: http://blog.tdg5.com/tuning-dd-block-size/ Вы можете найти больше подробностей о тестах, которые я там проводил.

tdg5
источник
1
Я запустил второй сценарий, проверяя производительность чтения, на rMBP 2015 года с твердотельным накопителем 512 ГБ. Оптимальный размер блока был 8388608: 3,582 ГБ / сек.
Куинн Комендант 01
1
ИСПРАВЛЕНИЕ: я запустил второй скрипт, тестируя производительность чтения, на rMBP 2015 года с твердотельным накопителем емкостью 512 ГБ. Лучший размер блока - 524288 (5,754 ГБ / сек). Второй по величине размер блока составил 131072 (5,133 ГБ / сек). (Я неправильно отсортировал результаты при генерации значений для моего последнего комментария.)
Куинн Комендант 01
Ибо dd_obs_test.sh conv=fsyncне работает на macOS и может быть удален.
Рыноп
По моему опыту, для тестирования больших размеров блоков требуется более крупный образец, чтобы быть точным (несколько секунд. Я предполагаю, что файл размером 128 МБ должен выдержать это, но я не уверен). Не знаю почему.
Рольф
2
Чувак! Какой замечательный ответ. Это как найти золотую жилу, выкопать тонну земли, а затем обработать ее, чтобы найти ЗОЛОТОЙ САД, который я хотел: 64K Большое спасибо.
SDsolar
11

Я обнаружил, что мой оптимальный размер блока составляет 8 МБ (равный кешу диска?). Мне нужно было стереть (некоторые говорят: промыть) пустое пространство на диске перед созданием его сжатого изображения. Я использовал:

cd /media/DiskToWash/
dd if=/dev/zero of=zero bs=8M; rm zero

Я экспериментировал со значениями от 4K до 100M.

После того, как dd поработал какое-то время, я убил его (Ctrl + C) и прочитал вывод:

36+0 records in
36+0 records out
301989888 bytes (302 MB) copied, 15.8341 s, 19.1 MB/s

Поскольку dd отображает скорость ввода / вывода (в данном случае 19,1 МБ / с), легко увидеть, работает ли выбранное вами значение лучше, чем предыдущее, или хуже.

Мои оценки:

bs=   I/O rate
---------------
4K    13.5 MB/s
64K   18.3 MB/s
8M    19.1 MB/s <--- winner!
10M   19.0 MB/s
20M   18.6 MB/s
100M  18.6 MB/s   

Примечание. Чтобы проверить размер вашего дискового кеша / буфера, вы можете использовать sudo hdparm -i /dev/sda

unfa
источник
4
Вы запускали каждый тест только один раз? Я думаю, что вы можете увидеть из ≥64K, что буфер уже заполнен, а разница - просто случайная дисперсия.
Mads Y
Однажды я слышал, что большие ценности могут стать узким местом в системе. Человек работал с большим файлом. Было бы хорошо, если бы я мог больше узнать об этом.
Тодд Партридж
1
Мой опыт тоже показывает, что 8Mэто сложно превзойти.
Шридхар Сарнобат
Интересный. Как вы думаете, связано это с размером кэша L3 или нет? Мне интересно, будет ли размер блоков больше, чем кеш L3, работать медленнее.
SurpriseDog
3

Это полностью зависит от системы. Вам следует поэкспериментировать, чтобы найти оптимальное решение. Попробуйте начать с bs=8388608. (Поскольку жесткие диски Hitachi имеют кэш 8 МБ.)

ssapkota
источник
5
многие версии dd допускают сокращение: например, bs=8Mна GNU / Linux или bs=8mна BSD
паскаль
4
lol, думала, ты собираешься сказать: «Попробуйте начинать с bs=8388608и
уменьшать
1
  • для лучшей производительности используйте самый большой размер блока, который может вместить ОЗУ (будет отправлять меньше вызовов ввода-вывода в ОС)
  • для большей точности и восстановления данных установите размер блока равным собственному размеру сектора входа

Поскольку dd копирует данные с параметром conv = noerror, sync, любые обнаруженные ошибки приведут к замене оставшейся части блока нулевыми байтами. Блоки большего размера будут копироваться быстрее, но каждый раз, когда обнаруживается ошибка, остальная часть блока игнорируется.

источник

eadmaster
источник
1
Я думаю , что если есть какая - либо ошибка записи , вы должны заменить среду, не изменить размер блока ...
unfa