Как измеряется скорость диска и какая скорость? Сколько времени займет копия 1500 ГБ?

11

Как измеряется скорость диска? Это мбит или мегабайт в секунду чтения? Что сегодня в среднем, а что быстро и что очень быстро в отрасли?

Допустим, кто-то говорит, что создание копии файла размером 1500 ГБ (скажем, файла базы данных) занимает много времени, сколько времени потребуется для профессиональной системы и как можно рассчитать, учитывая скорость жесткого диска. ?

хол
источник

Ответы:

19

Скорость диска обычно измеряется в;

  • Скорость вращения в оборотах в минуту (самая низкая при 4200 об / мин, затем 5400, 7200, 10k и 15k - это не относится к твердотельным накопителям или флэш-памяти).
  • Скорость интерфейса - это самая высокая скорость, с которой электроника дисков может пытаться отправить данные на контроллер диска (они варьируются от 100 Мбит / с ATA до 150/300/600 Мбит / с SATA, 2/4/8/16 Гбит / с Fibre-Channel и даже до скоростей PCIe для флэш-память, такая как FusionIO).
  • Время поиска - это просто время, необходимое для начала чтения или записи определенного сектора диска - оно может варьироваться от 3-15 мс для дисков до небольшой доли этого значения для SSD / флэш-дисков.
  • Затем мы достигаем реальной скорости, которую вы можете ожидать, есть четыре скорости, о которых вы должны заботиться; последовательное чтение (чтение очень большого блока данных), последовательная запись (то же самое, но запись), случайное чтение (получение данных со всего диска) и случайная запись. Они сильно различаются, но для вращающихся дисков вы можете ожидать от 25 МБ / с до 150 МБ / с для последовательного чтения и записи и от 3 МБ / до до 50 МБ / с для случайного чтения и записи. Твердотельные накопители обычно находятся в диапазоне 200 Мбит / с для последовательных и обычно немного меньше для случайных операций. FusionIO может легко набрать 1 Гбит / с для всех, но обычно он небольшой и дорогой.

Как вы можете видеть, реального среднего показателя нет, если вы хотите получить рекомендации относительно того, что покупать, пожалуйста, не стесняйтесь возвращаться к нам с максимально возможной информацией - это должно включать бюджет, тип приложения, размер набора данных, базу пользователей аппаратное обеспечение / ОС плюс все остальное, что вы считаете полезным.

Что касается вашей копии объемом 1,5 ТБ, хорошо, если вы делали это с подключенным к USB 2 диском SATA 7200 об / мин, вы должны получить по крайней мере 30 МБ / с или 40 МБ / с, или на полные 1,5 ТБ может потребоваться более 10 часов. Если бы это была типичная профессиональная система DAS / SAN, я бы ожидал в области 100 Мбит / с, то есть это заняло бы около 3 часов.

Надеюсь, это поможет, ну и просто уточнить, МБ = мегабайт, Мб это мегабит.

Chopper3
источник
8

Есть много, много переменных, участвующих в такого рода вычислениях. Реальные дисковые системы имеют много взаимозависимостей. Просто на одном компьютере:

  • Фактическая номинальная скорость самого привода (обычно об / мин, 5200, 7200, 10K, 15K)
  • Используемая файловая система
  • Используется ли система RAID
    • Если это так, производительность карты RAID
    • Тип RAID
  • Используемая операционная система
  • Операции чтения и записи имеют совершенно разные характеристики производительности
  • Коэффициент чтения / записи для операций
  • Для последовательных операций фактор фрагментации хранилища

Как видите, скорость самого диска - лишь один из многих факторов. Это большой фактор, но все же один из многих. Если эта копия объемом 1,5 ТБ находится на одном и том же диске, то диск (с вероятностью 95%) будет выполнять 100% случайную операцию чтения / записи, что обычно приводит к худшим показателям производительности. Если копия с одного диска на другой, и данные на 100% последовательны, а целевой диск полностью пуст, это должно обеспечить максимально возможную производительность с этой дисковой подсистемой. Реальная производительность будет где-то между этими двумя крайностями.

Если вы копируете между двумя отдельными серверами, здесь задействовано еще больше факторов.

У меня есть массив хранения данных, который может насыщать каналы SAS 3Gb (гигабит) при выполнении в основном последовательных операций. Если бы у меня был 6Gb SAS, он мог бы быть очень близок к насыщению. Для случайного ввода-вывода эта конкретная система работает очень по-разному в зависимости от операционной системы (например, OpenSolaris имел худший случайный ввод-вывод, а Linux XFS - лучший в 3 раза).

Слишком много переменных, чтобы ответить на этот вопрос окончательно.

sysadmin1138
источник
3

Время, необходимое для копирования 1,5 ТБ данных, во многом зависит от типа данных. Если у вас есть несколько 1500 файлов 1 ГБ, это, вероятно, займет всего несколько часов, но если у вас есть полтора миллиарда файлов 1 КБ, это, вероятно, займет несколько дней.

Это связано с двумя конкурирующими характеристиками на дисках: пропускной способностью и средним временем доступа. Традиционный диск с пропускной способностью 100 МБ / с и временем доступа 10 мс довольно распространен. Если вы можете передавать данные последовательно, вы можете получить 100 МБ / с. Однако, если вам нужно прыгнуть в другое место, это займет 10 мс. Если бы вы работали в потоковом режиме, вы могли бы записать 1 МБ данных за время, необходимое для перехода в другое место.

Создание файла может занять несколько попыток, поэтому создание файла размером 1 КБ может стоить столько же, сколько и потоковая передача нескольких МБ данных.

Таким образом, в некоторых случаях лучше делать сырую копию диска блочного устройства, чем копировать в файловую систему с помощью чего-то вроде rsync. Если у вас много файлов, например, в файловой системе, которая заполнена на 50% или более, вам часто лучше просто скопировать полное блочное устройство через «dd», так как это занимает много времени. Конечно, вы не можете сделать это, пока смонтирована файловая система, поэтому у этого также есть недостатки.

Твердотельные накопители могут помочь смягчить это, потому что их время доступа примерно в 100 раз меньше, но накопители MLC SSD имеют сложные проблемы с доступом в зависимости от доступности пула предварительно стертых блоков. SLC SSD могут помочь в этом.

Контроллеры RAID со встроенным кешем могут помочь в поиске, как и модуль ядра flashcache, который позволяет вам кешировать блочное устройство через SSD.

Системы RAID могут обеспечивать несколько параллельных поисков, эффективно сокращая среднее время доступа, а также распараллеливание для увеличения пропускной способности. Но ваша общая производительность часто зависит от того, сколько файлов задействовано.

Шон Рейфшнайдер
источник