Невероятно медленное удаление снимка

13

У меня есть коробка ESXi с хранилищем HP LeftHand, доступным через iSCSI.

У меня есть виртуальная машина с диском 1 ТБ, из которых 800 ГБ потребляется. Диск плотно размещен на хранилище LeftHand.

На ВМ был открыт моментальный снимок (чтобы Veeam Backup and Recovery мог это сделать), и он был открыт около 6 часов. За это время был создан дельта-диск объемом около 5 ГБ.

Удаление снимка заняло более 5 часов, но все еще не завершено. Массив хранения данных сообщает практически об отсутствии операций ввода-вывода в этом массиве (около 600, что является фоновым шумом), об отсутствии пропускной способности (около 8 МБ / с, что опять же - фоновый шум), средней глубине очереди 9.

Другими словами, процесс консолидации моментальных снимков, кажется, не связан с вводом-выводом, я не вижу ничего, что делает удаление моментальных снимков чертовски медленным. Это будет работать, если судить, наблюдая файлы дельта.

Что-нибудь еще, что я должен рассмотреть относительно того, почему этот (относительно маленький) снимок так медленно удаляется?


Что касается документации VMWare , я смотрю ls -lh | grep -E "delta|flat|sesparse"прямо сейчас и вижу два дельта-файла, которые меняются:

-rw-------    1 root     root      194.0M Jun 15 01:28 EXAMPLE-000001-delta.vmdk
-rw-------    1 root     root      274.0M Jun 15 01:27 EXAMPLE-000002-delta.vmdk

Я полагаю, что один файл моментального снимка консолидируется, а другой собирает дельту в процессе консолидации. Затем новая консолидируется, и в ходе этого процесса создается другая дельта.

Размеры файлов будут падать с каждой итерации (ну, большинство итераций), поэтому я полагаю , что в конечном счете эта процедура консолидации будет завершена (возможно , мне придется взять виртуальную машину от сети в течение 30 минут , чтобы это закончить , не создавая каких - либо изменений) ,

Для консолидации требуется около 2 минут на сотню мегапикселей. Это, конечно, никогда не случалось раньше. Удаление снимка при обычном резервном копировании Veeam занимает около 40 минут (поэтому, конечно, не быстро, но не так медленно).


Через 6 часов и 2 минуты снимок окончательно удаляется. Однако я все еще хотел бы знать, есть ли какой-либо способ, которым вы обычно решаете проблемы такого рода (за пределами производительности хранилища).

Марк Хендерсон
источник
Я не могу не заметить, что скорость 8 Мбит / с довольно близка к скорости 10 Мбит / с за вычетом некоторых накладных расходов. Есть ли шанс, что это связано с сетью на канале iSCSI - хитрый патч-лидер только начинает отказывать? Является ли это единственной ссылкой, одним хостом, в противном случае хост выполняет нормально для устойчивых операций чтения / записи? Можете ли вы проверить порт коммутатора на наличие ошибок?
TessellatingHeckler
@TessellatingHeckler Я только что провел несколько тестов, и я все еще могу получить скорость около 1,5 Гбит / с из массива, что я и ожидал бы получить от него в обычных условиях. Прошлой ночью снятие снимка заняло три минуты, что является самым быстрым, что я когда- либо видел (обычно это примерно в 10 раз больше, но прошлой ночью здесь была большая футбольная игра, поэтому я подозреваю, что никто не использовал системы в нерабочее время когда выполняются резервные копии, отсюда крошечная дельта и небольшое время фиксации). Так что он может сделать это быстро, только один раз этого не произошло.
Марк Хендерсон
Хм. У вас запущен VMware Storage IO Control, и используется ли хранилище данных совместно с другими виртуальными машинами? Есть ли какой-то шанс, что он достигнет некоторого ограничения / мягкого ограничения, без нагрузки на хост или оборудование SAN?
TessellatingHeckler
Версия ESXi и vCenter?
Нильс
@Nils 5.5 для обоих
Марк Хендерсон

Ответы:

2

Насколько я понимаю, удаление снимка ESXI может (и обычно) занимает много времени. Прежде чем снимок удастся удалить, изменения старого снимка необходимо записать в следующий снимок по порядку. Меня учили всегда удалять моментальные снимки от самых старых до самых последних, чтобы этот процесс работал максимально быстро и эффективно.

Естественно, чем больше изменений между снимками, тем больше времени займет слияние.

Эндрю Мейер
источник
1
Правильно, кроме 6 часов, снимать 5Гб снимок абсурдно. Как я уже говорил, снятие снимка обычно занимает около 40 минут, и я даже чувствую, что 40 минут слишком чертовски медленно. Это был единственный снимок на этой виртуальной машине, а также удаление снимков изменилось в более поздних версиях ESXi в том смысле, что порядок их удаления не имеет большого значения.
Марк Хендерсон
2
Раньше я видел поведение медленного снимка с небольшим вводом-выводом в хранилище, но никогда не отследил его до причины. Я всегда просто предполагал, что гипервизор жует дельты в памяти. (На рассматриваемых машинах использовалось хранилище с прямым подключением, или я мог бы также посмотреть на проблемы с SAN, но я всегда относил это к большим ошибкам или неоптимизированному коду в подсистеме моментальных снимков VMWare).
voretaq7