Что такое «дедупликация»?

8

Я имею в виду, я могу посмотреть определение словаря, но почему все вдруг говорят об этом в отношении виртуальных ленточных библиотек? Что здесь нового, что так много в новостях за последнее время?

Лавинио
источник

Ответы:

14

Дедупликация - это место, где вы просматриваете содержимое набора данных, отмечаете все присутствующие дублирующиеся биты и сохраняете данные только один раз, заменяя все эти иные копии данных указателем на одну копию. Это особенно полезно при резервном копировании, потому что при резервном копировании таких вещей, как серверы, большая часть данных остается одинаковой. Представьте, например, что вы создаете резервную копию 1000 серверов Windows - большая часть содержимого этих блоков будет идентичной.

Дедупликация сегодня так популярна по 3 причинам:

  1. В последнее время все одержимы созданием решений для аварийного восстановления, которые используют сторонние серверы. Для этого вам нужно скопировать много производственных данных на удаленный сайт, и пропускная способность является огромной проблемой. Любое сокращение количества данных, которые вы должны копировать, очень помогает.

  2. Количество данных, которые компании хранят, стремительно растет - благодаря более дешевым хранилищам и многопрофильным требованиям к хранению записей.

  3. Технология сравнительно недавно попала в сладкое место. У нас были такие вещи, как дедупликация в течение длительного времени (хранилище одного экземпляра и т. Д.), Который помог, но только в прошлом году или около того мы видели реальную дедупликацию, которая может значительно уменьшить объем хранилища, попавший в основной поток.

icky3000
источник
2
Я также хотел бы добавить, что стоимость решений для дублирования снижается, поэтому поставщикам легче продавать свои преимущества - и если их легче продавать, поставщики будут говорить об этом больше ... Я не заметил обсуждения, конкретно касающегося виртуальной ленты. библиотеки по сравнению с другими методами резервного копирования, но я думаю, что это возможность продать преимущества обоих вместе.
Уильям
1
@William: Да, именно, я хотел сказать о части затрат, когда сказал «сладкое пятно», но не прояснил это, так что спасибо, что указал на это. Конечно, стоимость стала настолько низкой, что многие из нас могут найти дедуплицирующее решение, которое мы действительно можем себе позволить.
icky3000
0

Одна из вещей, которую мы выяснили в моей компании при работе с Netapp, заключается в том, что дедупликация действительно хорошо работает только в среде виртуальных машин, если вы настроили диски. Что является проблемой для нас, так как у нас много машин с Windows Server 2003, и ни один из дисков не выровнен. Это означает, что вы едва восстанавливаете примерно четверть возможного пространства, если диски правильно выровнены.

Нам говорят, однако, что, как только диски выровнены правильно, мы сможем восстановить 40-60% нашего пространства обратно с дедупликацией.

Полотна
источник
Это проблема конкретной реализации NetApp, которая использует (по другим вполне понятным причинам) статические блоки размером 4 КБ. Альтернативой могут быть куски определенного размера, которые не требуют хорошего выравнивания.
Дмейстер