Журнал о компьютерных сетях и телекоммуникационных технологиях
СЕТИ И СИСТЕМЫ СВЯЗИ on-line
  ПОИСК:
    Домой
 
   
АРХИВ ЖУРНАЛА
   

2008: 1 2 3 4 5 6 7 8 9 10 11 12 13
2007: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2006: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2005: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2004: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2003: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2002: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2001: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2000: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
1999: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1998: 1 2 3 4 5 6 7 8 9 10 11 12
1997: 1 2 3 4 5 6 7 8 9 10 11 12
1996: 1 2 3 4 5 6 7 8 9 10


Rambler's Top100

  

Дедупликация данных оптимизирует использование дисковой памяти и сетевых каналов

Говард Маркс

Технологии дедупликации стали востребованными при резервном копировании данных. В статье представлена вся необходимая информация, которая поможет вам выбрать оптимальный вариант дедупликации.

Постоянное увеличение объемов сохраняемых на предприятиях данных, сокращение отводимого на их резервирование времени и растущая потребность пользователей корпоративных ИТ-систем в почти мгновенном восстановлении информации (из резервных копий) стали причинами появления ряда впечатляющих инноваций в последние пять лет. Всего четыре года назад резервное копирование данных по схеме «с диска на диск» (D2D) было абсолютно новой технологией их защиты. Снижение цен на дисковые массивы широкого пользования и повышение каче-ства их производства сделали этот вид копирования экономически привлекательным при явном преимуществе дисков (по сравнению с устройствами резервного копирования других типов) особенно с точки зрения скорости восстановления информации.

В 2004 г. на растущий рынок D2D-решений вышла компания Data Domain, представители которой сделали, казалось бы, нелепое заявление, что ее устройство DD400 не только сохраняет резервные копии, но и сокращает их объем в 10–20 раз. Пользователям, привыкшим к тому, что ленточные накопители сжимают данные с коэффициентом менее чем 2:1, было трудно поверить в истинность этого заявления.

Но вернемся в настоящее время. Сегодня функция дедупликации данных, исключающая хранение идентичных друг другу их копий, стала обязательной для целевых устройств резервного копирования на диски. За исключением высококлассных виртуальных ленточных библиотек (Virtual Tape Libraries — VTL), предназначенных для содержащих петабайты информации центров обработки данных (ЦОД), в которых производительность накопителей важнее их емкости, по отношению к другим дисковым системам резервного копирования вопрос: дедуплицирует ли эта система данные? просто неуместен, лучше уж сразу спросить: как она делает это?.

Надо сказать, что технологии дедупликации данных сейчас применяют не только для резервного копирования: их все шире внедряют для архивирования информации на основные накопители и оптимизации использования WAN-каналов. Прежде чем мы расскажем об этих технологиях, давайте посмотрим, как появляются идентичные резервные копии.

Это происходит по двум основным причинам. Первая — многократное копирование одних и те же файлов с одного и того же сервера. Например, дубликаты некоего файла могут оказаться в еженедельно создаваемых полных резервных копиях, которые хранятся 30 дней. Еще один пример многократно копируемых данных — это первые 900 Мбайт файла почтового ящика объемом

1 Гбайт, в котором, предположим, хранится электронная почта директора некоего предприятия. Поскольку он получает новую почту ежедневно, то каждую ночь программа, осуществляющая инкрементальное резервное копирование, создает новую копию этого файла. И хотя большая часть файла почтового ящика остается неизменной, всякий раз он копируется целиком.

Вторая причина — копирование одинаковых файлов с разных узлов сети. Если вы резервируете содержимое системных дисков 50 Windows-серверов, то получаете 50 копий системных файлов Windows, занимающих значительное дисковое пространство. Ненужные дубликаты могут сохраняться и на субфайловом уровне. Речь идет, например, об изображении логотипа той или иной компании, вставленного в тысячи ее документов, которые хранятся на ее файловых серверах.

Многие специалисты признают функцию дедупликации данных очень полезной, но среди них не утихают споры о том, как и где ее нужно выполнять. Наиболее горячо обсуждаются достоинства и недостатки онлайновой дедупликации (в ходе процесса резервного копирования) и дедупликации в виде постобработки (после окончания этого процесса). Онлайновую дедупликацию выполняют устройства, подобные продуктам фирмы Data Domain, или VTL-системы на базе ПО ProtecTier компании Diligent Technologies, которые обрабатывают данные в масштабе реального времени и сохраняют только дедуплицированные данные. Поскольку для такой дедупликации нужно много вычислительной мощности, общая производительность дедуплицирующих устройств ограничивается скоростью выполнения ими этой функции.

Чтобы ускорить резервное копирование, устройства фирм ExaGrid Systems и Sepaton, а также продукты компаний Sun Microsystems и Copan Systems, оснащенные ПО фирмы FalconStor Software, работают в два этапа: сначала сохраняют резервные копии, а затем дедуплицируют их. При таком подходе к дедупликации для кеширования копируемых данных требуется дополнительное дисковое пространство, что снижает эффективность дедупликации.

Стоит также отметить, что при удаленном резервном копировании онлайновое устройство оперативно пересылает дедуплицированные данные в удаленное хранилище, а при постобработке их пересылка начинается с большой задержкой, которая может достигать нескольких часов. И еще. Постобработка снижает скорость записи вторичных копий на ленту.

При применении постобработки может возникнуть следующая крайне неприятная ситуация: дедупликация резервных копий, сделанных прошлой ночью, еще не завершилась, а новые резервные копии (сегодняшних данных) уже начинают создаваться. В такой ситуации системе резервного копирования может просто не хватить дискового пространства.

Выбирая между онлайновой дедупликацией и постобработкой, покупатели должны выяснять у поставщиков онлайновых систем, достаточно ли быстро они функционируют, чтобы процесс резервного копирования данных укладывался в отведенное для этого время. Если он укладывается, то следует приобретать именно такие системы. В противном случае нужно обратиться к системе с постобработкой резервных копий, поскольку может оказаться, что эксплуатировать такую систему значительно проще, чем управлять несколькими онлайновыми системами.

Сегодня высококлассные онлайновые системы копируют данные со скоростью от 200 до 400 Мбит/с. Компании Data Domain и Quantum могут строить кластеры из таких систем, которые работают быстрее, но с каждой системой в кластере связан отдельный домен дедупликации, в результате чего потребляется больше дискового пространства и усложняется управление инфраструктурой резервного копирования. Поскольку скорость работы онлайновой системы в значительной степени зависит от ее вычислительной мощности, то с появлением процессоров нового поколения производители таких систем могут ускорять их работу примерно на 50 %. (Компания Diligent выпустила версию ПО ProtecTier, позволяющую создавать двухузловой кластер, который работает как единый домен дедупликации и копирует данные со скоростью более 900 Мбит/с.)

Технологии дедупликации

Существует несколько технологий дедупликации данных. Самая простая из них — одноэкземплярное хранение (Single-Instance Storage — SIS), она предусматривает использование символьных ссылок на единственную копию файла, создающих впечатление, что этот файл хранится в разных местах и под разными именами. В пакете Windows Storage Server компании Microsoft есть выполняемая в фоновом режиме функция, которая, реализуя эту технологию, находит и устраняет идентичные файлы. Обращение к технологии SIS — хорошее начало, но, чтобы получить действительно впечатляющее сокращение объема хранящихся данных, нужна более тонкая технология.

Системы, основанные на хеш-функциях, такие, как Hydrastor компании NEC и устройства серии DXi компании Quantum, делят данные, идущие от ПО резервного копирования, на блоки и с помощью алгоритма типа MD5 или SHA-1 вычисляют хеш-значение для каждого блока. Если очередной блок имеет такое же хеш-значение, как и ранее записанный, то система не сохраняет этот новый блок, а лишь создает ссылку на записанный ранее.

На первый взгляд технология дедупликации данных с помощью хеш-функций выглядит очень простой, но, как говорится, дьявол прячется в деталях. Отнюдь непросто определиться с тем, как устанавливать границу блоков. Алгорит- мы дедупликации с блоками фиксированной длины проще реализовывать, но они могут пропускать небольшие изменения, вносимые в существующие файлы. Алгоритмы с переменной длиной блоков гораздо сложнее, но, как правило, обеспечивают более эффективную дедупликацию.

Еще одна проблема — возможность возникновения хеш-коллизий. И хотя вероятность этого нежелательного события при дедупликации петабайта данных составляет всего-навсего 1 к 1020 (что в несколько миллиардов раз меньше, чем вероятность быть пораженным молнией), пользователи все равно проявляют беспокойство по поводу хеш-коллизий. Видя это, производители реализуют в своих продуктах дополнительные функции контроля идентичности блоков пу- тем их побайтового сравнения или вычисле- ния второго хеш-значения с помощью другого алгоритма.

Дедуплицировать данные можно не только с помощью хеш-функций. Так называемые «осведомленные» о контенте системы, например, продукты компаний ExaGrid и Sepaton, распознают формат данных, используемый программами резервного копирования. Они сравнивают записываемую новую версию каждого файла с его старой версией из предыдущего набора копий, а затем сохраняют только изменения.

Проблема использования таких систем состоит в дедуплицировании ими данных только во временном аспекте. Они эффективны, например, при сохранении 15 новых сообщений в огромном файле электронной почты, но не могут сократить расход дискового пространства при копировании 400 экземпляров шаблона корпоративного служебного письма, хранящегося на всех компьютерах сотрудников предприятия.

Если использующие хеш-функции системы способны дедуплицировать любые данные, проходящие через них, то разработчики «осведомленных» о контенте систем обязательно должны реализовывать в них поддержку предусмотренных каждым совместимым с ними приложением форматов файлов и/или записываемых на ленту данных. Это может вызвать разочарование пользователей, которые приобрели, например, VTL-продукт фирмы Sepaton и попытались использовать его с ПО резервного копирования, которого он еще не поддерживает. В таком случае пользователям придется подождать, когда производитель добавит нужную поддержку в этот продукт.

Дедупликация данных, позволяющая экономить дисковое пространство в ЦОДе, особенно важна для удаленного резервного копирования их с серверов филиалов предприятий. При этом дедупликация не только сокращает расход дискового пространства в центральном офисе компании (на сохранение копий данных филиалов), но и снижает требования к пропускной способности WAN-каналов, по которым передаются эти данные. Предприятия могут устранить все свои проблемы, связанные с организацией резервного копирования данных филиалов на ленты, заменив в филиалах ленточные накопители дедуплицирующими устройствами, которые будут передавать данные в ЦОД.

Другое решение — использовать ПО, специально предназначенное для резервного копирования данных удаленных офисов, такое, как Avamar компании EMC, NetBackup PureDisk фирмы Symantec или Televaulting компании Asigra. Эти приложения выполняют дедупликацию данных на основе их хеширования для снижения требований к попускной способности WAN-каналов, по которым резервируемые данные пересылаются в центральный офис компании.

Подобно обычным программам, выполняющим инкрементальное резервное копирование, для выявления измененных файлов со времени последнего копирования вышеназванные приложения используют информацию о состоянии битов архивирования и датах последней модификации файлов, а также сведения из журнала регистрации изменений файловой системы. Затем они «нарезают» измененные файлы на небольшие блоки и вычисляют хеш-значения для каждого из них.

Эти хеш-значения сравниваются с содержимым локальной кеш-памяти копируемого сервера, содержащей хеш-значения блоков, ранее скопированных с него. Не обнаруживаемые в локальной кеш-памяти хеш-значения, а также метаданные файловой системы пересылаются в центральное хранилище резервных копий; оно сравнивает полученные хеш-значения с содержимым своих хеш-таблиц и возвращает копируемому серверу список хеш-значений, с которыми оно раньше не сталкивалось. Далее копируемый сервер посылает блоки данных, представляемые этими хеш-значениями, в центральное хранилище на хранение.

Действующие по вышеописанному принципу решения для резервного копирования могут обеспечить более высокий коэффициент сокращения объема данных, чем у целевых устройств резервного копирования, поскольку дедуплицируют данные в масштабе всей организации, а не только данные, копируемые с определенной группы серверов (на одно целевое устройство или кластер таких устройств). Если руководитель компании разошлет, например, 100-Mбайт презентацию формата PowerPoint во все 500 своих филиалов, то ее резервная копия будет сделана только с сервера того филиала, который по графику резервного копирования должен пройти эту процедуру раньше других. Все остальные филиалы пошлют в центральный офис вычисленные хеш-значения и получат в ответ сообщение типа: «Резервная копия этого файла у нас уже есть, спасибо».

Для использования этого принципа менее характерны проблемы с масштабируемостью систем резервного копирования, от которых так страдают средства, дедуплицирующие данные на базе хеширования. Поскольку каждый удаленный сервер кеширует только хеш-значения своих локальных данных, объем соответствующей хеш-таблицы не должен превышать доступные ресурсы памяти, а так как дисковая система в центральном офисе компании работает намного быстрее, чем осуществляется передача резервных копий по WAN-каналу, то даже просмотр огромного справочника с хеш-значениями на диске занимает гораздо меньше времени, чем пересылка резервируемых данных.

Приложения Avamar, NetBackup PureDisk и Televaulting имеют схожую архитектуру при одинаковых принципах ценообразования — в зависимости от объема дедуплицированного информационного хранилища, но между ними есть некоторые различия. Так, NetBackup PureDisk работает с блоками фиксированной длины (128 Кбайт), а Televaulting и Avamar — с блоками переменной длины, благодаря чему обеспечивается более высокая степень дедупликации. Компания Asigra продает свой продукт Televaulting сервис-провайдерам, что дает возможность предприятиям малого бизнеса использовать преимущества дедупликации, не разворачивая у себя соответствующих инфраструктур.

Интеграция технологий дедупликации

Мы видим, что функции дедупликации данных в настоящее время появляются (в различных по возможностям вариантах) в хорошо знакомых сетевым администраторам приложениях для резервного копирования. Эта тенденция позволяет пользователям дольше хранить резервные копии на дисках без необходимости покупать дедуплицирующее целевое устройство или менять ПО резервного копирования.

Программный продукт Galaxy компании CommVault получил функцию SIS, ставшую стандартной составляющей его набора функций для резервного копирования на диски. Данная функция позволяет Galaxy удалять одинаковые копии файлов из набора резервного копирования, используя хеш-значения содержимого файлов. Этот подход не позволяет достичь той же степени сокращения объема резервных копий, которую обеспечивает дедупликация на субфайловом уровне, но он устраняет идентичные копии, полученные при копировании данных с одного и того же узла сети или с разных узлов.

Компании EMC и Symantec начали интегрировать свои пакеты, дедуплицирующие данные при их копировании с серверов удаленных офисов, со своими же корпоративными системами резервного копирования. Благодаря этому компании-заказчики могут использовать ПО NetWorker компании EMC для планирования и мониторин-га выполнения заданий по резервному копированию в рамках системы Avamar. Таким образом, теперь можно с одной консоли управлять как локальным, так и удаленным резервным копированием.

Другие производители предлагают средст- ва дедупликации для первичных хранилищ.

Компания NetApp, например, в прошлом году интегрировала свою технологию дедупликации (ее прежнее название — A-SIS) в свою же ОС OnTap.

Как бы ни решалась задача дедупликации данных, ясно, что использование соответствующих технологий стало важной частью реализуемых на предприятиях стратегий резервного копирования. Организуйте дедупликацию данных в масштабе всей сети — это позволит эффективнее использовать ценное дисковое пространство и сетевые каналы..

  
13 '2008
СОДЕРЖАНИЕ

бизнес

• Новинки Nexans для ЦОДов

инфраструктура

• Современные технические решения для ЦОДов: инженерные системы

• Дедупликация данных оптимизирует использование дисковой памяти и сетевых каналов

• Спецификация MicroTCA — системный стандарт широкого профиля

• Перелом на рынке БЛВС

• «Интеллект» в здании

информационные системы

• Проблемы развития OC Linux

• Технология поведенческого анализа потоков в корпоративной сети

• Услуги SaaS на пороге большого пути

сети связи

• Поддержание климатических параметров на телекоммуникационных объектах

• Сети PON сегодня и завтра

защита данных

• Управление рисками как дисциплина

• Продуманная защита

кабельные системы

• Да не подмочит вода репутацию промышленного кабеля


• Калейдоскоп


Реклама:
 Copyright © 1996-2008 ООО "Сети и Системы Связи". вверх