Ж у р н а л   о   к о м п ь ю т е р н ы х   с е т я х   и   т е л е к о м м у н и к а ц и о н н ы х   т е х н о л о г и я х
СЕТИ И СИСТЕМЫ СВЯЗИ on-line
  ПОИСК: ПОДПИСКА НА НОВОСТИ: НОМЕР:
    ДОМОЙ • Архив: Новостей | Конференций | НомеровПодписка
 
   
 
   
    
РЕДАКЦИЯ
 
Все о журнале
Подписка
Как проехать
Где купить
Отдел рекламы
График выхода журнала
Адреса в Интернет

РУБРИКАТОР
   
• Инфраструктура
• Информационные
   системы

• Сети связи
• Защита данных
• Кабельные системы
• Бизнес
• Колонка редактора
• Электронная
   коммерция

• Только на сервере
• Системы
   учрежденческой
   связи

• Новые продукты


Rambler's Top100

  

Сжатие сохраняемой информации набирает обороты

Джон Вильям Тойго

Согласно оценкам, сделанным несколько лет назад специалистами Калифорнийского университета в Беркли, объем записанной в цифровом виде информации удваивается каждые 14—18 мес, причем 35% новых данных приходятся на предприятия. Если бы те же специалисты провели свое исследование в наши дни, то получили бы еще более впечатляющие статистические данные.

Нам эти оценки понравились бы гораздо больше, если бы не приходилось с превеликим трудом обеспечивать сохранение постоянно растущих объемов данных. Несмотря на происходящее с середины 90-х годов прошлого века ежегодное 50%-ное снижение стоимости дисковых накопителей в расчете на гигабайт емкости, в крупных компаниях на долю систем хранения данных (включая дисковые массивы, сетевое оборудование и программные средства администрирования) приходится около 40% всех затрат на ИТ-оборудование. Хранение данных на высококлассном дисковом массиве обходится предприятиям примерно в 89 долл. за гигабайт, и это без учета затрат на администрирование. Хранение тех же самых данных на более дешевых и емких, но менее производительных и столь же менее надежных дисках SATA стоит около 40 долл. за гигабайт. Подключите вышеупомянутый массив к сети Fibre Channel — и стоимость хранения подскочит до 100 долл. за гигабайт (приведены оценки организаций Horizon Information Strategies и Data Management Institute).

В настоящее время во многих крупных компаниях ИТ-расходы уже достигли уровня 5—7% дохода. В такой ситуации не обязательно иметь степень MBA, чтобы осознать невозможность решения проблем с хранением данных путем простого наращивания емкости соответствующих систем. Критики сложившегося положения дел, в том числе Роб Нибор и Ренди Чалфант из компании Sun Microsystems, говорят, что нынешняя модель хранения данных не работает. Они высказали неприятную, но точную мысль, что, если в ближайшее время не будут найдены пути решения указанных проблем, стоимость управления растущими объемами данных “съест” бюджеты многих компаний.

Полную версию данной статьи смотрите в 6-ом номере журнала за 2006 год.

Даже если вы закупите для своего предприятия диски большей емкости (типа тех терабайтовых “монстров”, которые планируют выпустить компании Seagate и Hitachi), это не поможет решить все задачи. Взаимодействие многочисленных приложений и пользователей с дисками повышенной емкости может привести к возникновению проблем с осуществлением доступа к хранящейся информации, поскольку каналы ввода-вывода дискового массива окажутся перегруженными. Недаром высококлассные дисковые массивы, способные хранить сотни терабайтов данных, зачастую заполнены лишь на 40%. Еще один неприятный момент — это низкая скорость восстановления данных на диске. Если высокоемкий диск SATA, являющийся частью массива RAID уровня 5, выйдет из строя, на восстановление хранившейся на нем информации могут уйти часы или даже дни. Вот почему компания Hitachi Data Systems и другие производители дисковых массивов переориентируются на конфигурацию RAID уровня 6 и на другие нестандартные конфигурации RAID.

Если же не использовать диски повышенной емкости, то для сохранения растущих объемов данных вам придется устанавливать все больше и больше дисковых массивов, что приведет к соответствующему увеличению нагрузки на администраторов систем хранения, которые и так уже жалуются на отсутствие эффективных средств управления гетерогенными инфраструктурами. Очевидно, должно быть найдено какое-то другое решение.

А как насчет сжатия данных?

Ряд компаний, в том числе Avamar Technologies, Data Domain and Rocksoft, предлагают использовать функцию сжатия данных. Разумеется, сама по себе идея сжатия их не нова. Программные средства сжатия используют с 80-х годов прошлого века для уменьшения размера файлов с целью записать больше информации на носители малой емкости или повысить скорость передачи данных по низкоскоростным сетям. Кроме того, многие цифровые фотографии, музыкальные произведения и видеоматериалы хранятся в сжатых форматах — например, JPEG и AVI.

Администраторам систем хранения данных функция сжатия известна очень хорошо. Производители четвертьдюймовой ленты, к которым относятся компании Hewlett-Packard (HP), IBM и Quantum, указывают емкость картриджа (с такой лентой) с использованием и без использования функции сжатия, причем в первом случае емкость в два раза больше, чем во втором. Системные администраторы, осуществляющие резервное копирование данных, знают, что в действительности функция сжатия может вообще не увеличить емкость ленты. Такое случается при архивировании плотно упакованных данных, но при записи неплотно упакованных информационных баз возможен и пятикратный выигрыш в емкости.

Как же реализуется функция сжатия? Иногда аппаратно, а иногда и программно. Она широко используется в средствах резервного копирования данных. Хотя производители ПО резервного копирования поставляют программные средства сжатия, консультант (по решениям для хранения данных) компании Computer Associates Тодд Рач обычно советует клиентам (если это возможно) использовать аппаратно реализованную функцию сжатия. По его словам, производители аппаратных средств используют стандартизированные алгоритмы, такие, как LZ1. Но значительно важнее то, что при использовании функции сжатия, реализованной аппаратно в ленточной библиотеке, процесс сжатия осуществляется быстрее, а сервер резервного копирования освобождается от выполнения этой функции, и, следовательно, нагрузка на него снижается. Задействовать функцию сжатия и на сервере и в библиотеке не следует, поскольку снова сжимать уже сжатые данные, применяя тот же самый алгоритм, неэффективно.

Устранение избыточности данных на байтовом уровне

При всей очевидности факта, что дважды сжимать данные неэффективно, специалистам компаний Avamar, Rocksoft и Data Domain все же удалось найти новые способы еще большего сжатия информации. Каждая из указанных компаний рекламирует свою технологию, предназначенную для уменьшения размера файлов, даже если те ранее уже были сжаты другими методами. В их технологиях заложено устранение избыточности данных на байтовом уровне (byte-level factoring).

Вышеназванные компании используют два способа повышения эффективности использования емкости систем хранения данных. Сначала их продукты идентифицируют и удаляют повторяющиеся последовательности данных. Затем собранные в одно целое, или агрегированные (coalesced), оставшиеся данные они подвергают специальной процедуре сжатия, которая еще больше уменьшает их объем. До недавнего времени устранение избыточности данных осуществлялось на уровне файлов или блоков. Теперь же оно выполняется на байтовом уровне.

Специалисты компании Rocksoft дают следующее определение (несколько запутанное) своей технологии Blocklets: “Это запатентованная технология, устраняющая избыточность данных на уровне субблоков переменной длины. Она сводит к минимуму объем данных, выполняя запатентованный процесс их сжатия, который начинается с обнаружения повторяющихся элементов данных, после чего данные агрегируются (как бы спрессовываются) с целью устранения всех избыточных элементов”.

Похоже, Rocksoft сейчас занимает оборонительную позицию, что вполне объяснимо, если учесть шквал новостных сообщений от конкурирующей компании Avamar о получении патентов на ее технологии сжатия. Нам известно, что организации, в которых был установлен Axion — основной продукт компании Avamar, дали о нем положительные отзывы. Анализ продукта показывает, что технология, положенная в его основу, очень похожа на технологию фирмы Rocksoft. Неудивительно, что в некоторых патентах компании имеются ссылки на разработки Rocksoft.

В ПО Axion реализована запатентованная технология всеобщего сокращения избыточности (commonality factoring). Реализующие ее программные агенты находят и отфильтровывают повторяющиеся последовательности данных на всех клиентских машинах, для того чтобы в рамках всего предприятия каждая уникальная последовательность данных копировалась только один раз. В результате этого для инкрементального резервирования информации при модификации файлов и баз данных ресурсов систем ее (информации) хранения требуется не много.

С помощью ПО Axion вы агрегируете набор данных, “очищенный” от повторяющихся элементов, а затем уменьшаете его объем, используя алгоритмы всеобщего сокращения избыточности. Агенты Axion ищут в хранящихся данных определенные последовательности единиц и нулей и заменяют их указателями. Этот процесс обеспечивает средний коэффициент сжатия 18:1. Представители компании Avamar утверждают, что в некоторых Windows-средах коэффициент сжатия доходил до 300:1 (эффективность — 99,7%).

Обе компании (Rocksoft и Avamar) имеют запатентованные методики оптимизации внесения изменений в сжатые данные. Представители каждой из компаний утверждают, что именно их механизм, обеспечивающий сохранение уже достигнутого коэффициента сжатия при внесении изменений в файлы, работает наиболее эффективно. Компания Avamar использует метод, в котором данные разделяются на блоки переменной длины (в среднем по 12 Кбайт), каждый из которых имеет свой собственный уникальный адрес. При использовании решения компании не требуется задействовать централизованное хранилище метаданных файлов, поскольку сами данные содержат в себе описывающую их информацию.

Оба производителя реализуют свои технологии в виде не зависящего от конкретных платформ ПО. Кроме того, специалисты компании Avamar пре-дусмотрели в своем приложении возможность применения масштабируемой совокупности дисковых систем RAIN (Redundant Array of Independent Nodes). В материалах компании решение RAIN описывается как распределенное (grid) информационное хранилище, в котором данные размещены по узлам хранения примерно так же, как это делается в массивах RAID, поэтому при выходе из строя одного узла хранения данные не будут потеряны. Названное технологическое решение (RAIN) сертифицировано несколькими производителями оборудования, в том числе компаниями Dell, HP и IBM; оборудование последних можно комбинировать с ПО Avamar для создания RAIN.

Тот факт, что продукты не зависят от конкретных платформ, может рассматриваться как достоинство или как недостаток. С одной стороны, предприятия хотят использовать функцию сжатия, не будучи “привязанными” к конкретному производителю, который берет повышенную плату за диски для массивов с этой функцией, а с другой — может случиться так, что ИТ-персоналу придется интегрировать и администрировать программные и аппаратные средства разных производителей, что отнюдь не просто.

Другой подход

По словам сооснователя компании Data Domain Брайана Байлса, фирмы Rocksoft и Avamar стремятся заменить своими продуктами традиционное ПО резервного копирования и восстановления данных, продукт же его компании предназначен для работы с этим ПО (в качестве альтернативной системы хранения данных), которое уже имеется у заказчиков. Господин Байлс согласен с тем, что некоторое сходство в подходах к хранению данных, реализуемых компанией Data Domain и вышеуказанными двумя фирмами, есть, но продукт его компании имеет другое предназначение: он должен заменить собой запоминающее устройство на магнитных лентах и улучшить управление данными без увеличения нагрузки на серверы приложений.

“Продукты фирм Rocksoft и Avamar функционируют, используя вычислительные ресурсы сервера приложений, — говорит г-н Байлс. — Наш же продукт, напротив, сжимает данные сам, причем очень быстро и совсем не нагружая сервер приложений”.

Господин Байлс добавляет, что сотрудники многих компаний, с которыми ему доводилось иметь дело, часто резервируют одни и те же данные и не могут осуществлять произвольный доступ к информации, записанной на магнитные ленты; в решении этих проблем его фирма играет важную роль. Система компании Data Domain, имеющая емкость 200 Тбайт, стоит довольно дорого — 75 тыс. долл. “Но нужно учесть, что она сжимает данные с коэффициентом 20:1, тем самым обеспечивая стоимость хранения данных менее одного доллара за гигабайт”, — объясняет он.

Руководитель технического отдела (CTO) компании Avamar Рори Болт согласен с тем, что его ПО и устройство сжатия данных фирмы Data Domain похожи с точки зрения основных принципов функционирования, но категорически заявляет, что это совсем разные продукты, если рассматривать их под углом защиты данных. “Возможно, продукт Data Domain и осуществляет схожий криптографический анализ с целью сокращения объема данных, но он не имеет нашей файловой системы с хэшированием и не поддерживает архитектуру RAIN, — утверждает он. — Это отдельное и не масштабируемое устройство, а не сетевое решение”.

Наш вывод таков: при всех различиях продукты компаний Rocksoft, Avamar и Data Domain выполняют одни и те же функции, а именно: они сжимают данные, устраняя их избыточность на байтовом уровне, и эффективно определяют точки разделения файлов, чтобы сжатые биты адаптировались к изменениям данных без повторения всего процесса сжатия. Сейчас еще слишком рано говорить о том, какое технологическое решение будет лидировать на рынке, но, похоже, что у продукта компании Avamar больше шансов на победу, поскольку он уже продается предприятиям и поставщикам услуг резервного копирования, таким, например, как компания Arsenal Digital. Фирма Data Domain тоже добилась определенных успехов, организовав надежный канал поставок своего продукта и предусмотрев его взаимодействие с программами резервного копирования компаний CommVault, Symantec и EMC.

Важная роль архивирования

Рассмотренные нами технологические решения предназначены для резервного копирования данных. Согласно сложившейся в ИТ-отрасли терминологии, они должны использоваться на уровне 2 иерархии систем хранения данных. Приложения записывают свои данные на устройства уровня 1 (см. “Время для иерархического хранения данных пришло?”). Производители средств сжатия данных утверждают, что этот уровень не подходит для использования существующих технологий сжатия, и мы вполне согласны с ними. Не стоит применять нынешние технологии для сжатия производственных данных, записанных в массивы уровня 1, поскольку эти данные часто модифицируют и к ним постоянно обращаются, а использование сжатия увеличивает временную задержку при выполнении операций ввода-вывода (требуется дополнительное время для декомпрессии запрошенных данных). Однако положение дел, возможно, скоро изменится благодаря появлению нового технологического решения компании Storewiz (см. “Сжатие данных в первичном хранилище (уровень 1)”).

Исключением из указанного выше правила могут стать так называемые справочные данные, которые считывают часто, но модифицируют редко. Представители компаний Rocksoft и Data Domain считают, что такие данные, обычно хранящиеся вместе с другой производственной информацией в высокоскоростных массивах, вполне можно сжимать с помощью их продуктов, если только приложения “терпимо относятся” к дополнительной задержке, возникающей при выводе сжатых данных из массива. Кэширование несжатых файлов или блоков, к которым недавно обращались, поможет сделать справочные данные более подходящими для устранения избыточности на байтовом уровне.

В целом все три компании в качестве сферы применения своих продуктов рассматривают почти автономные (near offline) или архивные хранилища данных. Представители этих компаний утверждают, что продукты, устраняющие избыточность данных на байтовом уровне, хорошо подходят для дополнения или замены систем резервного копирования на магнитную ленту.

С этим утверждением полностью согласен Эд Холмс, администратор сетевых систем корпорации Adaptec. Последняя несколько лет назад развернула у себя ленточную систему резервного копирования, предполагая, что она будет удовлетворять ее потребности в резервировании данных в течение четырех лет. Однако уже через полтора года эти потребности превысили возможности системы. Выбирая альтернативное решение, г-н Холмс учитывал новые нормативные требования к управлению данными, появление недорогих дисковых массивов SATA и отчет компании Gartner, согласно которому каждая десятая лента не читается при выполнении процедур восстановления данных.

Позже он рассказал нам, что протестировал продукт компании Data Domain под нагрузкой и пришел к выводу, что он не соответствует требованиям корпорации. Все еще заинтригованный концепцией устранения избыточности данных на байтовом уровне, г-н Холмс обратился в компанию Avamar и после почти годового тестирования ее продукта приобрел его. Решающим фактором при этом стало время восстановления данных. Так, при использовании продукта компании Data Domain на восстановление файла с ленты уходило минимум 15 мин, а с помощью ПО Axion фирмы Avamar эта операция осуществлялась всего за 3,5 мин.

Но и у продукта компании Data Domain есть свои приверженцы, которые предпочитают использовать это готовое к применению (plug-and-play) устройство, а не технологические решения фирм Avamar и Rocksoft. Дон Клебба, инженер по сетям SAN компании Quicker Loans, рассказал нам, что в 2004 г. его компания искала способ уменьшить стоимость и повысить скорость выполнения (по ночам) процедур полного резервного копирования содержимого ее почтового сервера Microsoft Exchange. Администраторам сервера требовалось хранилище почтовых сообщений (общим объемом 800 Гбайт) с возможностью их быстрого восстановления. Они были заинтересованы в хранении новых почтовых сообщений (хотя бы в течение недели) на почти оперативном (near-online) запоминающем устройстве и во взаимодействии этого решения с центром обработки данных (ЦОД) компании без изменения его базовой платформы резервного копирования.

Господин Клебба рассмотрел возможности применения самых разных систем — от виртуальных ленточных библиотек до высококлассных массивов NAS и SAN, но все они оказались слишком дорогими. После этого г-н Клебба начал пилотное тестирование устройства фирмы Data Domain под нагрузкой, которое продолжалось пять недель и в ходе которого было проведено множество операций восстановления данных, а также тщательно определялся коэффициент их сжатия. К удивлению г-на Клебба, коэффициент был достигнут довольно высокий — 10,4:1. Для администраторов почтового сервера дополнительным и неожиданным плюсом стали небольшие габариты этого устройства — они без проблем разместили его в переполненном оборудованием ЦОДе, и при этом никаких дополнительных средств электропитания и охлаждения ему не потребовалось.

По словам г-на Клебба, сотрудники компании Quicker Loans теперь могут восстанавливать свои последние почтовые сообщения за 45 мин, против 8—12 ч при использовании лент, хранящихся за пределами ЦОДа. Скорость резервного копирования тоже выросла, поскольку при использовании устройства компании Data Domain данные копируются по схеме с диска на диск, а затем на ленту. После устранения избыточности записанных на устройство данных на байтовом уровне они (данные) в течение дня копируются (с устройства) на ленты типа LTO2 с помощью функции Vault продукта NetBackup компании Veritas.

Проблемы решенные и отложенные

При разумном использовании устранение избыточности данных на байтовом уровне (новейшая разновидность их сжатия) помогает решать многие сложные проблемы с хранением данных. Однако пока не ясно, смогут ли производители таких средств сжатия стать “могильщиками” магнитной ленты, как они об этом заявляют.

Сжатие данных до записи их на ленты поможет повысить эффективность использования лент, но для восстановления сжатых данных потребуется выполнить ряд дополнительных операций, на что потребуется какое-то время, которого как раз может не хватать, если понадобится экстренно восстанавливать данные после сбоя.

Что касается справочных данных и почти оперативных архивов, то для оптимизации их хранения такие технологии, как commonality factoring и Blocklets, окажутся чрезвычайно полезными. Помимо уменьшения объемов хранящихся данных, предлагаемые производителями продукты обеспечивают их перемещение на основе правил системной политики и контентную адресацию, которая поможет предприятиям выполнять нормативные акты, регулирующие хранение информации.

В настоящее время с помощью описанных в предлагаемой вниманию читателя статье технологий сжимать производственные данные еще нельзя. Но все может измениться, если эти технологии окажутся в достаточной степени востребованными, чтобы производители дисковых массивов и ОС начали реализовывать их в своих продуктах.

Еще одним очевидным недостатком новых технологий и средств сжатия является тот факт, что предлагающие их производители пришли на рынок совсем недавно. Что случится с вашей информацией, если выбранный вами производитель по тем или иным причинам свернет свое дело? Ответ простой: придется вернуться к прежним способам реплицирования и резервного копирования, которыми вы пользовались до внедрения средств устранения избыточности данных на байтовом уровне. Некоторые пользователи средств сжатия данных выражают беспокойство иного рода. Как сказал один ИТ-менеджер, “мы можем существенно сократить объемы наших данных с помощью этих технологий. Но не исключено, что в результате мы станем менее тщательно отделять полезные данные от тех, что и хранить не стоит”.

Применение технологий сжатия данных, таких, как устранение избыточности данных на байтовом уровне, позволяет откладывать на будущее решение проблем с классификацией данных и управлением ими. Но не до бесконечности..





  
6 '2006
СОДЕРЖАНИЕ

бизнес

• Картинки с выставки и FMC

• Противостояние угрозам безопасности

инфраструктура

• Сжатие сохраняемой информации набирает обороты

• Высокоскоростные сети хранения данных

• Администрирование радиочастотного спектра

информационные системы

• Тестируем пакеты бизнес-аналитики

• Как нам обустроить call-центр

• Контроль качества обслуживания клиентов в call-центрах

• Тестируем ПО виртуальных машин

сети связи

• Skype, Triple Play и футбол

• Реализация каналов GSM/GPRS в беспроводных системах сбора и передачи информации

защита данных

• Аттестация сетевых узлов

• Как выявить узлы-«нелегалы»

кабельные системы

• Трагедия как стимулятор инноваций в области противопожарных преград

• Близится принятие стандарта 10Gbase-T

новые продукты

• Монтажное оборудование EuroLAN Rack; Powerware 9355 — теперь и на 40 кВА; DECT-система для сетей IP-телефонии; Решения компании Planet для IP-телефонии; Менеджер трафика для SMB


• Калейдоскоп



 Copyright © 1997-2007 ООО "Сети и Системы Связи". Тел. (495) 234-53-21. Факс (495) 974-7110. вверх