Журнал о компьютерных сетях и телекоммуникационных технологиях
СЕТИ И СИСТЕМЫ СВЯЗИ on-line
  ПОИСК:
    Домой
 
   
АРХИВ ЖУРНАЛА
   

2008: 1 2 3 4 5 6 7 8 9 10 11 12 13
2007: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2006: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2005: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2004: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2003: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2002: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2001: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2000: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
1999: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1998: 1 2 3 4 5 6 7 8 9 10 11 12
1997: 1 2 3 4 5 6 7 8 9 10 11 12
1996: 1 2 3 4 5 6 7 8 9 10


Rambler's Top100

  

Решения для надежного долговременного хранения данных

Говард Маркс

Насколько вы уверены в том, что данные, извлеченные ИТ-специалистами из электронного архива по запросу проверяющей вашу компанию организации, являются полными и неискаженными? ИТ-подразделения, еще не внедрившие у себя системы, «умеющие» хранить данные в неизменяемом виде, отстали от требований времени.

В США предприятия, деятельность которых регулируется нормативными актами Управления охраны труда, должны хранить электронные медицинские карты своих бывших служащих в течение 30 лет после их увольнения, а закон HIPAA требует, чтобы медицинские учрежде-ния сохраняли подобную документацию не менее 20 лет. Для выполнения этих требований недостаточно просто хранить магнитные ленты с резервными копиями, записываемыми в конце каждого месяца и года. Даже если так долго сохраняемая лента и не испортится, вряд ли вы найдете накопитель, способный прочитать ее.

Производители систем хранения данных, в том числе компании Caringo, EMC, Hita-chi Data Systems, Permabit Technology и Nexsan Technologies, предлагают разные продукты, предназначенные для хранения не подлежащих редактированию данных (фиксированного контента). Системы эти дорогие, зато обеспечивают выполнение нормативных актов. Ассортимент такого рода решений на рынке расширяется.

Мы попросили производителей рассказать нам не только о системах хранения данных с адресацией их образом (Content-Addressable Storage — CAS) и блокируемых устройствах NAS, защищающих хранящиеся данные от фальсификации, но и о сервисах для предприятий, которые не желают создавать и обслуживать свои собственные архивы.

Ценность носителей WORM

Предприятия отраслей с высоким уровнем регулирования их деятельности (со стороны государственных органов) уже давно хранят свои данные на неперезаписываемых и нестираемых носителях типа WORM (Write Once, Read Many, т. е. однократная запись, многократное считывание).

Оптические диски WORM гарантируют надежное хранение записанных на них данных в течение 30 и более лет. Большинству компаний мы рекомендуем использовать именно такие диски для создания архивов с фиксированным контентом.

Помимо накопителей и носителей WORM, вам потребуется ПО архивирования сообщений электронной почты и файлов, которое идентифицирует подлежащие записи данные. Однако делать это отнюдь не просто, особенно если речь идет о сообщениях электронной почты. Хотя продукты ряда производителей, в частности компаний EMC, Symantec и Zantaz, помогают отделять нужную почту от спама, нельзя исключать того, что часть этого самого спама все-таки попадет в ваш архив. Стоит отметить, что некоторые специализированные приложения (включая медицинские) записывают данные непосредственно в хранилище фиксированного контента.

Последним словом техники в области долговременного хранения данных являются оптические диски WORM компании Plasmon со сверхвысокой плотностью записи (емкостью до 60 Гбайт). Как и в случае с применением любых других разновидностей дисков WORM, для записи данных на эти диски требуется специальное ПО архивирования, поддерживающее функциональность WORM. Выпускаемая компанией Plasmon система архивирования Enterprise Active Archive работает с внешним интерфейсом в виде сервера, исполняющего CAS-приложение Assureon компании Nexsan. При этом данные сначала записываются в RAID-массив, а затем, когда длительность их хранения становится важнее времени доступа к ним, переносятся на оптические диски.

Ленточные накопители всех популярных форматов, будь то LTO-устройства среднего уровня или высококлассные приводы T10000 компании Sun Microsystems, имеют микрокод, идентифицирующий специальные картриджи WORM и не позволяющий перезаписывать или стирать их содержимое. Использование картриджей WORM емкостью 800 Гбайт (особенно если соответствующие накопители задействованы вместе с RAID-кешем) представляет собой самое дешевое и экологичное решение для организации очень больших архивов, в которых время доступа к данным может исчисляться минутами. Массив RAID или даже MAID (Massive Array of Idle Disks) потребляет энергию, когда к нему не обращаются. Оптические диски занимают много места. Высокая плотность записи и отсутствие энергопотребления при хранении делают магнитную ленту предпочтительным экологичным носителем для архивирования данных.

Системы CAS

Вместо того чтобы в качестве основного идентификатора файла использовать его имя с информацией о его местоположении в иерархии каталогов, системы CAS для каждого записанного файла генерируют глобально уникальный идентификатор (Globally Unique Identifier — GUID) с помощью хеш-функции типа MD-5 или SHA-1. Этот идентификатор используется для нахождения файла на устройствах хранения. Если система CAS предоставляет пользователям интерфейс CIFS или NFS (а большинство таких систем делают это), то при обращении к файлу она сначала находит в БД соответствующий GUID, определяет полный путь к файлу, а затем выдает его. Одним из преимуществ использования такого рода адресации является то, что системы CAS автоматически обеспечивают одноэкземплярное хранение файлов. Если поступивший в систему файл имеет абсолютно то же содержимое, что и один из уже записанных файлов, для нового файла будет сгенерирован такой же GUID, а, поскольку этот идентификатор является основным элементом для извлечения файла из системы, последняя не будет хранить два файла с одинаковыми GUID.

Технология одноэкземплярного хранения обеспечивает экономию ресурсов памяти.

Как и в случае с применением средств дедупликации данных на базе их хеш-значений, некоторые директора по ИТ опасаются возникновения хеш-коллизий; если такая коллизия произойдет, то из двух разных файлов, отправленных в систему, будет записан только один. Вероятность этого ничтожна — 10–25 при использовании простейших хеш-функций. Тем не менее, чтобы успокоить потенциальных заказчиков, производители делают определенные шаги, начиная с применения более устойчивых к коллизии хеш-функций, таких, как SHA-512, и кончая проведением побайтового сравнения файлов с идентичными хеш-значениями, перед тем как признать их одинаковыми.

Реальные системы CAS наделяются дополнительными возможностями сохранения пользовательских метаданных вместе с каждым объектом данных и реализуют механизм обеспечения сохранности информации, препятствующий любому пользователю, включая и самого системного администратора, удалять файлы до истечения установленного срока их хранения.

Первой в продаже появилась CAS-система Centera компании EMC, которая и сегодня является лидером этого рынка. Эта система имеет архитектуру под названием «избыточный массив независимых узлов» (Redundant Array of Independent Nodes — RAIN); среди них есть узлы доступа, посредством которых приложения сохраняют и извлекают файлы, и узлы хранения данных, содержащие дисководы и процессоры. Для надежности хранения данных Centera либо записывает каждый объект на два узла хранения, либо использует объектную схему контроля четности. Обычные RAID-контроллеры в ней не применяются. Кластеры узлов Centera могут реплицировать данные по сети IP.

Решение Content Archive Platform (CAP) компании Hitachi Data Systems, появившееся в продуктовом портфеле последней в результате прошлогодней покупки ею фирмы Archivas, основано на другом подходе к реализации концепции CAS. В этом подходе в качестве главного идентификатора файла используется информация о его расположении, а также генерируются хеш-маркеры для хранящихся данных. В системе CAP функционируют три или более бездисковых интерфейсных узла, обеспечивающих сохранение файлов на подключенных к ним дисковых массивах Fibre Channel, на которые можно записывать и другую информацию. Чтобы повысить быстродействие и емкость системы, компании могут добавлять к ней интерфейсные вычислительные узлы и дисковую память. Для записи данных в систему CAS и считывания их из нее вместо фирменных API используются открытые протоколы HTTP, NFS, CIFS и WebDav. В приложении для архивирования можно определять сроки обязательного хранения данных, число их копий и другие метаданные, создавая для каждой папки простые текстовые и/или XML-файлы.

Поскольку система CAP компании Hitachi реализует одноэкземплярное хранение данных, а также индексирует их и проверяет их целостность в фоновом режиме, скорость хеширования и индексирования данных не влияет на скорость их записи. Данные хранятся на архивных дисках, пересылаются по сети SAN и реплицируются в удаленный кластер CAP в зашифрованном виде. В дополнение к реплицированию данных система CAP осуществляет резервное копирование архивов на магнитную ленту, используя протокол NDMP (Network Data Management Protocol).

Система CAS компании Permabit представляет собой массив RAIN, состоящий из серверов выстой 1U, которые сконфигурированы как узлы доступа или хранения данных. Она дедуплицирует данные, индексирует их на выделенном узле с помощью ПО фирмы Fast Search & Transfer, предоставляет пользователям гибкий NAS-интерфейс, способный отслеживать многочисленные версии сохраняемых файлов. Однако при полезной емкости каждого узла, равной только 1 Тбайт, крупный архив будет занимать немалое стоечное пространство и потреблять значительную мощность. Приобретение компанией Microsoft фирмы Fast Search & Transfer вряд ли повлияет на выполнение многочисленных OEM-контрактов последней — по крайней мере, это произойдет не сразу.

Система Assureon компании Nexsan дедуплицирует данные и реализует технологии MAID в целях экономии ресурсов памяти и снижения энергопотребления. Ее можно задействовать в качестве RAID-кеша перед библиотекой оптических дисков или магнитных лент WORM. Данная система работает с программой File System Watcher, которая автоматически копирует файлы с Windows-машины, когда они закрыты (в соответствии с правилами системной политики).

И наконец, ПО CAStor компании Caringo преобразует обычные ПК-серверы на платформе Intel в кластер CAS. В отличие от системы Centera компании EMC продукт CAStor в качестве основного интерфейса использует не фирменный интерфейс API, а протокол HTTP. Дополнительно можно задействовать поддержку протоколов CIFS и NFS. Система CAStor выполняет нужные большинству предприятий базовые функции CAS, включая локальную и удаленную репликацию данных, сохранение их и определение глубины репликации на уровне объектов. Идея создания кластера CAS из обычных серверов и дисковых накопителей может показаться привлекательной, но вряд ли на многих предприятиях захотят реализовывать CAS-решения собственными силами.

Не усложняйте

При всех своих достоинствах си-стема CAS является довольно сложным решением проблемы предотвращения удаления и изменения хранящихся файлов пользователями и системными администраторами. Некоторые производители, включая компанию Network Appliance и подразделение StorageTek компании Sun, добавили к своим NAS-устройствам функциональность WORM. (Вышеназванные производители сделали это посредством своих программ SnapLock (предназначена для работающих под управлением ОС OnTap файловых серверов компании Network Appliance) и StorEdge Compliance Archiving.) Организации могут продолжать использовать в качестве своих первичных файловых хранилищ прежние системы NAS и при этом иметь архив WORM. Применение одной и той же системы для резервирования и реплицирования данных, а также для управления ими удешевляет и упрощает инфраструктуру их хранения.

Блокируемые NAS просто обслуживать. Вместо интеграции своего ПО с новым API на базе XML специалисты по ИТ могут записывать нужные им файлы на блокируемое устройство NAS посредством файловой системы CIFS или NFS. Необходимый срок хранения можно задавать для каждой папки или даже каждого файла, устанавливая значение временного атрибута last accessed соответствующим конечному сроку хранения файла и разрешая доступ к нему только для чтения.

Компания Network Applian-ce разработала субфайловую технологию дедупликации данных A-SIS (Advanced Single Instance Storage), с помощью которой ее NAS-сервер с ПО SnapLock может превосходить по своим функциональным возможностям CAS-системы других производителей, дедуплицируя не только сами файлы, но и данные внутри них. Благодаря этому, например, повторяющиеся в каждой корпоративной презентации PowerPoint начальные слайды с общими сведениями о корпорации будут храниться в единственном экземпляре.

В отличие от системы CAS блокируемое устройство NAS не сохраняет метаданные об объектах. Сколь велика эта проблема будет для предприятия, зависит от функциональности имеющегося у него ПО архивирования. Для сохранения метаданных CAS-системы предо-ставляют пользователям интерфейс XML, если же компания выбирает блокируемое устройство NAS, то с целью организации хранилища метаданных ей придется использовать свое ПО архивирования или корпоративную систему управления контентом. .

  
10 '2008
СОДЕРЖАНИЕ

инфраструктура

• Отвод тепла в ЦОДе: проекты

• Решения для надежного долговременного хранения данных

• БЛВС удаленных офисов

информационные системы

• Не спешите мигрировать на Vista

• В поисках "приборной панели" для ИТ-директора

• Корпоративные системы пространственного позиционирования

сети связи

• Поддержка разных технологий доступа к IMS-сети

кабельные системы

• Заземление в вопросах и ответах

• СКС: "горячие" применения и системы управления

защита данных

• Контроль физического доступа шагает в ногу с IP-конвергенцией

• Зашифруйте данные - и в путь!

новые продукты

• "Мистраль-телеком" - кондиционеры для базовых станций; Шкафы "Энеогомеры"


• Калейдоскоп


Реклама:
 Copyright © 1996-2008 ООО "Сети и Системы Связи". вверх