Ж у р н а л   о   к о м п ь ю т е р н ы х   с е т я х   и   т е л е к о м м у н и к а ц и о н н ы х   т е х н о л о г и я х
СЕТИ И СИСТЕМЫ СВЯЗИ on-line
  ПОИСК: ПОДПИСКА НА НОВОСТИ: НОМЕР:
    ДОМОЙ • Архив: Новостей | Конференций | НомеровПодписка
 
   
 
   
    
РЕДАКЦИЯ
 
Все о журнале
Подписка
Как проехать
Где купить
Отдел рекламы
График выхода журнала
Адреса в Интернет

РУБРИКАТОР
   
• Инфраструктура
• Информационные
   системы

• Сети связи
• Защита данных
• Кабельные системы
• Бизнес
• Колонка редактора
• Электронная
   коммерция

• Только на сервере
• Системы
   учрежденческой
   связи

• Новые продукты


Rambler's Top100

  

SAN против NAS - следующий раунд

А. Ю. Фадеев

Развитие Интернет и расширяющееся применение интрасетей привело к росту заинтересованности предприятий в высоконадежном хранении данных и в обеспечении высокоскоростного удаленного доступа к ним. Причем масштабы интрасетей стали такими большими, что по ряду характеристик (включая протяженность их соединений, пропускную способность, степень защищенности данных) они стали очень похожими на Интернет. Примером крупномасштабной интрасети может служить Sequoia 2000 Network — объединенная сеть университета Калифорнии, охватывающая его кампусы в городах Беркли, Лос-Анджелесе, Сан-Диего, Санта-Барбаре, а также дирекцию университета в Окленде. Таким образом, вопросы повышения надежности хранения информации в Интернет и интрасетях и предоставления высокоскоростного доступа к ней должны решаться на основе единого подхода.

В настоящее время разработаны две базовые архитектуры сетей хранения — NAS (Network-Attached Storage) и SAN (Storage Area Network). Каждая из них обладает своими достоинствами и недостатками, но ни та ни другая не позволяют построить высоконадежную и высокопроизводительную территориально распределенную систему хранения данных.

Для архитектуры NAS (имеющей множество реализаций, о которых речь пойдет ниже) характерно предоставление доступа к информационным ресурсам на уровне файловой системы и использование протоколов TCP/IP. Архитектуре SAN свойственно предоставление доступа к информационным ресурсам на уровне блочного устройства хранения данных. Основным недостатком предоставления доступа на уровне файловой системы является тот факт, что возможности работы пользователей в сети с точки зрения контроля доступа к данным, а также в плане регулирования степени избыточности их хранения и скорости доступа к ним оказываются ограниченными соответствующими возможностями действующей (в сетевом хранилище данных) файловой системы. Предоставление же доступа к информационным ресурсам на уровне блочного устройства позволяет сконфигурировать (в системах хранения) желаемый уровень RAID и задействовать ту файловую систему, которая лучше всего подходит для решаемых пользователями задач (вообще говоря, это может быть любая журналируемая файловая система).

До недавнего времени основными проблемами применения архитектуры SAN для реализации территориально распределенных сетей хранения данных являлись отсутствие ориентации на использование протоколов TCP/IP и необходимость строить специализированные инфраструктуры хранения, которые, кроме того, что стоят значительно дороже обычных сетей передачи данных общего назначения, имеют еще и существенные ограничения по своей протяженности. По этой причине до последнего времени по пути совершенствования сетевых файловых систем довольно активно развивалась NAS-архитектура. Были созданы новые распределенные файловые системы, обеспечивающие хранение данных на нескольких узлах с помощью технологии RAID (к ним относятся системы Swift, Zebra, xFS) или иных методов, позволяющих регулировать степень избыточности хранения данных. Но широкого распространения ни одна из этих систем не получила. Либо они оказывались недостаточно надежными в работе, потому что представляли собой просто основательную модернизацию протокола NFS, либо были слишком громоздкими и сложными в эксплуатации. Недавно появились технологии сетей SAN, ориентированные на IP. Это Fibre Channel over IP, Fibre Channel Backbone и iSCSI. Последняя уже получила широкую поддержку в сетевой индустрии.

Полную версию данной статьи смотрите в 13-ом номере журнала за 2002 год.

Архитектура NAS и сетевые файловые системы

Компания Sun Microsystems разработала протокол NFS (Network File System) в 1985 г. как средство обеспечения прозрачного доступа к удаленным файловым системам. Помимо публикации возможностей протокола, компания открыла его базовую реализацию, которая была использована другими производителями для переноса NFS на разные платформы.

Возможно, самой важной характеристикой протокола NFS является то, что сервер не запоминает состояний сеансов работы с ним и не нуждается ни в какой информации о своих клиентах. Каждый запрос является полностью независимым от других запросов и содержит всю информацию, необходимую для его обработки. Главная проблема работы без сохранения состояний сеансов заключается в том, что сервер должен незамедлительно фиксировать все изменения в данных — в противном случае они могут быть потеряны, а пользователь при этом будет думать, что они успешно записаны на диск. Работа без сохранения состояний сеансов имеет и другие недостатки. Так, для обеспечения блокировки файлов она требует применения отдельного протокола (NLM). Кроме того, чтобы повысить скорость выполнения операций записи данных, пользователи часто кэшируют их локально, но это не позволяет протоколу гарантировать согласованность состояния данных на клиенте и на сервере.

После анонса в 1985 г. протокол NFS постепенно стал стандартным для распределенных файловых систем. Сегодня он поддерживается всеми вариантами ОС Unix. Основным его недостатком является тот факт, что при сбое в работе сервера пользователи теряют возможность работать со своими файлами. Широкое распространение протокола NFS сделало очень заманчивой идею адаптировать его для создания файловых систем высокой готовности. Такие попытки были предприняты практически сразу после анонса NFS и до сих пор не потеряли своей актуальности. Это проекты протоколов RNFS, HA-NFS, Harp, FT-NFS и многие другие. Помимо развития идей NFS в других проектах, сам протокол NFS тоже совершенствовался. Так, в 1994 г. была выпущена спецификация NFS версии 3, в ней появилась возможность использовать TCP вместе с UDP, применение которого было предусмотрено в спецификации NFS версии 2. Это расширило область применения NFS, ранее она ограничивалась только локальными сетями с относительно небольшим процентом потери пакетов в сети.

Совсем недавно появилась спецификация NFS версии 4. На данный момент ее реализаций еще нет на рынке, но заложенные в нее возможности впечатляют. Одним из основных отличий версии 4 от предыдущих является уход от схемы работы без сохранения состояний сеансов. В ней также предлагаются новый механизм аутентификации на основе технологии Kerberos и новая RPC-процедура Compound, позволяющая объединять несколько файловых операций в один пакет и в таком виде посылать их на сервер, а это значительно уменьшает время реакции системы на команды пользователей. Версия 4 имеет интересные возможности для репликации серверов и переключения пользователей с сервера на сервер. Для них оно осуществляется прозрачно с помощью нового файлового атрибута fs_locations.

В системе NFS версии 4 уже не требуется служба portmapper, так как протокол монтирования теперь входит непосредственно в NFS-протокол. Стоит отметить и реализацию “дозагрузки” файла в случае разрыва соединения и его последующего восстановления, что позволяет использовать протокол NFS в средах с ненадежными каналами передачи данных.

Несмотря на определенные положительные результаты, достигнутые в создании распределенных файловых систем, ряд проблем требовал дальнейших исследований. За пять лет с момента выхода NFS было предложено около десятка альтернативных файловых систем, но ни одна из них не была принята индустрией. Использование данных систем не выходило за рамки лабораторий, где они разрабатывались. А между тем задача обеспечения высокопроизводительного и одновременно высоконадежного доступа к данным оставалась нерешенной.

Проект Zebra представлял собой дальнейшее развитие идеи RAID-подобной сетевой файловой системы. Для повышения скорости работы системы хранения данных и повышения надежности их хранения в системе Zebra предусмотрены распределение пользовательской информации (файлы, объединенные в большой журнальный файл) по отдельным файловым серверам и запись блоков контрольных сумм (логика работы системы примерно соответствует логике работы обычного дискового RAID-массива, только вместо отдельных дисков в ней используются целые серверы). Распределение объединенного журнального файла предпочтительнее распределения каждого файла в отдельности, поскольку если файл небольшой, то на каждый сервер записывается маленький сегмент данных, что приводит к снижению производительности системы (доля накладных расходов на осуществление операций чтения/записи становится слишком большой). Кроме того, при распределении каждого файла необходимо перерассчитывать и перезаписывать соответствующие контрольные суммы, когда он изменяется. В RAID-системах для этого требуется выполнять две операции чтения (старых данных и старых контрольных сумм) и две операции записи (новых данных и новых контрольных сумм). Важно отметить, что, если данные будут изменены, а контрольные суммы — нет, это приведет к сбою в работе RAID-системы при попытке восстановления данных.

Развитие систем хранения данных и сетей передачи данных неразрывно связано. Растущие объемы хранящейся информации, требующие увеличения скорости доступа к ней, стимулируют развитие сетей передачи данных, что, в свою очередь, способствует дальнейшему развитию систем хранения данных. В свое время распространение технологии Ethernet сделало возможным создание высокопроизводительных систем хранения данных, основанных на модели клиент—сервер. Это NFS, Andrew, Sprite, NetWare и др. Одной из важных характеристик такой модели является снижение производительности сервера с ростом числа клиентов. В этом не было ничего страшного, так как производительность разделяемой сети Ethernet тоже падала с ростом числа рабочих станций.

В начале 90-х годов стали все более широко применяться такие технологии сетей передачи данных, как ATM и Myrinet, в которых производительность сети в целом росла с увеличением числа машин, так как эти сети были основаны не на технологии совместного использования общей среды, а на принципе коммутации пакетов. В связи с этим появилась идея построить бессерверную распределенную систему хранения данных, производительность которой не уменьшалась бы с увеличением числа машин в сети, а, наоборот, росла.

Именно такой подход реализован в файловой системе xFS. Она основана на бессерверной модели системы хранения данных; в ней используется схема записи информации, подобная той, что используется в системе Zebra. В системе xFS получила дальнейшее развитие идея кэширования данных на стороне клиента, ранее реализованная в файловой системе Andrew. Разработчики xFS пошли дальше, предложив кооперативную (system-wide) кэш-память. Кроме того, понимая, что концепция централизованного хранения данных все же верна по своей сути, они также предложили концепцию масштабируемого сервера, предоставляющего доступ клиентам к информации по протоколу NFS.

Проект файловой системы Coda направлен на повышение надежности функционирования файловой системы в случае возникновения сбоев в работе серверов и сетевой инфраструктуры. Основным принципом работы Coda является маскирование таких сбоев посредством применения метода disconnected operation (автономная работа) и специально выделенной дисковой кэш-памяти на клиентской машине. Кроме маскирования сбоев, кэш-память обеспечивает повышение скорости работы с файлами. Базовый принцип ее функционирования сформулирован разработчиками системы Coda Маммертом, Уингом и Сатианарайананом: если пользователь считает, что обладает верной копией файла, тогда и сервер должен “считать”, что данная копия верна. Из этого принципа и из-за использования метода disconnected operation следует, что конфликтная ситуация, в которой два пользователя из-за сбоя в работе сети или серверов обладают разными копиями одного и того же файла, измененного каждым пользователем после сбоя, является трудноразрешимой.

Итак, высокопроизводительная, высоконадежная и простая в эксплуатации распределенная файловая система до сих пор не создана. Поэтому разработчики систем управления базами данных и других приложений, особенно требовательных к производительности сети и серверов, зачастую предпочитают организовывать прямой доступ к блочному устройству хранения данных, минуя файловую систему и принося в жертву такие характеристики файловых систем, как простое администрирование и безопасное разделение ресурсов и данных.

Архитектура SAN и сетевые блочные устройства

Стандартом де-факто для сетей SAN стала технология Fibre Channel, обеспечивающая скорость передачи данных до 200 Мбайт/с и позволяющая строить распределенные хранилища данных масштаба предприятия. Используя принцип инкапсуляции протокола SCSI в кадры Fibre Channel, данная технология нашла широкое применение благодаря большому количеству инсталлированных SCSI-устройств. Отчеты IDC до недавнего времени показывали радужную картину роста объемов продаж оборудования для сетей SAN.

К сожалению, технология Fibre Channel не лишена недостатков. В первую очередь это ограничение, накладываемое на размер сети: максимальная длина сетевого сегмента (без использования повторителей) не превышает 10 км, что не позволяет строить сети SAN даже масштаба города, не говоря уже о трансконтинентальных сетях. Кроме того, ожидаемого удешевления оборудования Fibre Channel так и не произошло и в настоящий момент эта технология не обеспечивает необходимого соотношения цена/производительность.

Для построения территориально распределенных систем хранения данных предлагается использовать концепцию IP-систем хранения. Ею предусматриваются: использование протокола IP для организации доступа к данным, неограниченность масштаба систем хранения, их виртуализация, предоставление доступа к данным на уровне блочных устройств и централизация управления хранением данных.

В настоящее время в рамках названной концепции разработаны следующие, предназначенные для организации территориально распределенных систем хранения данных технологии: iSCSI (проект комиссии Internet Engineering Task Force — IETF), Fibre Channel over IP (предложение IETF и Института ANSI) и Fibre Channel Backbone (разработка ANSI).

В технологиях Fibre Channel over IP и Fibre Channel Backbone предусмотрена инкапсуляция кадров Fibre Channel в пакеты IP. Стандарты на эти технологии еще не приняты, но производители уже предлагают соответствующее оборудование. Область их применения — связь удаленных Fibre Channel-сетей SAN через сеть IP. Использование технологий Fibre Channel over IP и Fibre Channel Backbone предполагает обязательное наличие Fibre Channel-сети SAN; этого недостатка нет у протокола iSCSI.

Стандарт на технологию iSCSI разрабатывается iSCSI Group — подкомитетом IETF, в который входят компании Intel, IBM, EMC, Hewlett-Packard и Cisco Systems. Данная технология основана на принципе инкапсуляции протокола SCSI в протокол IP. В качестве основного физического интерфейса предлагается использовать интерфейс Gigabit Ethernet, а впоследствии будет осуществлен переход на технологию 10 Gigabit Ethernet. Сети SAN на основе технологии iSCSI должны стоить существенно дешевле Fibre Channel-сетей SAN, не уступая им по функциональности и производительности. Сетевая индустрия хорошо приняла стандарт iSCSI. Несмотря на то что он до сих пор не утвержден, о его поддержке уже объявили такие известные производители, как Cisco (Cisco SN 5420 Storage Router), Intel (Intel PRO/1000 T IP Storage Adapter), IBM (дисковые массивы семейства TotalStorage), Adaptec и др. (в скобках указаны iSCSI-продукты соответствующих компаний). Для ускорения выхода на рынок IP-систем хранения данных на базе iSCSI крупные компании покупали небольшие фирмы, имеющие перспективные разработки в этой области. Так, компания Cisco в начале 2001 г. приобрела фирму NuSpeed Internet Systems за 500 млн долл., а компания Adaptec — фирму Platys Communications за 150 млн долл. В настоящий момент, кроме перечисленных компаний, iSCSI-продукты предлагают фирмы Emulex и Alacritech.

***

Сегодня мы являемся свидетелями возрастающего интереса предприятий к новым технологиям хранения данных. Протоколы, которые позволяют расширить границы применения сетей хранения данных на базе технологии Fibre Channel, дали толчок дальнейшему развитию архитектуры SAN. NAS-технологии тоже продолжают совершенствоваться. По всей видимости, в ближайшем будущем на рынке NAS появится новая “звезда” — NFS версии 4, рынок же SAN-систем будет бурно развиваться за счет технологий IP-систем хранения данных, и в первую очередь iSCSI. Со временем в сфере решений для территориально распределенных систем хранения данных SAN-системы будут преобладать над NAS-решениями.

Об авторе
Фадеев Алексей Юрьевич,
ведущий инженер лаборатории
телекоммуникационных систем МФТИ
Телефон: (095) 576-4381
E-mail: alex@mipt.ru





  
13 '2002
СОДЕРЖАНИЕ

бизнес

• Большая сеть и большие перемены

• Интеграция с неограниченной расширяемостью

локальные сети

• Маркировать СКС становится проще

• Кабельные системы категории 6 и оборудование Gigabit Ethernet

• Оптические сети - это доступно всем

• Сетевые адаптеры Gigabit Ethernet с обработкой трафика TCP/IP

корпоративные сети

• XML приручает информационный хаос

• Радиосистемы типа “точка—точка”

• SAN против NAS - следующий раунд

услуги сетей связи

• Прольем свет на оптические сети

• Как нести бродбэнд в массы?

защита данных

• Защитите свой IP-телефон

• Аутентификация - основа безопасности

• PremierAccess впереди всех

• ИБП-гиганты

новые продукты

• Новые коммутаторы HardLink -- менее 9 долл. за порт!; Радиорелейные станции Altium MX


• Калейдоскоп



 Copyright © 1997-2007 ООО "Сети и Системы Связи". Тел. (495) 234-53-21. Факс (495) 974-7110. вверх