Ж у р н а л   о   к о м п ь ю т е р н ы х   с е т я х   и   т е л е к о м м у н и к а ц и о н н ы х   т е х н о л о г и я х
СЕТИ И СИСТЕМЫ СВЯЗИ on-line
  ПОИСК: ПОДПИСКА НА НОВОСТИ: НОМЕР:
    ДОМОЙ • Архив: Новостей | Конференций | НомеровПодписка
 
   
 
   
    
РЕДАКЦИЯ
 
Все о журнале
Подписка
Как проехать
Где купить
Отдел рекламы
График выхода журнала
Адреса в Интернет

РУБРИКАТОР
   
• Инфраструктура
• Информационные
   системы

• Сети связи
• Защита данных
• Кабельные системы
• Бизнес
• Колонка редактора
• Электронная
   коммерция

• Только на сервере
• Системы
   учрежденческой
   связи

• Новые продукты


Rambler's Top100

  

Watchdog кусается

Билл Алдерсон, Дж. Скотт Хогдал

Проблема. Почти каждая сетевая ОС имеет некоторый протокол опроса, действующий в период отсутствия обмена данными между хост-машиной и рабочей станцией или между сервером и клиентом. Этот протокол призван обеспечить разрыв связи сервера с рабочей станцией (и высвобождение соответствующих ресурсов) в случае прекращения ее работы в сети. К сожалению, если этот протокол не функционирует надлежащим образом, то рабочая станция может потерять связь с сервером без видимой на то причины.

Скотт: С подобным случаем мы недавно столкнулись во время обследования ЛВС масштаба городка, где серверы постоянно прерывали связь с рабочими станциями пользователей.

Билл: Такие сбои происходили в произвольное время и не были связаны с какими-то значимыми событиями в сети.

Скотт: Пытаться определить причину случайным образом появляющейся неисправности — это просто кошмар для администратора сети.

Билл: У одних пользователей потеря связи происходила чаще, чем у других. У некоторых между двумя такими случаями проходили недели. Подобное положение дел сохранялось несколько месяцев, так как все попытки решить эту проблему были бесплодными.

Скотт: Одна из таких попыток состояла в дополнительном сегментировании ЛВС при помощи коммутирующего концентратора, поскольку предполагалось, что проблема связана с перегрузкой сети.

Билл: Я думаю, что наступило время для небольшого “судебного” разбирательства, не так ли?

Скотт: Верно.

Билл: Пронаблюдав за работой сети несколько часов и не увидев обычных для сетей “фокусов”, мы решили рассмотреть возможность нарушений связи в результате выполнения процесса Watchdog в системе NetWare.

Скотт: Процесс Watchdog начинается всякий раз, когда в течение заданного периода времени сервер не получает никаких пакетов от рабочей станции. Если сервер “не видит” пакетов рабочей станции в течение пяти минут (по умолчанию), то он посылает этой станции пакет контрольного запроса о присутствии ее в сети. А рабочая станция отвечает на запрос сервера пакетом, подтверждающим свое активное состояние.

Билл: Если сервер “видит” этот пакет, то он больше не беспокоит рабочую станцию в течение следующих пяти минут. Но если он этого пакета “не видит”...

Скотт: ...Тогда он делает вторую попытку связаться с рабочей станцией через минуту. Этот процесс продолжается до тех пор, пока сервер не получит ответа рабочей станции или пока не будет послано определенное число запросов, оставшихся без ответа (по умолчанию еще девять). После этого сервер прерывает связь с рабочей станцией.

Скотт: Невозможно было с уверенностью сказать, всегда ли сервер прерывал связь в результате выполнения процесса Watchdog. Например, изменение параметров процесса Watchdog не давало заметного эффекта. Кроме того, пользователи продемонстрировали нам трассировку, из которой следовало, что рабочая станция посылала ответ и он достигал сегмента сервера надлежащим образом, но тогда связана ли эта проблема с процессом Watchdog? Может, здесь имеет место ошибка в системе NetWare?

Билл: Мы продолжали перехватывать пакеты и отслеживать (на консоли сервера) сообщения о циклах ожидания (тайм-аутах), относящихся к процессу Watchdog, при появлении которых всякий раз связывались с пользователями.

Скотт: Сопоставив теорию, статистику транзакций пакетов и информацию, полученную от пользователей, мы нашли ответ.

Билл: Было ясно, что серверы с сотнями поддерживаемых соединений и рабочие станции, в течение длительного времени не осуществляющие обмен информацией с этими серверами (например при выполнении эмуляции терминала, работе пользователей с локальными данными или даже при их уходе на обед), временами теряли связь.

Скотт: Обычно благодаря процессу Watchdog этого не должно происходить.

Билл: Другое наблюдение, сделанное в начальной стадии нашего анализа, состояло в том, что серверы в серверном кольце со скоростью передачи данных 16 Мбит/с сообщали о возникающей иногда перегрузке своих приемников (приемных буферов. — Прим. ред.).

Скотт: Как правило, несколько ошибок, связанных с перегрузкой приемника, не представляют большой проблемы, и мы обычно просто не обращаем на них внимания. Кроме того, серверное кольцо было крайне загружено, и сообщений о перегрузке приемников было не так много, чтобы они могли вызвать беспокойство.

Билл: Но мы знали, что ошибка, связанная с перегрузкой приемника, означает, что сервер был не в состоянии принять пакет, поскольку его приемный буфер был полон.

Скотт: Подключив наш анализатор (протоколов) к концентратору ниже (по ходу сетевого маркера. — Прим. ред.) одного из серверов, нам удалось просмотреть пакеты, адресованные этому серверу. Мы выявили пакеты, в которых бит распознанного адреса был установлен в 1, а бит копирования кадра оставался в 0, что указывает на перегрузку приемника.

Билл: Как оказалось, существовала сильная взаимосвязь между тем, что в ответных пакетах Watchdog, передаваемых рабочей станцией, бит копирования кадра не устанавливается в 1, и тем, что сервер сообщает о перегрузке приемника двумя секундами (по умолчанию) позже.

Скотт: Проблема состояла в том, что ответные пакеты Watchdog были маленькими и шли они одновременно примерно от сотни рабочих станций с такой частотой, что на сервере сетевой адаптер и его драйвер не успевали их обрабатывать.

Билл: Это все равно, что зарядить лук сразу сотней стрел и выпустить их все в мишень одновременно.

Скотт: Да, если бы я был сервером, мне бы тоже пришлось тяжко. Следующая обнаруженная с помощью нашей трассировки закономерность состояла в том, что когда бы ни был помещен в буфер ответный пакет Watchdog, сервер начинал минутный цикл ожидания.

Билл: Итак, Watchdog-ответы некото#рых “несчастливых” рабочих станций, даже после нескольких попыток, никогда не попадали в буфер сервера, в результате он “полагал”, что эти станции их не передавали и прерывал с ними связь.

Скотт: Имеется много возможных путей решения этой проблемы. Назовем хотя бы часть из них: увеличение объема приемного буфера в сетевом адаптере сервера (в данном случае это сделать было невозможно), увеличение числа коммуникационных буферов NetWare (их и так уже было порядка нескольких сотен), установка более производительного адаптера на сервер или взаимодействие с сервером таким образом, чтобы он не выполнял процесс Watchdog для всех рабочих станций.

Билл: Временным решением является запуск на каждой рабочей станции небольшой резидентной программы, которая без каких-либо запросов периодически (каждые пять минут) посылала бы серверу пакет, свидетельствующий о ее активном состоянии. Более “основательное” решение состоит в том, чтобы попробовать различные адаптеры Token Ring и подобрать для сервера такой, который может более эффективно обрабатывать небольшие пакеты, идущие сплошным потоком.

Скотт: Конечно, когда наш заказчик перейдет на NetWare 4.1, ему, возможно, придется снова столкнуться с этой проблемой.


распечатать статью

Описание болт фундаментный у нас.




  
5 '1996
СОДЕРЖАНИЕ

колонка редактора

• Телефония через Internet: новое поле битвы?

локальные сети

• Беспроводные ЛВС: вчера, сегодня и завтра

• Недорогие коммутаторы Ethernet

• Мультимедиа и ЛВС

• Оптические дисковые автоматы

корпоративные сети

• Watchdog кусается

• "Плоды" большого дерева NDS

• Необычные, но невыдуманные истории

услуги сетей связи

• Категории служб в сетях АТМ

• Будущее карманных устройств связи

• Передача данных по сетям сотовой связи

• Обзор аппаратуры SDH

• Связные заметки с выставки CeBIT

интернет и интрасети

• Мир TCP/IP. Традиционные приложения (часть 2)

• Почтовый пакет компании Демос

• Списки рассылки: артерии информации

• Таблицы на Web

• Ваш след в Web

приложения клиент-сервер

• Связующее ПО. "Вождение" приложений по сети

• Связующее ПО. Смена веры

защита данных

• Управляемые ИБП: защита предприятия

• Системы firewall: можете спать спокойно

новые продукты

• Сетевые принтеры: новинки на Comtek’96, Многофункциональность System 5000, Накопители TRAVAN TR-4 фирмы Seagate



 Copyright © 1997-2007 ООО "Сети и Системы Связи". Тел. (495) 234-53-21. Факс (495) 974-7110. вверх