Ж у р н а л   о   к о м п ь ю т е р н ы х   с е т я х   и   т е л е к о м м у н и к а ц и о н н ы х   т е х н о л о г и я х
СЕТИ И СИСТЕМЫ СВЯЗИ on-line
  ПОИСК: ПОДПИСКА НА НОВОСТИ: НОМЕР:
    ДОМОЙ • Архив: Новостей | Конференций | НомеровПодписка
 
   
 
   
    
РЕДАКЦИЯ
 
Все о журнале
Подписка
Как проехать
Где купить
Отдел рекламы
График выхода журнала
Адреса в Интернет

РУБРИКАТОР
   
• Инфраструктура
• Информационные
   системы

• Сети связи
• Защита данных
• Кабельные системы
• Бизнес
• Колонка редактора
• Электронная
   коммерция

• Только на сервере
• Системы
   учрежденческой
   связи

• Новые продукты


Rambler's Top100

  

Кто ищет, тот всегда найдет

В. В. Гуров

В сегодняшнем деловом мире один из главных секретов успеха - обладание информацией, и сеть Интернет с полным правом может считаться крупнейшим поставщиком таковой.

Компания, нуждающаяся в доступе к научным, деловым, юридическим и прочим данным, в принципе может получить его через Интернет. Вместе с тем любой пользователь, который когда-либо пытался найти что-то полезное в Сети, наверняка согласится с тем, что этот процесс похож на поиск иголки в стоге сена. Интернет содержит слишком много информации, и зачастую результаты не всегда оправдывают затраченное на их достижение время.

До недавнего времени умение ориентироваться в этом информационном хаосе оставалось прерогативой профессионалов. На сегодняшний день Интернет в России - это уже свершившийся факт, и разработки различных компаний в сфере поиска информации еще одно тому подтверждение. Совершенствование соответствующих ресурсов и услуг в русскоязычной части Интернет направлено на то, чтобы максимально облегчить пользователю решение многочисленных проблем и сделать удобным и комфортным поиск необходимой информации в Сети.

Каталоги, роботы и пауки

Существуют две основные категории средств поиска - каталоги-рубрикаторы (directories) и поисковые системы (search engines). Первые, в частности всем хорошо известный Yahoo!, имеют четкую иерархическую структуру, и пользователь, "углубляясь" в нее, постепенно суживает область поиска и в конце концов либо находит интересующую его информацию, либо убеждается в ее отсутствии. Как правило, каталог-рубрикатор составляется вручную, и, для того чтобы информационный ресурс был занесен в него, владелец ресурса должен заполнить соответствующую интерактивную форму-запрос. Менеджеры, отвечающие за администрирование каталога, могут иметь свои собственные критерии отбора, и какие-либо обязательства в отношении публикации ссылки на любой Web-ресурс с их стороны исключаются, поскольку данная услуга предоставляется бесплатно. Время публикации ссылок тоже может быть различным, иногда они появляются через месяц и более после подачи запроса (в качестве оправдания администраторы каталогов обычно ссылаются на занятость).

В то время как организация каталогов-рубрикаторов осуществляется вручную, для поисковых систем важен безупречный алгоритм. В основе работы поисковых систем лежит использование так называемых ключевых слов, или слов-концепций. Поиск по ключевым словам происходит не в самом информационном пространстве, а в некоей индексной базе данных (ИБД), содержащей ссылки на соответствующие источники первичной информации, которыми могут быть, например, Web-страницы или статьи телеконференций. Для создания и поддержки таких баз данных применяются так называемые программы-роботы или "пауки" (spiders); в их задачу входит регулярный "обход" всего информационного пространства и "извлечение" из документов заголовков, "выделенных" слов и ссылок, поиск новых и проверка старых URL, оглавлений, начальных абзацев и других данных. Роботы и программы-пауки могут поместить в ИБД полный текст с каждой страницы и "отследить" внешние ссылки. В том случае, если Web-узел не "отвергает" робота (посредством размещения специального текстового файла в корневой директории - robots.txt и т. п.), он в конце концов окажется проиндексированным. Для ускорения данного процесса службы поиска, подобно каталогам, могут принимать соответствующие запросы. Создателям Web-страниц при этом следует придерживаться рекомендуемых в стандарте HTML правил выделения ключевых слов и описаний ресурсов.

Для поиска в ИБД используются различные алгоритмы ранжирования документов по степени релевантности, т. е. мере близости теме запроса содержащейся в них информации. После ввода запроса поисковая система определяет, какие документы, точнее, их индексы, хранящиеся в ИБД, обладают наибольшей релевантностью, и "возвращает" пользователю список URL, указывающих на места нахождения первоисточников.

Основная трудность использования поисковых систем заключается в том, что вне зависимости от того, насколько хорош тот или иной алгоритм, документ, с формальной точки зрения максимально релевантный запросу, может и не содержать нужной пользователю информации. Причина в ряде случаев заключается в неудачной формулировке самого запроса из-за недостаточного понимания принципа работы поискового механизма.

В силу вышесказанного применение какой-либо конкретной поисковой системы требует выработки некоторой предварительной методики поиска. Обладая определенным набором практических приемов и навыков, можно убедиться в том, что весь гигантский объем информации в Интернет, разбросанный по всему миру, все же вполне "управляем" имеющимися средствами поиска и дальнейший рост количества источников информации будет уравновешиваться за счет совершенствования используемых и разработки новых поисковых систем и алгоритмов.

Follow the money

Как уже говорилось выше, для конечного пользователя, задачей которого является поиск информации, эти Интернет-службы бесплатные. Как же в таком случае они окупают расходы? Вообще говоря, есть два основных варианта: продажа ПО для поиска в Интернет или для организации службы поиска на отдельном Web-сервере и рекламная деятельность (видимо, более эффективный способ). Мы уже говорили о доле оборота в сфере Интернет-рекламы в прошедшие годы таких Web-узлов, как Yahoo! и Lycos (см.: Гуров В. В. Всемирная Интерактивная Среда: как достичь критической массы?. В отчете о заработках Yahoo! за первый квартал этого года было объявлено, что прибыль компании за данный промежуток времени составила 4,3 млн долл. США.

Поисковые машины - весьма удобное средство маркетинга. Например, участие компании Intel в развитии проектов "Апорт!" и "АУ!" в России, по мнению ее представителя Антона Никитина, позволило ей наилучшим образом "представиться" на русском Web-пространстве и к тому же внушить посетителям узлов "Апорт!" и "АУ!" мысль о том, что ее технология вполне пригодна для использования в Интернет - даже в таких сложных решениях, как поисковые системы и каталоги. Серверы на основе процессора Intel пока не пользуются всеобщим безоговорочным признанием, и большинство упорно считает, что Интернет - это прежде всего RISC-машины. Кроме возможности продемонстрировать серьезность своих намерений в области серверных приложений, компания с помощью технологий "Апорт!" и "АУ!" может теперь выяснить, что больше всего интересует людей, выявить наиболее популярные "места" в Интернет - короче, исследовать рынок и получать важную для нее статистику.

Интернет po-russki

Каталог-рубрикатор русскоязычных ресурсов Интернет "АУ!" начал свою работу в Сети в ноябре 1996 г. как совместный проект Центрального экономико-математического института РАН и компании "Ви-6". Как сообщил Юрий Поляк (ЦЭМИ), на данный момент в базе данных рубрикатора "АУ!" содержится более 15 тыс. учетных записей и она ежедневно пополняется. К настоящему времени подготовлена полная печатная версия каталога "АУ!", которая будет распространяться вместе с компакт-диском. Ручная технология не позволяет контролировать все русскоязычные ресурсы, число которых возрастает экспоненциально. Объем же БД "АУ!" растет линейно, но, как надеются ее создатели, в ней содержится гораздо меньше "мусора" по сравнению с ИБД поисковых систем. Ведь, как уже говорилось выше, программы-роботы, используемые в поисковых системах, "просматривают" и автоматически регистрируют все, что откликается на их запросы. Тем не менее в "АУ!" роботы тоже используются, но главным образом в целях проверки уже зарегистрированных ресурсов.

Поисковая система "Апорт!" дает возможность пользователю осуществлять классический полнотекстовый поиск с учетом морфологии русского языка более чем по 2,7 млн HTML-документов, половина из которых являются уникальными. Из достоинств данной системы представитель разработавшей ее компании "Агама" Евгений Киреев выделил следующие: возможность поиска по датам, адресам, подзаголовкам, ссылкам и т. п., "реконструкции" документа в том случае, если хранящий его сервер по какой-либо причине недоступен, а также осуществление рейтинга наиболее популярных слов, используемых в запросах. Основной технической задачей системы г-н Киреев считает повышение производительности аппаратного и программного комплексов, а с точки зрения содержания - дальнейшую интеграцию с каталогом-рубрикатором "АУ!".

Созданная компанией CompTek поисковая система Яndex начала работать полтора года назад, а вообще, ее авторы занимаются разработкой морфологических и поисковых алгоритмов с 1991 г. Проект был завершен два года назад, и вначале в нем использовалась чужая программа-робот: собственная была написана позднее. По мнению одного из авторов, Ильи Сегаловича, Яndex - почти идеальная система, предназначенная для поиска информации в текстах различной структуры с учетом морфологии русского и английского языков. "Дружественный" интерфейс Яndex позволяет непрофессиональным пользователям осуществлять поиск посредством нечетких запросов, а поисковику со стажем дает возможность ввести точный запрос (с "расстояниями", скобками, логическими операторами, подвыражениями, весами и пр.). Среди проблем, осложняющих задачи как разработчика, так и пользователя, г-н Сегалович назвал отсутствие формального стандарта на оформление русскоязычных Web-страниц.

Одной из самых популярных отечественных поисковых систем считается Rambler. Ее создатель Дмитрий Крюков (Stack Ltd.) впервые представил свое детище компьютерному сообществу в октябре 1996 г., когда в базе данных было всего 100 000 проиндексированных документов. В настоящее время Rambler физически состоит из пяти серверов, а его БД содержит более 3 млн неповторяющихся документов и ежедневно обрабатывает свыше 100 тыс. запросов. Весной 1997 г. компания приступила к работе над новым проектом - по организации системы рейтинга Web-серверов RamblerTop100, которая уже сегодня позволяет регистрировать миллионы запросов в сутки. Среди основных трудностей проекта г-н Крюков назвал большое число некачественных, неинформативных HTML-документов, а также сообщил, что в последние два месяца Rambler практически все затраты (зарплата сотрудникам, содержание поисковых машин и т. п.) окупает за счет рекламы.

В заключение зададимся вопросом: кто из российских пользователей Интернет, пытаясь установить соединение с нужным Web-узлом, хотя бы раз не испытывал раздражения при вводе длинных англоязычных URL? Так вот, похоже, что в ближайшее время данная проблема будет решена. Впервые представленная широкой публике на выставке Комтек'98 "Русская служба имен" компании "МедиаЛингва" наглядно подтвердила это. И, хотя "Русская служба имен" не является поисковой машиной, она может помочь пользователю быстро найти определенное место в Сети.

Год назад "МедиаЛингва" начала проект, позволяющий ввести в строке браузера ключевое слово (по-русски!) и попасть на нужный сервер, что как раз нужно пользователям-новичкам, а сейчас в Интернет их очень много. Еще это позволяет регистрировать поисковые логические имена (ведь пространство "удобных" доменных имен сужается, а "неудобные", как многие, наверное, уже успели убедиться, трудно запоминать и сообщать по телефону).

Установив бесплатный драйвер "Русской службы имен" (полученный, например, от ISP), пользователь сможет набирать "любимые имена" по-русски. Их разрешение осуществляется на сервере "Русской службы имен", и, кроме того, для пользователя предусмотрены средства создания локальной таблицы для разрешения имен. В случае конфликта пользователю предлагается на выбор несколько вариантов имен, а в случае отсутствия имени в БД на помощь приходит поисковая система.





  
6 '1998
СОДЕРЖАНИЕ

колонка редактора

• Cеть напрокат

локальные сети

• Сегментирующие концентраторы для рабочих групп

• Сопряжение сетей Ethernet и Fast Ethernet

• NDPS - решение проблем сетевой печати?

• Рост рынка волоконной оптики

• Можно ли Windows NT доверять секреты?

• Системы микроклимата

• Тестируем переключатели KVM

корпоративные сети

• На переднем крае IP-коммутации

• Исследуем связующее ПО

• Как выбрать коммутатор АТМ

услуги сетей связи

• Практические аспекты построения корпоративных сетей Frame Relay (часть II)

• Связь в Сургуте: слагаемые успеха

• Интеллектуальные сети и услуги

• Куда шагает Frame Relay

системы учрежденческой связи

• Системы микросотовой связи стандарта DECT

• Принципы выбора УПАТС (часть II)

• Документальная телеконференция: недостающее звено между аудио- и видеоконференц-связью

интернет и интрасети

• Border Manager - служба безопасности от Novell

• Кто ищет, тот всегда найдет

защита данных

• Защита от "вероломных" Java-приложений

• Серверы-посредники Socks

• CeBIT'98: технологии информационной безопасности

новые продукты

• Новые сетевые принтеры на Comtek'98, Не хочу отдавать обратно OfficeConnect Dual Analog, С возвращением, LANNET!; Мультисервисный концентратор доступа MC3810 фирмы Cisco, Пополнение семейства Vanguard, Кластер серверов от INPRO Computer Systems

только на сервере

• Система S.W.I.F.T. и информационная безопасность

• Экспертиза, проектирование и реинжиниринг



 Copyright © 1997-2007 ООО "Сети и Системы Связи". Тел. (495) 234-53-21. Факс (495) 974-7110. вверх