Журнал о компьютерных сетях и телекоммуникационных технологиях
СЕТИ И СИСТЕМЫ СВЯЗИ on-line
  ПОИСК:
    Домой
 
   
АРХИВ ЖУРНАЛА
   

2008: 1 2 3 4 5 6 7 8 9 10 11 12 13
2007: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2006: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2005: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2004: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2003: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2002: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2001: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2000: 1 2 3 4 5 6 7 8 9 10 11 12 13 14
1999: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1998: 1 2 3 4 5 6 7 8 9 10 11 12
1997: 1 2 3 4 5 6 7 8 9 10 11 12
1996: 1 2 3 4 5 6 7 8 9 10


Rambler's Top100

  

Идеальная поисковая машина

Дж. Николас Хувер

Никак не найдете в Интернете то, что вам нужно? Возможно, вам помогут персонализированные беззапросные поисковые машины.

Поисковая машина, этот основанный на браузере инструмент, в строке запроса которого вы печатаете искомую фразу и, надеясь на лучшее, нажимаете на клавишу Enter, сегодня становится все менее эффективной, отвечая множеством нерелевантных URL-ссылок. Как заявляют представители Microsoft, прежде чем люди находят то, что им необходимо, они «блуждают» по Интернету в среднем 11 минут, а часть из них прекращает поиск и того раньше. По оценкам исследовательской компании Gartner, половина веб-продаж не реализуется потому, что потенциальные покупатели просто не смогли найти в Интернете то, что им нужно. Компании Google, Microsoft, Yahoo и десятки специалистов в области поисковых машин изо всех сил стараются угодить своим корпоративным заказчикам, наперегонки разрабатывают технологии «следующего поколения», позволяющие людям быстрее находить в Интернете интересующую их информацию. С появлением новых инструментальных средств пользователям больше не придется формулировать свои запросы на примитивном языке, понятном поисковым машинам первого поколения. Они смогут делать их на английском либо на других языках или вообще обходиться без запросов, получая нужные им результаты автоматически, на основе ранее сделанных ими запросов или используемых приложений.

Полученные пользователем результаты будут включать аудио- и видеофайлы, слайды PowerPoint и другую графику наряду со структурированными данными — и все это в одном потоке результатов, полученных из Интернета, ПК и БД предприятия. Со временем сервису поиска изображений даже не понадобится анализировать метаданные — он обнаружит запрошенную информацию непосредственно на изображениях.

Результаты поиска станут более точными и автоматически резюмируемыми, а их релевантность будет определяться в соответствии с индивидуальными предпочтениями пользователей. Такие новые методы представления данных, как кластеризация, тегирование, графические шкалы, расширяющие или сужающие область поиска на основе задаваемых пользователем параметров, и автоматическая категоризация, упростят навигацию по результатам поиска. Кроме того, поисковые машины дополнятся человеческим интеллектом и «мудростью масс» посредством тегирования, коллективных закладок и совместного поиска.

Нам не придется долго ждать появления тех или иных более мощных поисковых машин: многие производители уже сегодня оснащают свои продукты для поиска информации наисовременнейшими функциями. Кратко рассмотрим их ниже.

Полную версию данной статьи смотрите вo 2-ом номере журнала за 2008 год.

Изучение языка

Большинство сегодняшних поисковых машин требуют задействования специального языка, называемого иногда языком ключевых слов. В совсем еще молодой компании Powerset, использующей в своей поисковой машине обработку текстов на естественном языке, уверены в том, что в следующем десятилетии поисковые машины с точки зрения понимания смысла запроса станут гораздо более совершенными, чем сегодня. Powerset, Hakia и другие компании разрабатывают поисковые машины, использующие для интерпретации запросов, анализа веб-контента и, если это необходимо, уточнения результатов поиска через взаимодействие с пользователями, лингвистику (науку о языке). В компании Hakia, например, представляют себе поисковые машины, которые в будущем будут выглядеть умными созданиями, если научить их правильно говорить и понимать человеческую речь.

Семантическая поисковая машина во многом анализирует язык подобно тому, как это делает студент, изучающий английский, используя для толкования значений слов и согласования их между собой по общим правилам синтаксиса и структуры предложения словари и тезаурусы. Предложение: «IBM купила Tivoli за 743 млн долл. в 1996 г.» — включает в себя такие понятия, как «покупка», «покупатель», «объект покупки», «год покупки» и «цена».

В настоящее время этот процесс наполовину выполняется человеком, он применяет языковые правила и определяет категории для сужения области поиска, в то время как поисковая машина Hakia для грубого определения значения все еще не понимаемых ею понятий может использовать разные языковые подсказки. Такие компании, как Google и Yahoo, тоже используют лингвистику, хотя их поисковые машины не столь сильно продвинулись в области семантического поиска, как машины Hakia или Powerset. Поисковая машина Goog-le может проверять орфографию и предлагает синонимы и варианты слов, однако на запросы она иногда отвечает не совсем точно.

Технология корпоративного поиска компании Autonomy придала мощь порталу Федерального учебного центра по вопросам охраны исторического, культурного и природного наследия США, являющегося шлюзом к хранилищу документов по тематике правил и методов охраны памятников истории. Указанный институт использует семантический поиск для облегчения неспециалистам поиска нужной информации. Это позволяет им задавать вопросы на обычном разговорном языке, не прибегая к профессиональному лексикону. Например, посетитель узла может спросить что-нибудь о крышах из красной черепицы в Калифорнии и получить в ответ на свой запрос множество релевантных ответов.

Компания IBM работает над созданием специализированного текстового анализатора для учреждений здравоохранения и правительственных организаций. Заказчики обращаются к ее поисковой машине OmniFind Analytics, чтобы определить такие нюансы, как отношение (негативное или положительное) к рассматриваемой проблеме автора документа, и специальные слова, понятия и термины, используемые внутри компании.

Беззапросный поиск

Интуиция — прекрасный учитель. Разрабатываемые сегодня поисковые машины будут способны осуществлять за вас поиск на основе ваших предыдущих запросов и без каких бы то ни было подсказок с вашей стороны. Или же с целью предоставления релевантной информации они смогут осуществлять поиск по информационному окружению, используя контекст документов Word или таблиц Excel. Программа iTunes компании Apple нечто подобное делает уже сегодня: при проигрывании с жесткого диска какой-либо мелодии она отображает страницу соответствующего раздела онлайнового музыкального магазина iTunes Store компании Apple.

Добиться, чтобы все это работало правильно, не так-то легко. Интуитивный поиск — это самая труднореализуемая возможность поисковой системы. Она требует большой вычислительной мощности, а разработка интерфейса для нее весьма сложна.

Компания MediaRiver создала загружаемую утилиту поиска под названием Watson, которая для поиска и возвращения результатов без инициации пользователем запроса использовала информацию, содержащуюся в веб-браузере и приложениях ПК. Это был отличный продукт, но не снискавший успех на рынке. Зато он получил вторую жизнь в программных компонентах ClickSurge компании MediaRiver, отыскивающих на веб-странице концептуальные понятия и встраивающих в нее релевантные ссылки. Аналогичный продукт Pico компании Blinkx пока отодвинут ею на «задворки», поскольку она позиционирует его как средство видеопоиска.

Как бы там ни было, но беззапросный поиск представляется перспективным. Компании Google и Yahoo уже давно оповещают об этом своих пользователей, предлагая им подписаться на сервис поиска, а затем, при появлении новых результатов по нужной тематике, получать электронные сообщения. Такие инструменты панели браузера, как StumbleUpon (случайная ссылка) и GoogleDice (беззапросный вызов), отсылают пользователя на рекомендуемые сайты одним щелчком мыши, задействуя для этого накопленные на ПК данные. Сервис Y!Q компании Yahoo и браузер Mozilla Firefox предоставляют возможность выделить на веб-странице слова или фразы и запустить поиск путем нажатия правой кнопки мыши.

Продукт компании Yahoo в большей мере ориентирован на контекст страницы, где был начат поиск. Поэтому поиск по словосочетанию Florida Gators («флоридские аллигаторы»), инициированный на странице о футболе, не даст вам результатов, содержащих информацию о рептилиях, а вернет список ссылок на университетский футбольный клуб.

Персонализация

Один и тот же термин — «гражданская война» (civil war) — у разных людей может вызывать самые разные ассоциации: для американцев это поворотный момент ее истории, для либерийцев борьба между сторонниками и противниками президента республики, а для многих других всего лишь песня известной группы Guns’N’Roses. Чем больше поисковая машина знает о пользователе, осуществляющем поиск в Интернете, тем более информированные догадки о его намерениях она может «строить».

Судя по всё возрастающему числу новых пользователей, персонализированные страницы iGoogle компании Google представляют собой ее самый быстроразвивающийся продукт. Поисковая система Google узнаёт, что пользователи хотят найти, и «выталкивает» им соответствующую информацию через новостные каналы рассылки RSS Feeds и мини-приложения («гаджеты») Google Gadgets. Или же пользователи могут настроить вкладку «Рекомендации» (Recommendations) на домашней странице Google, которая предварительно настраивается в соответствии с ранее выполненными поисковыми запросами.

Пользователи с учетной записью Google (Google Account) имеют возможность сохранять все поисковые запросы, которые они когда-либо делали. По словам Сепа Камвара, технического руководителя группы персонализации компании Google, это позволяет «устранять неоднозначности запросов» (query disambiguation). В частности, если кто-то интересуется компьютерами и регулярно делает поиск по ключевому слову Apple, то он, наверное, интересуется не яблоками, а компанией Apple. Архивированные данные позволяют Google давать подсказки посредством кнопки инструментальной панели браузера, вкладки iGoogle или страницы «История веб-поиска» (Web History).

Хранящиеся в базах данных компании Google огромные объемы поисковой информации создают проблемы с конфиденциальностью. Эти проблемы удерживают ее соперников, таких, например, как Yahoo, от реализации более глубоких возможностей персонализации поиска. Инженеры Google утверждают, что прозрачность процесса применения накопленных поисковых данных является ключом к устранению негативной реакции пользователей на персонализацию поиска. Используя чью-либо информацию о поисках, Google сперва показывает ее владельцу, чтобы тот мог изменить ее.

Персонализированный поиск можно также задействовать в корпоративных средах. Так, администратор поисковых продуктов компании Vivisimo назначает документам по персоналу более высокую значимость для рекрутеров, чем для торговцев. По мнению разработчиков поисковой платформы OmniFind компании IBM, выпускаемой в четырех редакциях: корпоративной, аналитической, для добавления контекстных ссылок к результатам поиска и бесплатной версии, совместно спонсируемой IBM и Yahoo, одно из преимуществ интрасети состоит в том, что людям нет необходимости соблюдать свою анонимность. А в подразделении поисковых систем издательства Reed Business отмечают, что персонализированный поиск лучше всего работает у часто выполняющих поиск пользователей, а не у тех, кто посещает веб-сайты лишь время от времени.

Навыки общения

Уже с самых первых дней существования Всемирной паутины поиск информации в ней носил социальный характер. Компания Yahoo начинала со списка ссылок на сайты, которые, по мнению ее основателей, были интересными для ее клиентов. Алгоритм PageRank компании Google отчасти основан на числе ссылок на данной странице, указывающих на другие веб-страницы. С появлением Web 2.0 поисковые машины выдают, кроме всего прочего, и результаты «социального поиска», применяя для этого не только коллективные закладки и тегирование, но и совместный поиск и поисковые системы, способные «самосовершенствоваться» по мере увеличения числа использующих их людей.

Как говорит вице-президент Yahoo по поиску Тим Мейер, одним из пунктов стратегии компании является дифференциация по способу выполнения социального поиска. Наряду с обычными результатами поиска не так давно стали выводиться и человеческие ответы на веб-запросы (Yahoo Answers). Покупка компанией Yahoo сайта Deli.cio.us позволила ей расширить свои поисковые возможности за счет добавления коллективных закладок в набор стандартных функций поиска.

Специалисты Microsoft уже реализовали возможность совместного поиска, названного ими Collections, позволяющего людям совместно использовать аннотированные карты поиска, и собираются применить в масштабе всего Интернета генерируемые пользователями визуальные «облака тегов» (tag clouds). Компания по предоставлению услуг корпоративного поиска Vivisimo в настоящее время тестирует функцию, позволяющую служащим компаний тегировать, ранжировать, категоризировать и аннотировать результаты поиска. Компания Connectbeam продает технологию тегирования и коллективных закладок в качестве программной надстройки к другим продуктам корпоративного поиска.

«Облака тегов» и коллективные закладки имеют свои ограничения. Слишком большое число тегов снижает надежность поиска, тогда как слишком малое их число может иметь результатом огромный объем связанной с ними информации. В группе по борьбе с веб-спамом компании Google считают, что теги и закладки являются сокровенной мечтой спамеров и лиц, злоупотребляющих возможностями оптимизации поисковых машин.

Тем не менее в плане коллективного поиска компания Google медленно, но верно продвигается вперед. «Магические закладки» на персонализированных страницах iGoogle предоставляют меню «гаджетов» и новостных каналов, которые, будучи сформированными на основе созданных другими пользователями Google закладок, оказываются релевантными поисковому запросу (например, слову «путешествие»). При этом алгоритм предоставляет пользователю «гаджеты», которые не содержат слово «путешествие», но тем не менее оказываются полезными.

Компания Collarity в отношении реализации этой концепции продвинулась на шаг вперед, наделив свою поисковую машину Relevance Engine, используемую медиакорпорацией FoxNews.com, функцией коллективной фильтрации. Если кто-нибудь осуществляет поиск на этом сайте по слову Iraq (Ирак), то поисковая машина выдает список рекомендуемых ссылок по этой теме, исходя из того, какие сайты просматривали другие люди после получения результатов поиска по запросу Iraq. Однако в механизм рекомендаций этого сайта будут вводиться только ссылки тех пользователей, которые проводят много времени в новостях по Ираку, поскольку они являются людьми, глубоко интересующимися этим вопросом и наверняка более осведомленными в нем.

Ориентация на результаты

Кто сказал, что окно редактирования запроса и список из десяти ссылок — это и есть весь поиск? Результаты поиска представляются сегодня самыми разными способами, начиная с автоматической кластеризации и категоризации и кончая фактическими ответами на вопросы. Напечатайте Seattle traffic («движение транспорта в Сиэтле») в строке ввода запроса поискового сервиса Live Search компании Microsoft — и перед вами появится дорожная карта, на которой шоссе и магистрали Сиэтла будут помечены разным цветом в соответствии со скоростью движения транспорта по ним. Аналогичным образом напечатайте в Google Abraham Lincoln’s birthday («день рождения Авраама Линкольна»), и первый же результат над списком остальных выведенных указателей URL покажет вам фактическую дату — 12 февраля 1809 г.

Компания Vivisimo предоставля-ет также потребительский поисковый сервис Clusty (Clustering En-gine), он «прочитывает» текст веб-страниц и, используя механизм смыслового понимания, категоризирует на лету первые 200 возвращенных документов. Clustering Engine компании Vivisimo, например, определяет, что понятия pretty и gorgeous являются родственными, и группирует результаты поиска в категории исходя из такой общности. Это помогает людям контекстуализировать информацию и предоставляет некую систему для ее организации.

Генерируемые компьютером кластеры результатов являются особенно полезными там, где пользователи не могут судить о степени релевантности результатов поиска на основании популярности того или иного сайта. Как и Vivisimo, компания Endeca выполняет автоматическую кластеризацию, задействуя механизм управляемой навигации (guided navigation), основанный на том предположении, что довольно часто люди ищут не что-либо конкретное, а то, что они не могут четко выразить словами.

Демонстрацией того, как все это работает на практике, является оснащенный поисковой системой Endeca веб-сайт розничной торговой компании Home Depot. Поиск по запросу fridge («холодильник») генерирует такие группы данных, как категория, цена и торговая марка, каждую из которых можно при желании сузить. Эти группы пополняются данными на основе метаданных о каждом конкретном типе холодильника. В компании Endeca обещают, что впоследствии вся эта информация будет представляться в удобном для просмотра виде.

Чтобы находить всю опубликованную на блогах и медиасайтах информацию о том или ином бренде, категоризировать его освещение в средствах массовой информации как благоприятное или неблагоприятное, делать его количественную оценку и изображать последнюю в виде графика, показывающего изменение восприятия бренда со временем, компания Factiva использует поисковую технологию фирмы Fast Search & Transfer.

Еще одним примером использования поисковых механизмов для сбора новых сведений является сервис Google Trends — проект лабораторий Google, который будет показывать искателям информации, что, скажем, в одно и то же время наблюдается всплеск интереса к озеру Тахо и лыжному спорту. Если компьютеры станут лучше «ориентироваться» в окружающем их мире, компании смогут лучше понимать, что люди ищут в Интернете.

Поиск разнородной информации

Сегодняшние поисковые машины Интернета могут просматривать файлы HTML, файлы Office и метаданные аудио, видео и фотоизображений. Завтрашние поисковики научатся просматривать непосредственно фотоизображения, аудио и видео (не прибегая к просмотру метаданных) и выводить их вместе с другими результатами поиска. В компании Autonomy уверены, что в будущем не будет отдельных поисковых систем для аудио-, видео- и текстовой информации.

Механизм универсального поиска Google является первой ласточкой в этом направлении, хотя модели релевантности для разных типов данных не всегда хорошо стыкуются друг с другом. Имеются и другие признаки прогресса: технология Autonomy способна обнаруживать изменения в сценах и разделять видео на доступные для поиска сюжеты. Кроме того, поисковые механизмы компаний Autonomy, Sonic Foundry и Nexidia могут искать звуковые дорожки в видео- и аудиофайлах.

Торгующая одеждой и аксессуарами компания Like.com является одним из примеров превалирующего направления в поиске изображений. Функция Likeness Search этого веб-сайта предоставляет пользователям набор шкал с бегунками для указания своих предпочтений по цене, расцветке и фасо-ну одежды. Компании Microsoft и Google со своей стороны разработали технологию, способную осуществлять поиск по лицам.

И все же механизму поиска изображений еще далеко до механизма поиска текстовой информации. В IBM полагают, что, прежде чем поисковые машины смогут просматривать картинки и описывать их словами, людям еще долго придется добавлять текстовые теги к изображениям и видео.

Тем не менее инновации в области поисковых машин, подгоняемые в основном рыночной необходимостью, набирают обороты. Сегодня, когда в Интернете и корпоративных БД накапливаются все новые и новые петабайты данных, должны измениться и инструментальные средства для поиска нужной нам информации..

  
2 '2008
СОДЕРЖАНИЕ

бизнес

• IP-коммуникации и операторы связи

• Как заслужить звание «лучшего работодателя»?

инфраструктура

• Особенности построения ЦОДа для оператора связи

• Планирование ЦОДа с нуля: выбор места размещения

• Точки доступа БЛВС: от «толстых» к «тонким» и снова на круги своя

информационные системы

• Обеспечь поддержку виртуализации или уходи

• Анализаторы речи для контакт-центров

• XenServer Enterprise — достойный вариант виртуализации

• Тестируем продукты управления производительностью приложений

• Идеальная поисковая машина

сети связи

• Видеосервисы нового поколения

• IP-телефония: продвижение в некоммерческом секторе

• Windows Mobile 6 набирает обороты

• Нужны ли вам фемтосоты?

кабельные системы

• Оптические кабельные инфраструктуры: соединительное и распределительное оборудование

• На пути к 100-Гбит/с технологии Ethernet

защита данных

• Рискованное дело

новые продукты

• Концентраторы абонентского доступа для сетей NGN; Разъемы Smart Quick-Fit компании Huber-Suhner


• Калейдоскоп


Реклама:
 Copyright © 1996-2008 ООО "Сети и Системы Связи". вверх