Ж у р н а л   о   к о м п ь ю т е р н ы х   с е т я х   и   т е л е к о м м у н и к а ц и о н н ы х   т е х н о л о г и я х
СЕТИ И СИСТЕМЫ СВЯЗИ on-line
  ПОИСК: ПОДПИСКА НА НОВОСТИ: НОМЕР:
    ДОМОЙ • Архив: Новостей | Конференций | НомеровПодписка
 
   
 
   
    
РЕДАКЦИЯ
 
Все о журнале
Подписка
Как проехать
Где купить
Отдел рекламы
График выхода журнала
Адреса в Интернет

РУБРИКАТОР
   
• Инфраструктура
• Информационные
   системы

• Сети связи
• Защита данных
• Кабельные системы
• Бизнес
• Колонка редактора
• Электронная
   коммерция

• Только на сервере
• Системы
   учрежденческой
   связи

• Новые продукты


  

Анализ трафика Web-узла

Рик Стаут

Независимо от предлагаемых вами товаров или услуг знание привычек и вкусов ваших клиентов поможет сделать ваш Web-узел более привлекательным.

Кто бы мог подумать, что столь прозаическая вещь, как анализ журнала посещений Web-сервера, сегодня станет одной из самых "горячих" тем? Тысячи больших и малых предприятий, устанавливая свои собственные Web-серверы, всегда сталкиваются по крайней мере с одной общей проблемой: оценкой эффективности работы своего узла во Всемирной Паутине. Независимо от конечной цели - реализовать побыстрее новые продукты или просто привлечь к себе максимум внимания и продать место для размещения рекламы — решение проблемы всегда сводится к одному: как, приложив минимум усилий и средств, составить наиболее точное представление о посетителях данного Web-узла? И тут разработчик ПО, решивший специализироваться по данному направлению, сталкивается с такой конкуренцией, с какой никто еще не сталкивался со времен появления первых версий Web-браузеров. При этом одна из задач состоит в том, чтобы в спешке установить стандарты и наметить дальнейший путь развития не похоронить под рекламной мишурой некоторые здравые идеи.

На выбор подхода в оценке эффективности Web-узла непосредственно влияет его предназначение. Продавая собственные товары или услуги, вы должны с помощью вашего Web-узла предоставить соответствующую информацию как можно большему числу потенциальных покупателей и убедить его посетителей приобрести их. Если же вы продаете рекламное пространство, вам необходимо максимально увеличить число посетителей вашего Web-узла, с тем чтобы они как можно чаще видели размещенную на нем рекламу, — только так вы сможете заработать.

В зависимости от характера вашего бизнеса вам потребуется различная информация о посещениях (визитах). При продаже своих собственных товаров (услуг) наиболее важными для вас будут сведения о том, как посетители используют ваш Web-узел. Вооружившись такой информацией, вы сможете своевременно внести необходимые изменения и привлечь внимание дополнительного числа потенциальных клиентов к своей продукции, убедиться в том, что они ознакомились с вашими предложениями, а также постараться рассеять их страхи, связанные с заказом продукции через Интернет.

Если вы хотите размещать чужую рекламу, то статистика посещений вашего Web-сервера больше будет нужна вашим потенциальным клиентам-рекламодателям. Последние заинтересованы в Web-узлах, имеющих массовую аудиторию, которые предоставляют глобальные средства поиска, содержат информацию о спорте, службы новостей или оказывают информационные услуги. Разумеется, на этом хорошо зарабатывают лишь несколько наиболее крупных и вызывающих всеобщий интерес Web-узлов. Гораздо больше мелких, конкурирующих между собой Web-узлов, и они буквально борются за трафик с целью "преодолеть планку" и привлечь своего первого рекламодателя. Перед тем как позволить одному из своих объявлений украсить ваш Web-узел, рекламодатели все чаще и чаще требуют статистический отчет о его посещениях или даже экспертное заключение, составленное третьей стороной. В этом случае вам следует найти фирму, которая занимается сбором и анализом Web-статистики, потому что рано или поздно вам не обойтись без такого рода услуги.

И все же для подавляющего большинства владельцев и администраторов Web-узлов основная цель заключается в представлении своего бизнеса во Всемирной Паутине, продаже своих товаров и услуг, а также в предоставлении клиентам необходимой дополнительной информации. И не важно, что вы делаете — производите свой собственный продукт или просто занимаетесь торговлей, — успех дела будет в значительной степени зависеть только от собственного вашего опыта и решений. Поэтому вам следует отдавать предпочтение самостоятельному анализу файлов регистрации посещений вашего Web-узла.

Основные принципы

С самого начала существования Всемирной Паутины разработчики Web-серверов придерживаются традиционного формата представления данных о регистрируемом сервером трафике. Для регистрации используются четыре основных файла: access log (журнал регистрации доступа), error log (журнал регистрации ошибок), referrer log (журнал ссылок) и agent log (журнал агентов). Комбинации этих журналов могут варьироваться, но именно они являются единственным источником информации о трафике, которую вы можете "выжать" из своего Web-сервера. Наиболее важным является журнал регистрации доступа, так как он содержит все HTTP-запросы (хиты — hits) для каждого обращения к Web-странице, графическому изображению, CGI-программе, аудиоклипу или другому объекту независимо от того, каким было это обращение — удачным или нет. Однако HTTP- запрос и обращение к Web-странице — это не одно и то же. Даже самая посредственная Web-страница может содержать с полдюжины графических изображений. При просмотре такой страницы посетителем Web-сервер обслуживает не только HTTP-запрос самой страницы, но также шесть HTTP-запросов изображений. Таким образом, при обращении к странице, содержащей шесть графических изображений, в журнале доступа появятся семь различных регистрационных записей. Теперь нетрудно понять, почему так часто злоупотребляют термином "хит". Что больше впечатляет: 100 000 хитов или 2000 посещений?

Журнал регистрации ошибок - второй, не менее важный файл регистрации. Хотя с точки зрения статистики не в такой степени, как предыдущий, но тем не менее он имеет особое значение для администраторов и Web-мастеров. В этот журнал заносятся записи в том случае, если Web-сервер регистрирует ошибку или аварийное состояние.

Большинство ошибок, в частности таких, как обращение к несуществующей странице, регистрируется в журнале доступа. Однако некоторые события записываются только в журнал ошибок. Например, если в ходе пересылки страницы читатель откажется от ее просмотра, в журнале ошибок появится запись "send lost connection", а в журнале доступа для большинства серверов такая запись не будет зарегистрирована. (В более новых версиях некоторых серверов в файл регистрации доступа записывается только действительное число переданных байтов для каждого объекта. Если число переданных байтов меньше размера запрашиваемого объекта, это означает отмену HTTP-запроса во время его выполнения.)

В журналах ссылок и агентов регистрируется дополнительная информация о посетителях: указатель URL страницы, из которой посетитель "попал" на данный Web-узел, а также тип его Web-браузера (и операционной системы). При желании привлечь внимание к новому Web-узлу такая информация поможет вам получить представление о том, как ваши будущие посетители узнают о его существовании.

Выработка стандарта

Одним из первых стандартов, которым воспользовались разработчики Web-серверов, стал формат представления данных в файле регистрации доступа (access log). Или, если выразиться более точно, сотрудники Национального центра США по приложениям для суперкомпьютеров (National Center for Supercomputing Applications) предложили свой оригинальный формат, ставший впоследствии стандартом де-факто.

Стандартный формат журнала доступа известен под названием "Common Log Format". Используя этот формат для каждого HTTP-запроса в журнале заполняется несколько информационных полей, а именно: имя пользователя (user name), обратившегося с запросом с удаленного компьютера; аутентификационное имя, под которым посетитель получил доступ к защищенной информации Web-узла; имя хоста (или IP-адрес), с которого был сделан HTTP-запрос; дата и время; текст HTTP-запроса, направленного с удаленного компьютера; статус-код, показывающий, успешным ли был запрос; количество байтов данных, переданных в результате выполнения запроса на удаленный компьютер. (В действительности первые два информационных поля заполняются редко, так как большинство операционных систем не сообщают пользовательских имен, а для большинства Web-узлов не требуется аутентификация.) Информация остальных пяти полей используется для аналитической обработки и построения на ее основе всевозможных графиков и диаграмм. Одна часть полученной информации может быть использована самостоятельно, например количество просмотров определенного HTML-файла. Другую же можно использовать в совокупности, в частности для определения времени, которое посетитель затрачивает на чтение определенной страницы. Оно равно разности временных отметок двух следующих друг за другом обращений к Web-страницам.

Комбинированный, или расширенный, формат журнала доступа является разновидностью стандартного Common Log Format. При комбинированном формате к концу записи в журнале доступа добавляется информация из журналов ссылок и агентов. Это иногда гораздо удобнее, чем вести данные журналы отдельно, поскольку при отдельном ведении каждого из них зачастую невозможно восстановить соответствие той или иной записи определенным запросам из журнала доступа. Однако проблема заключается в возможности последующей обработки этой информации, так как некоторые пакеты для анализа Web-трафика не могут работать с комбинированным форматом данных.

Программное обеспечение для Windows

Основная задача программных средств анализа Web-трафика — извлечение полезной информации из регистрационных журналов сервера, и, что самое удивительное, они с ней успешно справляются. Бесплатное и условно-бесплатное ПО для анализа Web-трафика существует почти столько же, сколько и сама Всемирная Паутина. Но лишь недавно разработчики коммерческих программных продуктов заметили эту нишу рынка и быстро заполнили ее. Некоторые разработчики концентрируют свои силы на отдельных программных продуктах, другие же тратят все свое время и деньги на попытки изменить направление анализа трафика в целом.

Такие компании, как, например, e.g. Sofrware Inc. и Interse Corp., занимаются тем, что наводят коммерческий глянец на старые, в сущности, идеи. Их продукты (WebTrends и Market Focus соответственно) обрабатывают журнал доступа в формате Common Log Format и, насколько он позволяет, генерируют на языке HTML детализированный отчет.

Самым лучшим считается пакет WebTrends, главным образом из-за его цветных графиков и диаграмм, а также формата отчетов, которые очень удобны для публикации статистики непосредственно на вашем Web-узле. С помощью пакета WebTrends генерируются пять видов отчетов: статистика подключений, статистика оплаты, краткая статистика, техническая статистика и полный отчет — комбинация всех перечисленных отчетов. С помощью пакета Market Focus создаются 14 стандартных отчетов, включая отчет по запросам, географическому местоположению, тенденциям в изменении запросов и частоты обращений, дневной и почасовой пропускной способности, а также полный отчет, включающий все вышеперечисленные.

Похоже, что фирмы — лидеры среди производителей ПО для анализа трафика Web-узлов ориентируются главным образом на пользователей Windows 95. Большинство же Web-серверов установлены на компьютерах под управлением Unix или Windows NT, поэтому ваша первоочередная задача — скопировать файл регистрации доступа с вашего Web-сервера на вашу рабочую станцию с ОС Windows 95. Пакеты WebTrends и Market Focus с помощью FTP обеспечивают автоматическую доставку файлов регистрации с удаленного сервера. После этого вы можете запускать программу и загружать в нее данные регистрации. Фактически рабочую СУБД используют все пакеты анализа Web-трафика.

Программное обеспечение для Unix

Если ваш Web-сервер установлен на Unix-машине, то вам лучше всего прямо на ней обрабатывать файлы регистрации и создавать статистические отчеты. Однако в этом случае выбор ПО не так широк. Точнее, у вас имеется даже больший выбор, но в большинстве своем программное обеспечение для Unix является либо бесплатным, либо условно-бесплатным, поэтому качество отчетов оставляет желать лучшего.

Как бы то ни было, все же имеется несколько популярных пакетов: getstats, gwstat, iisstat, Wusage и wwwstat. Если вам нужен высококачественный отчет, можно воспользоваться языком моделирования 3-D Virtual Reality Modeling Language пакета 3Dstats. А с помощью глобальной поисковой системы Yahoo! (www.yahoo.com) вы найдете и другое полезное ПО для Unix.

Несмотря на низкое качество отчетов, существует много поводов, чтобы использовать средства анализа для Unix, а именно: вы можете совместить выполнение программы анализа с упаковкой и архивированием ваших регистрационных файлов; не нужно передавать данные по локальной сети или через модем; возможна полная автоматизация процесса и выполнение его ежедневно в одно и то же время; с помощью CGI-сценария результирующий HTML-документ будет размещен в соответствующем месте. Более того, если вас не устраивает вид отчета, можно изменить его по вашему вкусу. Большинство программных средства анализа Web-трафика для Unix написаны на языках PERL или C. Программы на языке C распространяются обычно в виде исходного кода, который перед использованием вы в любом случае должны сначала откомпилировать.

Независимая экспертиза

Наряду с покупкой ПО и созданием своих собственных статистических отчетов можно воспользоваться и услугами сторонних фирм. Одной из первых среди такого рода компаний была Internet Profiles Corp. (I/Pro) из Сан-Франциско. Вместе с компанией Nielsen Media Research она предлагает программы для трех видов услуг: I/Count, I/Audit, I/Code.

С помощью I/Count анализируются файлы регистрации вашего сервера. По существу, эта программа представляет собой простой сценарий, который запускается ежедневно один раз в определенное время, "упаковывает" ваши файлы регистрации и отправляет их в I/Pro. Система I/Pro импортирует эти данные в свою базу данных, а затем, используя свой Web-браузер, вы можете получить стандартные отчеты. По сравнению с единовременными затратами на приобретение ПО для анализа трафика Web-сервера услуга I/Count стоит недешево. И если вы не рассчитываете на большой объем трафика и соответствующий доход, этот вариант, возможно, вам не подойдет. Размер месячной платы за услугу I/Count — от 200 долл. для узла с трафиком, не превышающим 5000 запросов в день, до 3000 долл. для узла с трафиком, рассчитанным на 100 000—300 000 запросов в день. Для узлов с трафиком, превышающим 300 000 запросов, оплату согласовывают в индивидуальном порядке.

I/Audit — следующий шаг в процессе анализа трафика Web-узла. При оформлении договора фирма I/Pro уделяет особое внимание проблеме передачи ваших регистрационных файлов и запрашивает информацию о периодах с минимальной производительностью. Обработав регистрационные файлы вашего Web-сервера с помощью своих алгоритмов и получив объяснение по каждому случаю отклонения от нормы, I/Pro предоставляет вам такой аудиторский отчет, о котором можно только мечтать. Он выглядит очень впечатляюще, однако и стоит довольно дорого — 5000 долл. за единовременную проверку либо 1500 долл. за ежемесячную.

I/Code — это универсальная система регистрации пользователей. Она основывается на старой идее проведения конкурсов и раздачи призов или купонов; ее цель — как можно больше узнать о посетителях вашего Web-узла. За участие в конкурсе посетители предоставляют его организаторам конфиденциальную информацию о себе, включая уровень образования и величину дохода. На раннем этапе развития Всемирной Паутины не таким уж редким событием было случайное нахождение Web-узла подобного типа. Но эта идея никогда не вдохновляла разработчиков Web — наверное, потому, что противоречила одной из самых привлекательных особенностей Web — возможности сохранять анонимность. И если бы эта идея получила широкое распространение, то пользователи после многократного ввода информации о себе и постоянных изменений имен и паролей, вероятно, стали бы просто избегать такие Web-узлы.

Идея фирмы I/Pro, воплощенная в продукте I/Code, заключается в том, что централизованная регистрация пользователей осуществляется только один раз, как и регистрация фирм. Для администраторов это небольшое приобретение, но у специалистов по маркетингу возможность получить полную классификацию посетителей Web-узлов наверняка вызовет восторг.

Продукт NetСount фирмы LLC из Лос-Анджелеса весьма похож на I/Count. Пакет NetCont пересылает ваши файлы регистрации в систему NetCount, находящуюся в Голливуде. Однако это делается чаще, а именно каждый час вместо одного раза в день. С помощью Web-браузера, работающего в защищенном режиме, вы получаете доступ к отчетам NetCount. Вид отчетов, которые вы можете получить, зависит от типа службы, на которую вы подписались. В системе NetCount имеются две службы: Basic и Plus. Служба Plus обеспечит вас большим количеством отчетов, схожих с отчетами I/Count. Впрочем, I/Count также напоминает средства анализа и услуги в Plus. В конце концов, все журналы доступа содержат примерно одну и ту же информацию, и число доступных методов ее интерпретации ограниченно.

Цены на услуги NetCount вполне устроят владельцев небольших Web-узлов. Узел с трафиком менее 200 000 запросов в день рассматривается в NetCont как нижний уровень. Услуги Basic для владельца такого узла обойдутся в 98 долл. в месяц, а услуги Plus — в 198 долл. Более высокие цены устанавливаются для узлов с трафиком более высоких уровней с интервалом 200 000 запросов в день.

Публикация рекламы

Для нескольких сотен очень больших и активных Web-узлов поверхностное отношение к анализу и аудиту их трафика можно оправдать. Часто для их менеджеров вполне достаточно только информации о том, как посетители используют Web-узел, и минимума сведений о том, что они собой представляют. Напротив, для множества небольших и растущих Web-узлов анализ и экспертиза состояния их трафика независимой фирмой необходимы, как доказательство того, что они могут размещать у себя рекламу. И наконец, начав продавать рекламное пространство, вы незамедлительно столкнетесь с новыми проблемами.

Не сомневайтесь, что рекламодателям обязательно захочется узнать, имеет ли ваш узел необходимый трафик, чтобы гарантировать возврат средств, вложенных ими в рекламу. Недостаточно просто поместить рекламу на Web-страницу. Рекламодатели хотят точно знать, сколько раз посетители увидят ее, чтобы сопоставить число увидевших рекламу с числом обратившихся по ней и тем самым определить рейтинг данной рекламы на данном узле.

Именно по этой причине реклама во Всемирной Паутине резко отличается от традиционной печатной рекламы. Оплата за размещение рекламных объявлений в газетах и журналах зависит от популярности конкретного издания, которой, в свою очередь, определяется количество людей, которые прочитают рекламу (иногда эта величина умножается на некий коэффициент, учитывающий, что некоторые журналы читают не только постоянные подписчики). Что же касается рекламодателей, размещающих свою рекламу или объявление на Web-сервере, то они могут оценить их фактическую эффективность, сравнивая рейтинги каждого. Возможно, именно поэтому сейчас наблюдается такой большой спрос на услуги фирм, осуществляющих анализ и аудит во Всемирной Паутине.

Другой и, возможно, лучшей альтернативой для компании, серьезно занимающейся Web-рекламой, может быть создание своего собственного рекламного сервера. Купив рекламное пространство на каком-нибудь Web-узле, эта компания вместо передачи графического изображения, которое должно быть встроено в HTML-страницу со ссылкой на локальный файл, будет передавать лишь указатель URL, содержащий необходимую ссылку. Этот URL позволяет браузеру посетителя получать графическое изображение прямо с сервера рекламодателя. Указатель URL может содержать прямую ссылку на графический файл. В этом случае рекламный сервер зарегистрирует запрос и информацию об источнике ссылки обычным способом. Однако чаще встречаются случаи, когда URL указывает на CGI-программу на рекламном сервере или локальном хосте, обслуживающую соответствующие (или случайно выбранные) рекламу или объявления, и регистрирует ресурс, на который сделана ссылка и информацию об источнике ссылки а также определяет рейтинги для различных видов рекламы.

Как вы уже, наверное, догадались, появились фирмы, предлагающие свои услуги по установке и запуску рекламного сервера. А это предоставляет еще более интересные возможности, в частности создание рекламной сети. Для рекламодателей, выбирающих узлы, наиболее важными критериями их оценки являются цена на публикацию рекламы и уровень интереса потенциальных клиентов к рекламируемому продукту. Например, фирма Odyssey Golf, вероятнее всего, разместит свою рекламу не на Web-узле музыкального архива, а на Web-узлах, содержащих информацию, связанную с гольфом. Число обращений к рекламе или объявлениям также имеет большое значение. Многие рекламирующие что-либо компании и особенно рекламные агентства, которые ищут для своих клиентов возможности вложения денег, не заинтересованы в малых объемах рекламных операций. Если ваш Web-узел не обслуживает по крайней мере 100 000 запросов в день, что соответствует примерно 20 000 посещениям, то они, вряд ли, обратят на вас внимание. Владельцы специализированных Web-узлов, пользующихся популярностью, объединяются в рекламные сети. Эти сети, работающие на базе обычного ПО и зачастую обслуживаемые одним-единственным центральным рекламным сервером, в состоянии предложить рекламодателям такой объем распространения их рекламы, какого ни один из них не смог бы достичь самостоятельно


распечатать статью




  
3 '1997
СОДЕРЖАНИЕ

колонка редактора

• "Операция Ы-2", или Интеллектом сервер не испортишь

локальные сети

• Высокоскоростные сетевые адаптеры PC Card

• Microsoft и стандартизация дезинтегрируют сетевые ОС

• Варианты запуска кроссплатформенных приложений

корпоративные сети

• АТМ готова к работе на вашей магистрали

• Новые горизонты системного управления

• Факс-серверы масштаба предприятия экономят время и деньги

• Операционные системы: универсальность или многофункциональность?

• Проблемы внедрения корпоративных информационных систем

услуги сетей связи

• ISDN в России: первые шаги

• Как автоматизировать обработку телефонных запросов

• Выбираем устройство доступа к сети Frame Relay

• На пути к персональной связи: сети AMPS в России

• Первая пейджинговая сеть с двусторонней передачей сообщений

• Frame Relay и АТМ в Европе: догнать и перегнать Америку

интернет и интрасети

• "Узкие" места в сочетании Интернет + интрасеть

• Программное обеспечение: как получить поддержку?

• Анализ трафика Web-узла

• Не все Web-узлы сотворены равными...

защита данных

• Хорошо ли защищен ваш Web-узел?

• Правильный выбор системы firewall

новые продукты

• Dell PowerEdge 2100; HP NetServer E40 — сервер для малого бизнеса; Коммутация на третьем уровне в LANswitch; Новый Ultra Enterprise в стране "лилипутов"; Network Flyer 100 фирмы TDK Systems; SnapBack 4 фирмы Columbia Data Products; Internet LanBridge фирмы Virtual Motion; CycloneRAID фирмы Western Scientific; Firewall-1 фирмы CheckPoint Software Technologies; KEYview Pro: работаем с файлами приложений



 Copyright © 1997-2007 ООО "Сети и Системы Связи". Тел. (495) 234-53-21. Факс (495) 974-7110. вверх