На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
09 Декабря 2024

Создание программных средств для анализа посещаемости сайта

Статья опубликована в выпуске журнала № 1 за 2009 год. [ на стр. 86 ]
Аннотация:
Abstract:
Авторы: Юсифов Ф.Ф. (farhadyusifov@gmail.com) - Институт информационных технологий Национальной академии наук Азербайджана (доцент), Баку, Азербайджан
Ключевые слова: регистрационные журналы сервера, аналитический сервис, бесплатные продукты (системы), счетчик посещений, эффективность работы сайта
Keywords: , , , ,
Количество просмотров: 9530
Версия для печати
Выпуск в формате PDF (3.60Мб)

Размер шрифта:       Шрифт:

Получение и обработка статистических данных о посетителях сайта – важная задача для определения эффективной маркетинговой стратегии и оптимального использования Web-сервера. Тщательный анализ журналов сайта может помочь в выработке четкой стратегии развития [1].

Тысячи больших и малых предприятий, устанавливая собственные Web-серверы, неизбежно сталкиваются с оценкой эффективности работы своего Web-сайта. Можно отметить, что, конечно же, на выбор подхода к оценке эффективности Web-сайта непосредственно влияет его назначение. Например, реализуя собственные товары или услуги, продавец должен с помощью своего Web-сайта предоставить соответствующую информацию как можно большему числу потенциальных покупателей и убедить его посетителей приобрести их. Продавая рекламное пространство, необходимо максимально увеличить число посетителей Web-сайта, чтобы они как можно чаще видели размещенную на нем рекламу. В зависимости от характера бизнеса потребуется различная информация о посещениях. При продаже собственных товаров (услуг) наиболее важными будут сведения о том, как посетители используют Web-сайт. Вооружившись такой информацией, можно своевременно внести необходимые изменения и привлечь внимание дополнительного числа потенциальных клиентов к продукции, убедиться в том, что они ознакомились с предложениями.

В настоящее время крупный корпоративный сайт не может обойтись обычным счетчиком посещений, так как администратору сайта необходимо контролировать множество параметров и улучшать качество обслуживания Web-ресурсов. Среди контролируемых параметров – общее число хитов и хостов для сайта в целом, число посе- щений с поисковых систем, IP-адреса и время посещения сайта каждым из посетителей, ключевые слова (по которым сайт был найден), тип и версия операционной системы и браузера посетителя и др. [1,2].

Существует ряд бесплатных продуктов (известные системы Analog или WebStat), как пра- вило, реализованных в виде Java-аплета, чи- тающего в режиме реального времени журнал сайта и отображающего на html-странице неко- торое фиксированное количество отчетов. Эти решения предполагают относительно небольшой размер журнала и скромные потребности пользователей [1,3].

Также можно отметить аналитический сервис, который предоставляется на сайте третьей фирмы компаниям, предпочитающим не эксплуатировать программное обеспечение, а арендовать чужие вычислительные ресурсы. Пользователь располагает на своем сайте специальный скрипт-шпион (spider), который получает информацию от браузера посетителя и посылает его на сайт поставщика сервиса, где информация записывается в общую базу данных. При входе на личную страницу этого сайта пользователь сервиса может выполнять параметризованные запросы и получать отчеты заданной формы. Одним из популярных примеров такого сервиса на Западе является WebTrends компании NetIQ, а в России – SplyLog одноименной компании [1].

Популярность WWW продолжает расти, и поэтому есть потребность в разработке методики и инструментальных средств для обнаружения и обработки информации. Основная задача программных средств для анализа Web-трафика – извлечение полезной информации из регистрационных журналов сервера.

Анализ посещаемости сайта – процедура сбора информации об основных источниках трафика, о географии посетителей, выявление популярных страниц. Это позволяет определить сильные и слабые стороны сайта с точки зрения посетителей и выработать советы по улучшению его содержания и структуры.

Существуют три основных способа идентификации пользователей [1]:

·      по IP-адресу компьютера посетителя – у данного способа максимальные недостатки по сравнению с остальными, поскольку сайт могут посетить несколько пользователей с одним и тем же IP-адресом, например, работающие через прокси-сервер;

·      по файлам cookies – небольшим файлам с данными, которые Web-сервер при его посещении через браузер оставляет на компьютере пользователя; таким образом, во время следующего визита сервер знает, что данный пользователь уже был его посетителем ранее (основные недостатки обусловлены тем, что файлы cookies идентифицируют именно браузер пользователя, а не конкретного человека);

·      при обязательной регистрации пользователей – в этом случае при посещении сайта или обращении к одному из сервисов сайта пользователь вводит свои имя и пароль, и система в течение всего визита может однозначно идентифицировать его; этот способ допускает меньше всего погрешностей при подсчете пользователей и их повторных визитов, но, к сожалению, применим лишь к отдельным сервисам.

Основными методами сбора информации о поведении посетителей на сайте являются анализаторы и использование статистики, получаемой при анализе лог-файлов сервера [1].

При проведении исследований необходимы специальные инструменты для анализа трафика. В связи этим можно отметить, что время, когда инструмент (счетчик) представлял собой простейший скрипт на платформе PHP или Perl, и файл, в котором хранилось число посещений, увеличиваемое на единицу при обращении к страницам сайта, на данный момент довольно примитивны. Теперь системы анализа посещаемости сайта являются серьезными Web-приложениями, требующими тщательной разработки.

Сайты крупных и даже некоторых небольших компаний, как правило, динамически генерируют Web-контент из содержимого базы данных. К сожалению, это осложняет анализ поведения посетителя сайта, поскольку большинство программ для анализа регистрационных журналов воспринимают их как ссылки на одну и ту же страницу. Необходимо убедиться в том, что приобретаемый для анализа регистрационных журналов инструмент позволит определять указанные параметры. Анализируя строки запросов целиком, можно получить более детальные отчеты.

Приведем сведения, которые должна собирать система сбора и анализа статистической информации по посещаемости сайта [1,2,4]:

·      количество хостов (уникальных IP-адресов), хитов (общее число загрузок страниц) как по сайту в целом, так и по каждой странице;

·      статистика по используемым посетителями операционным системам и браузерам;

·      информация по IP-адресам и времени последнего посещения сайта каждым из посетителей;

·      информация по количеству посетителей, пришедших на сайт с поисковых систем (Rambler, Google, Yahoo! и др.);

·      количество посещений сайта со страниц, на которых расположены ссылки на сайт.

Для построения системы на платформе PHP потребуется, как известно, несколько таблиц в базе данных MySQL. Отметим, что необходим учет статистической информации для каждой страницы сайта, число которых не ограничено, необходима таблица, в которой будет храниться информация о каждой из страниц, участвующих в сборе статистической информации.

Рассмотрим один из основных модулей создания системы анализа посещаемости сайта на платформе PHP.

  // Определение число посетителей с уникальными IP-адресами за последние сутки

  $query = "SELECT count(distinct ip) FROM ip

            WHERE putdate > NOW() - INTERVAL 1 DAY $tmp";

  $num = mysql_query($query);

  if(!$num) puterror("Ошибка при обращении к базе IP-адресов...");

  $total = mysql_result($num,0);

  // Определение числа страниц

  $number = (int)($total/$pnumber);

  if((float)($total/$pnumber)-$number != 0) $number++;

  …………..

  // Вывод ip-адреса

  ?>

      <table class="bodytable" border="1" cellpadding="4" cellspacing="0" bordercolordark="white" bordercolorlight="gray" align="center">           <tr><td class=headtable><p>IP-адрес</td><td class=headtable><p>Хост</td><td class=headtable><p>Всего<br>посещений</td><td class=headtable><p>Последнее&nbsp;обращение</td></tr>   <?

Скрипт выводит таблицу, $pnumber строк и столбцы: IP-адреса, хост и время последнего обращения.

Для тщательного анализа посещаемости сайта на основе некоторых довольно популярных рекомендаций Web-разработчиков можно сделать следующие выводы.

– По статистике, о посетителе известно только одно – его IP-адрес, но он ни о чем не говорит аналитику. Поэтому можно добавить модуль, который запрашивает по IP-адресу имя хоста. Однако это не всегда дает точную информацию, например, сервер посетителя может находиться в домене com и при этом располагаться в любой стране.

– Более точный способ получить код страны посетителя из его IP-адреса – выполнить запрос к одной из баз данных в сети, хранящей зарезервированные диапазоны IP-адресов. Для получения кода города или региона можно выполнять запрос к региональным серверам. Это важнейший вид анализа для глобального бизнеса – международного или в масштабах страны.

– Из строки ссылки для поисковых машин выделяются поисковые слова, что позволяет анализировать области целенаправленных интересов посетителей, а также соответствие этим интересам мета-тегов и контента сайта.

– Можно получать отчеты о количестве пользователей, зашедших на сайт, по ссылкам с других сайтов и с поисковых машин. Из полной ссылки на ссылающуюся страницу можно выделить тип ссылающегося сервера: поисковая машина, News Groups, ссылающийся сайт и собственный сайт. В таблицу журнала добавляется поле «Категория ссылающегося сервера», и создается связанный с ним справочник, также добавляется поле, в которое записывается имя сервера, вычлененное из ссылки.

– Можно отфильтровать категорию ссылающегося сайта, при этом страницы будут показывать маршрут движения посетителя.

Как отмечено ранее, сделать сайт более привлекательным и полезным для пользователей или потенциальных заказчиков может детальный анализ регистрационного журнала сайта с применением профессиональных Web-анализаторов. Однако многие администраторы, и без того перегруженные информацией, испытывают значительные трудности, интерпретируя данные регистрационных журналов Web-серверов. С этой целью для повышения эффективности работы Web-сайтов необходимо применение Web-анализаторов, способных принести компании максимум пользы. Для создания таких интеллектуальных Web-анализаторов могут использоваться методы Data mining.

Можно отметить, что с начала существования WWW разработчики Web-серверов придерживаются традиционного формата представления данных о регистрируемом сервером трафике. Для регистрации используются четыре основных файла: access log (журнал регистрации доступа), error log (журнал регистрации ошибок), referrer log (журнал ссылок) и agent log (журнал агентов) [5]. Комбинации этих журналов могут варьироваться, но именно они являются единственным источником информации о трафике. Используя данные этих файлов, можно тщательно анализировать пользователей сайта.

Основные принципы построения Web-анализатора можно предложить в следующей форме: инициализация, настройка параметров, чтение лог-файлов, обработка данных, семантический анализ, вывод результатов.

В заключение отметим, что область анализа Web-трафика и создание лог-анализаторов не теряют своей актуальности. Хорошим показателем может служить возросшее число научно-исследовательских работ в этой области. При этом особое внимание уделяется созданию интеллектуальных систем для анализа Web-трафика и идентификации пользователей.

Литература

1.   Рабин Д. Изучайте журналы посещений. // Сети и системы связи. – № 1, 2005 (http://ccc.ru/magazine/depot/05_01/read. html?0201.htm).

2.   Iváncsy R., Vajk I. Different Aspects of Web Log Mining. // 6th International Symposium of Hungarian Researchers on Computational Intelligence. Budapest, 2005.

3.       Марков Р. WrSpy – считаем и контролируем трафик почтовых и прокси-серверов. // Системный администратор,  август, 2005.

4.   Коггзолл Д. PHP 5. Полное руководство. – М.: Издат. дом, 2006.

5.   Юсифов Ф.Ф. Извлечение знаний из Интернет с использованием лог-файлов. // Телекоммуникации. – 2006. – № 8.


Постоянный адрес статьи:
http://swsys.ru/index.php?id=2034&page=article
Версия для печати
Выпуск в формате PDF (3.60Мб)
Статья опубликована в выпуске журнала № 1 за 2009 год. [ на стр. 86 ]

Назад, к списку статей