Авторитетность издания
Добавить в закладки
Следующий номер на сайте
Создание программных средств для анализа посещаемости сайта
Аннотация:
Abstract:
Авторы: Юсифов Ф.Ф. (farhadyusifov@gmail.com) - Институт информационных технологий Национальной академии наук Азербайджана (доцент), Баку, Азербайджан | |
Ключевые слова: регистрационные журналы сервера, аналитический сервис, бесплатные продукты (системы), счетчик посещений, эффективность работы сайта |
|
Keywords: , , , , |
|
Количество просмотров: 10287 |
Версия для печати Выпуск в формате PDF (3.60Мб) |
Получение и обработка статистических данных о посетителях сайта – важная задача для определения эффективной маркетинговой стратегии и оптимального использования Web-сервера. Тщательный анализ журналов сайта может помочь в выработке четкой стратегии развития [1]. Тысячи больших и малых предприятий, устанавливая собственные Web-серверы, неизбежно сталкиваются с оценкой эффективности работы своего Web-сайта. Можно отметить, что, конечно же, на выбор подхода к оценке эффективности Web-сайта непосредственно влияет его назначение. Например, реализуя собственные товары или услуги, продавец должен с помощью своего Web-сайта предоставить соответствующую информацию как можно большему числу потенциальных покупателей и убедить его посетителей приобрести их. Продавая рекламное пространство, необходимо максимально увеличить число посетителей Web-сайта, чтобы они как можно чаще видели размещенную на нем рекламу. В зависимости от характера бизнеса потребуется различная информация о посещениях. При продаже собственных товаров (услуг) наиболее важными будут сведения о том, как посетители используют Web-сайт. Вооружившись такой информацией, можно своевременно внести необходимые изменения и привлечь внимание дополнительного числа потенциальных клиентов к продукции, убедиться в том, что они ознакомились с предложениями. В настоящее время крупный корпоративный сайт не может обойтись обычным счетчиком посещений, так как администратору сайта необходимо контролировать множество параметров и улучшать качество обслуживания Web-ресурсов. Среди контролируемых параметров – общее число хитов и хостов для сайта в целом, число посе- щений с поисковых систем, IP-адреса и время посещения сайта каждым из посетителей, ключевые слова (по которым сайт был найден), тип и версия операционной системы и браузера посетителя и др. [1,2]. Существует ряд бесплатных продуктов (известные системы Analog или WebStat), как пра- вило, реализованных в виде Java-аплета, чи- тающего в режиме реального времени журнал сайта и отображающего на html-странице неко- торое фиксированное количество отчетов. Эти решения предполагают относительно небольшой размер журнала и скромные потребности пользователей [1,3]. Также можно отметить аналитический сервис, который предоставляется на сайте третьей фирмы компаниям, предпочитающим не эксплуатировать программное обеспечение, а арендовать чужие вычислительные ресурсы. Пользователь располагает на своем сайте специальный скрипт-шпион (spider), который получает информацию от браузера посетителя и посылает его на сайт поставщика сервиса, где информация записывается в общую базу данных. При входе на личную страницу этого сайта пользователь сервиса может выполнять параметризованные запросы и получать отчеты заданной формы. Одним из популярных примеров такого сервиса на Западе является WebTrends компании NetIQ, а в России – SplyLog одноименной компании [1]. Популярность WWW продолжает расти, и поэтому есть потребность в разработке методики и инструментальных средств для обнаружения и обработки информации. Основная задача программных средств для анализа Web-трафика – извлечение полезной информации из регистрационных журналов сервера. Анализ посещаемости сайта – процедура сбора информации об основных источниках трафика, о географии посетителей, выявление популярных страниц. Это позволяет определить сильные и слабые стороны сайта с точки зрения посетителей и выработать советы по улучшению его содержания и структуры. Существуют три основных способа идентификации пользователей [1]: · по IP-адресу компьютера посетителя – у данного способа максимальные недостатки по сравнению с остальными, поскольку сайт могут посетить несколько пользователей с одним и тем же IP-адресом, например, работающие через прокси-сервер; · по файлам cookies – небольшим файлам с данными, которые Web-сервер при его посещении через браузер оставляет на компьютере пользователя; таким образом, во время следующего визита сервер знает, что данный пользователь уже был его посетителем ранее (основные недостатки обусловлены тем, что файлы cookies идентифицируют именно браузер пользователя, а не конкретного человека); · при обязательной регистрации пользователей – в этом случае при посещении сайта или обращении к одному из сервисов сайта пользователь вводит свои имя и пароль, и система в течение всего визита может однозначно идентифицировать его; этот способ допускает меньше всего погрешностей при подсчете пользователей и их повторных визитов, но, к сожалению, применим лишь к отдельным сервисам. Основными методами сбора информации о поведении посетителей на сайте являются анализаторы и использование статистики, получаемой при анализе лог-файлов сервера [1]. При проведении исследований необходимы специальные инструменты для анализа трафика. В связи этим можно отметить, что время, когда инструмент (счетчик) представлял собой простейший скрипт на платформе PHP или Perl, и файл, в котором хранилось число посещений, увеличиваемое на единицу при обращении к страницам сайта, на данный момент довольно примитивны. Теперь системы анализа посещаемости сайта являются серьезными Web-приложениями, требующими тщательной разработки. Сайты крупных и даже некоторых небольших компаний, как правило, динамически генерируют Web-контент из содержимого базы данных. К сожалению, это осложняет анализ поведения посетителя сайта, поскольку большинство программ для анализа регистрационных журналов воспринимают их как ссылки на одну и ту же страницу. Необходимо убедиться в том, что приобретаемый для анализа регистрационных журналов инструмент позволит определять указанные параметры. Анализируя строки запросов целиком, можно получить более детальные отчеты. Приведем сведения, которые должна собирать система сбора и анализа статистической информации по посещаемости сайта [1,2,4]: · количество хостов (уникальных IP-адресов), хитов (общее число загрузок страниц) как по сайту в целом, так и по каждой странице; · статистика по используемым посетителями операционным системам и браузерам; · информация по IP-адресам и времени последнего посещения сайта каждым из посетителей; · информация по количеству посетителей, пришедших на сайт с поисковых систем (Rambler, Google, Yahoo! и др.); · количество посещений сайта со страниц, на которых расположены ссылки на сайт. Для построения системы на платформе PHP потребуется, как известно, несколько таблиц в базе данных MySQL. Отметим, что необходим учет статистической информации для каждой страницы сайта, число которых не ограничено, необходима таблица, в которой будет храниться информация о каждой из страниц, участвующих в сборе статистической информации. Рассмотрим один из основных модулей создания системы анализа посещаемости сайта на платформе PHP. // Определение число посетителей с уникальными IP-адресами за последние сутки $query = "SELECT count(distinct ip) FROM ip WHERE putdate > NOW() - INTERVAL 1 DAY $tmp"; $num = mysql_query($query); if(!$num) puterror("Ошибка при обращении к базе IP-адресов..."); $total = mysql_result($num,0); // Определение числа страниц $number = (int)($total/$pnumber); if((float)($total/$pnumber)-$number != 0) $number++; ………….. // Вывод ip-адреса ?> <table class="bodytable" border="1" cellpadding="4" cellspacing="0" bordercolordark="white" bordercolorlight="gray" align="center"> <tr><td class=headtable><p>IP-адрес</td><td class=headtable><p>Хост</td><td class=headtable><p>Всего<br>посещений</td><td class=headtable><p>Последнее обращение</td></tr> <? Скрипт выводит таблицу, $pnumber строк и столбцы: IP-адреса, хост и время последнего обращения. Для тщательного анализа посещаемости сайта на основе некоторых довольно популярных рекомендаций Web-разработчиков можно сделать следующие выводы. – По статистике, о посетителе известно только одно – его IP-адрес, но он ни о чем не говорит аналитику. Поэтому можно добавить модуль, который запрашивает по IP-адресу имя хоста. Однако это не всегда дает точную информацию, например, сервер посетителя может находиться в домене com и при этом располагаться в любой стране. – Более точный способ получить код страны посетителя из его IP-адреса – выполнить запрос к одной из баз данных в сети, хранящей зарезервированные диапазоны IP-адресов. Для получения кода города или региона можно выполнять запрос к региональным серверам. Это важнейший вид анализа для глобального бизнеса – международного или в масштабах страны. – Из строки ссылки для поисковых машин выделяются поисковые слова, что позволяет анализировать области целенаправленных интересов посетителей, а также соответствие этим интересам мета-тегов и контента сайта. – Можно получать отчеты о количестве пользователей, зашедших на сайт, по ссылкам с других сайтов и с поисковых машин. Из полной ссылки на ссылающуюся страницу можно выделить тип ссылающегося сервера: поисковая машина, News Groups, ссылающийся сайт и собственный сайт. В таблицу журнала добавляется поле «Категория ссылающегося сервера», и создается связанный с ним справочник, также добавляется поле, в которое записывается имя сервера, вычлененное из ссылки. – Можно отфильтровать категорию ссылающегося сайта, при этом страницы будут показывать маршрут движения посетителя. Как отмечено ранее, сделать сайт более привлекательным и полезным для пользователей или потенциальных заказчиков может детальный анализ регистрационного журнала сайта с применением профессиональных Web-анализаторов. Однако многие администраторы, и без того перегруженные информацией, испытывают значительные трудности, интерпретируя данные регистрационных журналов Web-серверов. С этой целью для повышения эффективности работы Web-сайтов необходимо применение Web-анализаторов, способных принести компании максимум пользы. Для создания таких интеллектуальных Web-анализаторов могут использоваться методы Data mining. Можно отметить, что с начала существования WWW разработчики Web-серверов придерживаются традиционного формата представления данных о регистрируемом сервером трафике. Для регистрации используются четыре основных файла: access log (журнал регистрации доступа), error log (журнал регистрации ошибок), referrer log (журнал ссылок) и agent log (журнал агентов) [5]. Комбинации этих журналов могут варьироваться, но именно они являются единственным источником информации о трафике. Используя данные этих файлов, можно тщательно анализировать пользователей сайта. Основные принципы построения Web-анализатора можно предложить в следующей форме: инициализация, настройка параметров, чтение лог-файлов, обработка данных, семантический анализ, вывод результатов. В заключение отметим, что область анализа Web-трафика и создание лог-анализаторов не теряют своей актуальности. Хорошим показателем может служить возросшее число научно-исследовательских работ в этой области. При этом особое внимание уделяется созданию интеллектуальных систем для анализа Web-трафика и идентификации пользователей. Литература 1. Рабин Д. Изучайте журналы посещений. // Сети и системы связи. – № 1, 2005 (http://ccc.ru/magazine/depot/05_01/read. html?0201.htm). 2. Iváncsy R., Vajk I. Different Aspects of Web Log Mining. // 6th International Symposium of Hungarian Researchers on Computational Intelligence. Budapest, 2005. 3. Марков Р. WrSpy – считаем и контролируем трафик почтовых и прокси-серверов. // Системный администратор, август, 2005. 4. Коггзолл Д. PHP 5. Полное руководство. – М.: Издат. дом, 2006. 5. Юсифов Ф.Ф. Извлечение знаний из Интернет с использованием лог-файлов. // Телекоммуникации. – 2006. – № 8. |
Постоянный адрес статьи: http://swsys.ru/index.php?id=2034&page=article |
Версия для печати Выпуск в формате PDF (3.60Мб) |
Статья опубликована в выпуске журнала № 1 за 2009 год. [ на стр. 86 ] |
Назад, к списку статей