Авторитетность издания
ВАК - К1
RSCI, ядро РИНЦ
Добавить в закладки
Следующий номер на сайте
№3
Ожидается:
16 Сентября 2024
Метод обнаружения веб-роботов на основе анализа графа пользовательского поведения
Web-robot detection method based on user’s navigation graph
Дата подачи статьи: 08.04.2019
УДК: 004.056
Статья опубликована в выпуске журнала № 4 за 2019 год. [ на стр. 607-612 ]Аннотация:Согласно отчетам компаний, занимающихся защитой веб-ресурсов, каждый пятый запрос к типовому сайту в сети Интернет направлен вредоносными автоматизированными системами – веб-роботами. Веб-роботы по объему трафика уже преобладают над рядовыми пользователями веб-ресурсов. Своими действиями они угрожают приватности данных, авторскому праву, несут угро-зы несанкционированного сбора информации, влияют на статистики и приводят к ухудшению производительности веб-ресурса. Возникает необходимость обнаружения и блокирования источников таких средств. Существующие методы предполагают использование синтаксической и аналитической обработки логов веб-сервера для обнаружения веб-роботов. Этого недостаточно, чтобы надежно вы-являть веб-роботов, скрывающих свое присутствие и имитирующих поведение легитимных пользователей. В статье предлагается новый метод, отличительной особенностью которого является использование характеристик графа связности страниц защищаемого веб-ресурса для формирования признаков роботизированных пользовательских сессий. Характеристики анализируемых сессий включают не только особенности графа перемещений самого пользователя, но и признаки каждого из посещенных им узлов веб-ресурса (степени входа и исхода, меры центральности и другие). Для расчета таких характеристик строится граф связности страниц веб-ресурса. Данный метод заключается в анализе характеристик перемещений для каждой пользовательской сессии с целью классификации ее на роботизированную или принадлежащую легитимному пользователю. В статье проводится анализ шаблонов поведения пользователей веб-ресурса, описываются основные принципы извлечения необходимых данных из логов веб-сервера, способ построения графа связности страниц веб-ресурса, а также наиболее значимые характеристики сессий. Обсуждаются процедура обнаружения и выбор подходящей классификационной модели. Для каждой из исследуемых моделей производятся отбор гиперпараметров и перекрестная проверка результатов. Анализ точности и полноты обнаружения показывает, что при использовании библиотеки XGboost можно получить F1-меру порядка 0.96.
Abstract:According to reports of web security companies, every fifth request to a typical website is from mali-cious automated system (web robots). Web robots already prevail over ordinary users of web resources in terms of traffic volume. They threaten data privacy and copyright, provide unauthorized information gathering, lead to statistics spoiling, and performance degradation. There is a need to detect and block the source of robots. The existing methods and algorithms involve syntactic and analytical processing of web server logs to detect web robots. Such approaches cannot reliably identify web robots that hide their presence and imitate the behavior of legitimate users. This article proposes a method of web-robot detection based on the characteristics of the page web-graph. The characteristics of the analyzed sessions include not only the features of a user web graph, but also parameters of each node visited by him (in and out degrees, centrality measures, and others). To calculate such characteristics, a connectivity graph of pages was constructed. Based on the analysis of these parameters, as well as the characteristics of the web robot's behav-ioral graph, the authors make a decision to classify the session. The authors provide an analysis of different behavioral patterns, describe the basic principles of ex-tracting the necessary data from web server logs, and the method of the connectivity graph construction as well as the most significant features. The paper conciders a detection procedure and selection of an appropriate classification model. For each studied model, the authors select optimal hyperparameters and perform cross-validation of the results. The analysis of the accuracy and precision of such detec-tion shows that the usage of XGboost library allows obtaining F1 measure equals 0.96.
Авторы: Менщиков А.А. (menshikov@.itmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) (аспирант), Санкт-Петербург, Россия, Гатчин Ю.А. (od@mail.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) (профессор), Санкт-Петербург, Россия, доктор технических наук | |
Ключевые слова: защита информации, теория графов, граф веб-ресурса, обнаружение веб-роботов, парсеры, защита веб-ресурсов, информационная безопасность, веб-роботы |
|
Keywords: security of the information, the theory of counts, website graph, web-robot detection, parsers, website protection, infosecurity, web-robots |
|
Количество просмотров: 13344 |
Статья в формате PDF Выпуск в формате PDF (4.91Мб) |
Метод обнаружения веб-роботов на основе анализа графа пользовательского поведения
DOI: 10.15827/0236-235X.128.607-612
Дата подачи статьи: 08.04.2019
УДК: 004.056
Статья опубликована в выпуске журнала № 4 за 2019 год. [ на стр. 607-612 ]
Согласно отчетам компаний, занимающихся защитой веб-ресурсов, каждый пятый запрос к типовому сайту в сети Интернет направлен вредоносными автоматизированными системами – веб-роботами. Веб-роботы по объему трафика уже преобладают над рядовыми пользователями веб-ресурсов. Своими действиями они угрожают приватности данных, авторскому праву, несут угро-зы несанкционированного сбора информации, влияют на статистики и приводят к ухудшению производительности веб-ресурса. Возникает необходимость обнаружения и блокирования источников таких средств.
Существующие методы предполагают использование синтаксической и аналитической обработки логов веб-сервера для обнаружения веб-роботов. Этого недостаточно, чтобы надежно вы-являть веб-роботов, скрывающих свое присутствие и имитирующих поведение легитимных пользователей.
В статье предлагается новый метод, отличительной особенностью которого является использование характеристик графа связности страниц защищаемого веб-ресурса для формирования признаков роботизированных пользовательских сессий. Характеристики анализируемых сессий включают не только особенности графа перемещений самого пользователя, но и признаки каждого из посещенных им узлов веб-ресурса (степени входа и исхода, меры центральности и другие). Для расчета таких характеристик строится граф связности страниц веб-ресурса.
Данный метод заключается в анализе характеристик перемещений для каждой пользовательской сессии с целью классификации ее на роботизированную или принадлежащую легитимному пользователю.
В статье проводится анализ шаблонов поведения пользователей веб-ресурса, описываются основные принципы извлечения необходимых данных из логов веб-сервера, способ построения графа связности страниц веб-ресурса, а также наиболее значимые характеристики сессий. Обсуждаются процедура обнаружения и выбор подходящей классификационной модели. Для каждой из исследуемых моделей производятся отбор гиперпараметров и перекрестная проверка результатов. Анализ точности и полноты обнаружения показывает, что при использовании библиотеки XGboost можно получить F1-меру порядка 0.96.
Менщиков А.А. (menshikov@.itmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) (аспирант), Санкт-Петербург, Россия, Гатчин Ю.А. (od@mail.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) (профессор), Санкт-Петербург, Россия, доктор технических наук
Ссылка скопирована!
Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=4648&lang= |
Версия для печати Выпуск в формате PDF (4.91Мб) |
Статья опубликована в выпуске журнала № 4 за 2019 год. [ на стр. 607-612 ] |
Статья опубликована в выпуске журнала № 4 за 2019 год. [ на стр. 607-612 ]
Возможно, Вас заинтересуют следующие статьи схожих тематик:Возможно, Вас заинтересуют следующие статьи схожих тематик:
- Эффективность поэтапного применения средств защиты с пересечением областей обнаружения угроз
- Обеспечение информационной безопасности научного суперкомпьютерного центра
- Автоматизированная система защиты доступности информации от атак внешним несанкционированным трафиком в UNIX-подобных системах
- Уровни и правовая модель информационной безопасности (защиты информации)
- Алгоритмы и технологии обеспечения безопасности информации в медицинской информационной системе ExterNET
Назад, к списку статей