Journal influence
Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)
Bookmark
Next issue
№2
Publication date:
16 June 2024
Web-robot detection method based on user’s navigation graph
Date of submission article: 08.04.2019
UDC: 004.056
The article was published in issue no. № 4, 2019 [ pp. 607-612 ]Abstract:According to reports of web security companies, every fifth request to a typical website is from mali-cious automated system (web robots). Web robots already prevail over ordinary users of web resources in terms of traffic volume. They threaten data privacy and copyright, provide unauthorized information gathering, lead to statistics spoiling, and performance degradation. There is a need to detect and block the source of robots. The existing methods and algorithms involve syntactic and analytical processing of web server logs to detect web robots. Such approaches cannot reliably identify web robots that hide their presence and imitate the behavior of legitimate users. This article proposes a method of web-robot detection based on the characteristics of the page web-graph. The characteristics of the analyzed sessions include not only the features of a user web graph, but also parameters of each node visited by him (in and out degrees, centrality measures, and others). To calculate such characteristics, a connectivity graph of pages was constructed. Based on the analysis of these parameters, as well as the characteristics of the web robot's behav-ioral graph, the authors make a decision to classify the session. The authors provide an analysis of different behavioral patterns, describe the basic principles of ex-tracting the necessary data from web server logs, and the method of the connectivity graph construction as well as the most significant features. The paper conciders a detection procedure and selection of an appropriate classification model. For each studied model, the authors select optimal hyperparameters and perform cross-validation of the results. The analysis of the accuracy and precision of such detec-tion shows that the usage of XGboost library allows obtaining F1 measure equals 0.96.
Аннотация:Согласно отчетам компаний, занимающихся защитой веб-ресурсов, каждый пятый запрос к типовому сайту в сети Интернет направлен вредоносными автоматизированными системами – веб-роботами. Веб-роботы по объему трафика уже преобладают над рядовыми пользователями веб-ресурсов. Своими действиями они угрожают приватности данных, авторскому праву, несут угро-зы несанкционированного сбора информации, влияют на статистики и приводят к ухудшению производительности веб-ресурса. Возникает необходимость обнаружения и блокирования источников таких средств. Существующие методы предполагают использование синтаксической и аналитической обработки логов веб-сервера для обнаружения веб-роботов. Этого недостаточно, чтобы надежно вы-являть веб-роботов, скрывающих свое присутствие и имитирующих поведение легитимных пользователей. В статье предлагается новый метод, отличительной особенностью которого является использование характеристик графа связности страниц защищаемого веб-ресурса для формирования признаков роботизированных пользовательских сессий. Характеристики анализируемых сессий включают не только особенности графа перемещений самого пользователя, но и признаки каждого из посещенных им узлов веб-ресурса (степени входа и исхода, меры центральности и другие). Для расчета таких характеристик строится граф связности страниц веб-ресурса. Данный метод заключается в анализе характеристик перемещений для каждой пользовательской сессии с целью классификации ее на роботизированную или принадлежащую легитимному пользователю. В статье проводится анализ шаблонов поведения пользователей веб-ресурса, описываются основные принципы извлечения необходимых данных из логов веб-сервера, способ построения графа связности страниц веб-ресурса, а также наиболее значимые характеристики сессий. Обсуждаются процедура обнаружения и выбор подходящей классификационной модели. Для каждой из исследуемых моделей производятся отбор гиперпараметров и перекрестная проверка результатов. Анализ точности и полноты обнаружения показывает, что при использовании библиотеки XGboost можно получить F1-меру порядка 0.96.
Authors: A.A. Menshchikov (menshikov@.itmo.ru) - The National Research University of Information Technologies, Mechanics and Optics (Postgraduate Student), St. Petersburg, Russia, Yu.A. Gatchin (od@mail.ifmo.ru) - The National Research University of Information Technologies, Mechanics and Optics (Professor), St. Petersburg, Russia, Ph.D | |
Keywords: security of the information, the theory of counts, website graph, web-robot detection, parsers, website protection, infosecurity, web-robots |
|
Page views: 13251 |
PDF version article Full issue in PDF (4.91Mb) |
Метод обнаружения веб-роботов на основе анализа графа пользовательского поведения
DOI: 10.15827/0236-235X.128.607-612
Date of submission article: 08.04.2019
UDC: 004.056
The article was published in issue no. № 4, 2019. [ pp. 607-612 ]
According to reports of web security companies, every fifth request to a typical website is from mali-cious automated system (web robots). Web robots already prevail over ordinary users of web resources in terms of traffic volume. They threaten data privacy and copyright, provide unauthorized information gathering, lead to statistics spoiling, and performance degradation. There is a need to detect and block the source of robots.
The existing methods and algorithms involve syntactic and analytical processing of web server logs to detect web robots. Such approaches cannot reliably identify web robots that hide their presence and imitate the behavior of legitimate users.
This article proposes a method of web-robot detection based on the characteristics of the page web-graph. The characteristics of the analyzed sessions include not only the features of a user web graph, but also parameters of each node visited by him (in and out degrees, centrality measures, and others). To calculate such characteristics, a connectivity graph of pages was constructed.
Based on the analysis of these parameters, as well as the characteristics of the web robot's behav-ioral graph, the authors make a decision to classify the session.
The authors provide an analysis of different behavioral patterns, describe the basic principles of ex-tracting the necessary data from web server logs, and the method of the connectivity graph construction as well as the most significant features. The paper conciders a detection procedure and selection of an appropriate classification model. For each studied model, the authors select optimal hyperparameters and perform cross-validation of the results. The analysis of the accuracy and precision of such detec-tion shows that the usage of XGboost library allows obtaining F1 measure equals 0.96.
A.A. Menshchikov (menshikov@.itmo.ru) - The National Research University of Information Technologies, Mechanics and Optics (Postgraduate Student), St. Petersburg, Russia, Yu.A. Gatchin (od@mail.ifmo.ru) - The National Research University of Information Technologies, Mechanics and Optics (Professor), St. Petersburg, Russia, Ph.D
Ссылка скопирована!
Permanent link: http://swsys.ru/index.php?page=article&id=4648&lang=&lang=en&like=1 |
Print version Full issue in PDF (4.91Mb) |
The article was published in issue no. № 4, 2019 [ pp. 607-612 ] |
The article was published in issue no. № 4, 2019. [ pp. 607-612 ]
Perhaps, you might be interested in the following articles of similar topics:Perhaps, you might be interested in the following articles of similar topics:
- Эффективность поэтапного применения средств защиты с пересечением областей обнаружения угроз
- Обеспечение информационной безопасности научного суперкомпьютерного центра
- Автоматизированная система защиты доступности информации от атак внешним несанкционированным трафиком в UNIX-подобных системах
- Уровни и правовая модель информационной безопасности (защиты информации)
- Модель и алгоритмизация оптимизационной задачи о назначениях в условиях дополнительных ограничений
Back to the list of articles