Публикационная активность
(сведения по итогам 2021 г.)
2-летний импакт-фактор РИНЦ: 0,441
2-летний импакт-фактор РИНЦ без самоцитирования: 0,408
Двухлетний импакт-фактор РИНЦ с учетом цитирования из всех
источников: 0,704
5-летний импакт-фактор РИНЦ: 0,417
5-летний импакт-фактор РИНЦ без самоцитирования: 0,382
Суммарное число цитирований журнала в РИНЦ: 9837
Пятилетний индекс Херфиндаля по цитирующим журналам: 149
Индекс Херфиндаля по организациям авторов: 384
Десятилетний индекс Хирша: 71
Место в общем рейтинге SCIENCE INDEX за 2021 год: 196
Место в рейтинге SCIENCE INDEX за 2021 год по тематике "Автоматика. Вычислительная техника": 4
Место в рейтинге SCIENCE INDEX за 2021 год по тематике "Кибернетика" 2
Больше данных по публикационной активности нашего журнале за 2008-2021 гг. на сайте РИНЦ
Добавить в закладки
Следующий номер на сайте
Метод обнаружения веб-роботов на основе анализа графа пользовательского поведения
Аннотация:Согласно отчетам компаний, занимающихся защитой веб-ресурсов, каждый пятый запрос к типовому сайту в сети Интернет направлен вредоносными автоматизированными системами – веб-роботами. Веб-роботы по объему трафика уже преобладают над рядовыми пользователями веб-ресурсов. Своими действиями они угрожают приватности данных, авторскому праву, несут угро-зы несанкционированного сбора информации, влияют на статистики и приводят к ухудшению производительности веб-ресурса. Возникает необходимость обнаружения и блокирования источников таких средств. Существующие методы предполагают использование синтаксической и аналитической обработки логов веб-сервера для обнаружения веб-роботов. Этого недостаточно, чтобы надежно вы-являть веб-роботов, скрывающих свое присутствие и имитирующих поведение легитимных пользователей. В статье предлагается новый метод, отличительной особенностью которого является использование характеристик графа связности страниц защищаемого веб-ресурса для формирования признаков роботизированных пользовательских сессий. Характеристики анализируемых сессий включают не только особенности графа перемещений самого пользователя, но и признаки каждого из посещенных им узлов веб-ресурса (степени входа и исхода, меры центральности и другие). Для расчета таких характеристик строится граф связности страниц веб-ресурса. Данный метод заключается в анализе характеристик перемещений для каждой пользовательской сессии с целью классификации ее на роботизированную или принадлежащую легитимному пользователю. В статье проводится анализ шаблонов поведения пользователей веб-ресурса, описываются основные принципы извлечения необходимых данных из логов веб-сервера, способ построения графа связности страниц веб-ресурса, а также наиболее значимые характеристики сессий. Обсуждаются процедура обнаружения и выбор подходящей классификационной модели. Для каждой из исследуемых моделей производятся отбор гиперпараметров и перекрестная проверка результатов. Анализ точности и полноты обнаружения показывает, что при использовании библиотеки XGboost можно получить F1-меру порядка 0.96.
Abstract:According to reports of web security companies, every fifth request to a typical website is from mali-cious automated system (web robots). Web robots already prevail over ordinary users of web resources in terms of traffic volume. They threaten data privacy and copyright, provide unauthorized information gathering, lead to statistics spoiling, and performance degradation. There is a need to detect and block the source of robots. The existing methods and algorithms involve syntactic and analytical processing of web server logs to detect web robots. Such approaches cannot reliably identify web robots that hide their presence and imitate the behavior of legitimate users. This article proposes a method of web-robot detection based on the characteristics of the page web-graph. The characteristics of the analyzed sessions include not only the features of a user web graph, but also parameters of each node visited by him (in and out degrees, centrality measures, and others). To calculate such characteristics, a connectivity graph of pages was constructed. Based on the analysis of these parameters, as well as the characteristics of the web robot's behav-ioral graph, the authors make a decision to classify the session. The authors provide an analysis of different behavioral patterns, describe the basic principles of ex-tracting the necessary data from web server logs, and the method of the connectivity graph construction as well as the most significant features. The paper conciders a detection procedure and selection of an appropriate classification model. For each studied model, the authors select optimal hyperparameters and perform cross-validation of the results. The analysis of the accuracy and precision of such detec-tion shows that the usage of XGboost library allows obtaining F1 measure equals 0.96.
Авторы: Менщиков А.А. (menshikov@.itmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) (аспирант), Санкт-Петербург, Россия, Гатчин Ю.А. (od@mail.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) (профессор), Санкт-Петербург, Россия, доктор технических наук | |
Ключевые слова: защита информации, теория графов, граф веб-ресурса, обнаружение веб-роботов, парсеры, защита веб-ресурсов, информационная безопасность, веб-роботы |
|
Keywords: security of the information, the theory of counts, website graph, web-robot detection, parsers, website protection, infosecurity, web-robots |
|
Количество просмотров: 6340 |
Статья в формате PDF Выпуск в формате PDF (4.91Мб) |
Постоянный адрес статьи: http://www.swsys.ru/index.php?page=article&id=4648&lang=&lang=&like=1 |
Версия для печати Выпуск в формате PDF (4.91Мб) |
Статья опубликована в выпуске журнала № 4 за 2019 год. [ на стр. 607-612 ] |
Возможно, Вас заинтересуют следующие статьи схожих тематик:
- Эффективность поэтапного применения средств защиты с пересечением областей обнаружения угроз
- Автоматизированная система защиты доступности информации от атак внешним несанкционированным трафиком в UNIX-подобных системах
- Уровни и правовая модель информационной безопасности (защиты информации)
- Основные архитектурные и системные решения в технологии Интерин
- Информационная система анкетирования «Апофаси»
Назад, к списку статей