На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
09 Сентября 2024

Модель открытого куба для анализа больших данных в социальных сетях

The open cube concept for analysing social media big data
Дата подачи статьи: 26.12.2017
УДК: 519.68
Статья опубликована в выпуске журнала № 1 за 2018 год. [ на стр. 95-98 ]
Аннотация:Социальные сети можно рассматривать как важнейший источник больших данных, описывающих взаимодей-ствие пользователей в процессе обмена информацией. Выявление закономерностей на этом уровне позволяет определять основные особенности поведения, выявлять информационное влияние, обнаруживать и анализировать колебания интересов пользователя к различным информационным объектам и событиям и т.п. Применение такого рода аналитики на практике позволяет реализовывать эффективную контекстную рекламу, повышать эффективность работы социальных сетей, а также решать различные проблемы информационной безопасности. Анализ больших данных, описывающих взаимодействие пользователей социальных сетей, является сложной технической проблемой: необходимо интегрироваться с несколькими социальными сетями для импорта данных, ассоциировать отдельные профили одних и тех же пользователей в разных сетях, сопоставлять факты их взаимодействия с реальными событиями и выявлять основные тенденции и отклонения. Для решения этой задачи предлагается модель открытого куба, основанная на построении ортогональной системы индикаторов, характеризующих изменение данных в зависимости от разных факторов. При этом производится распределение возникающих событий взаимодействия относительно пользователей, динамики развития их интереса во времени, реакции на внешние события и т.д. с помощью инструментария взаимного корреляционного анализа временных рядов с использованием интервальных корреляционных функций. В данной статье описываются основные проблемы анализа больших данных в социальных сетях, предлагаемая модель открытого куба и алгоритм анализа данных, позволяющий выявлять отклонения в поведении пользователей социальных сетей. Описанная модель и ее реализация были испытаны и апробированы с использованием типового набора данных, полученных из ряда социальных сетей. В дополнение к реальному регулярному набору результатов переговоров пользователей социальных сетей была введена партия сообщений, генерируемых онлайн-ботом, существование которого было выявлено посредством предложенного подхода.
Abstract:Modern social media can be treated as an important source of Big Data describing users’ behavior during informational exchange. Understanding the basic trends at this level can help to determine the main behavior features, identify informational influence and analyze deviations of users’ interest to various informational objects and events, etc. On a practical level, this kind of analytics allows implementing an effective context-based advertising, increasing the efficiency of social networks functionality and solving various problems of information security. Analysis of Big Data that characterize social media users’ interaction appear to become a complex technical problem. The reasons are: it is required to integrate with several social networks for data import, to associate independent profiles of the same users at different networks, to correlate the facts of their interaction with real events and determine basic trends and deviations. To solve the problem the authors propose to implement a technology of “open cube” based on an orthogonal indicators system describing the data change dynamics in time depending on different factors. It is proposed to analyze distribution of incoming user interaction events, dynamics of their interest evolution in time, reaction to incoming events, etc. using cross-correlation analysis of time series using interval-based functions. The paper describes the basic problems of Big Data analysis in social media, the proposed abstract model of the open cube and the data analysis algorithm that allows identification of users’ activity at social media. The described model and its implementation were tested using a typical data set derived from a number of social networks. In addition to a real regular data set of social media users’ negotiation there was also introduced a series of messages generated by a bot, which was successfully identified using the proposed approach.
Авторы: Иващенко А.В. (anton-ivashenko@yandex.ru) - Самарский государственный аэрокосмический университет им. академика С.П. Королева (национальный исследовательский университет) (профессор), Самара, Россия, доктор технических наук, Шлычкова Н.М. (kler7409@yandex.ru) - Самарский национальный исследовательский университет им. академика С.П. Королева (студентка), Самара, Россия, Исайко В.А. (visayko@gmail.com) - ООО «Открытый код» (инженер), Самара, Россия, Ситников П.В. (sitnika@o-code.ru) - ООО «Открытый код» (директор), Самара, Россия, кандидат технических наук
Ключевые слова: открытый куб, анализ, большие данные, социальные сети
Keywords: open cube, analysis, big data, social networks
Количество просмотров: 6388
Статья в формате PDF
Выпуск в формате PDF (29.74Мб)

Размер шрифта:       Шрифт:

Существует достаточно много различных источников данных для анализа поведения пользователей сети Интернет. Например, социальные сети, новостные порталы, ленты, где люди могут под разными аватарами давать информацию любого рода. Такая информация носит заведомо субъективный характер, что необходимо учитывать при ее анализе. Многие открытые источники информации, онлайн-энциклопедии и средства массовой информации стараются решить эту проблему путем реализации массового обсуждения информационного контента, определения политик рецензирования и модерации, внедрения систем рейтингов, взаимной оценки и т.п. Однако вопрос оценки объективности информации, публикуемой в этих источниках, остается открытым.

Решить данную проблему могут аналитические инструменты выявления интереса пользователей сети Интернет на основе анализа их поведения, отраженного в различных информационных источниках. Для этого необходимо семантический анализ публикуемого контента дополнить анализом потоков событий, характеризующих его создание, прочтение, обсуждение и изменение. Учитывая большой объем такого рода событий, их высокое многообразие и изменчивость, а также слабую структурированность, при реализации аналитических инструментов необходимо использовать технологии анализа больших данных [1].

Исследованию фундаментальных принципов функционирования социальных сетей, информационному влиянию и управлению социально-экономическими системами с их использованием в настоящее время уделяется достаточно существенное внимание [2–4]. Описанию трендов развития социальных сетей и возможностям автоматизированного анализа данных посвящены работы [5, 6]. Моделирование виртуальных сообществ и выявление интереса пользователей для последующего анализа их развития и построения эффективных функциональных инструментов позволили реализовать ряд полезных проектов в этой области [7, 8]. Однако современные тенденции в развитии Интернета [9] потребовали реализации новых теоретических подходов.

На практике в настоящее время наиболее раз- виты системы анализа социальных сетей для коммерческих организаций. Независимо от того, для кого разрабатываются такие системы, их можно классифицировать по следующим пунктам: уровни анализа, модели, объекты анализа открытых источников сети Интернет, методы анализа, режимы анализа и сбора, охват источников и объем обрабатываемых данных. Система подобного рода может использоваться как для решения задач внутри самой организации, так и за ее пределами. На данный момент на рынке наиболее развитыми являются системы, направленные прежде всего на управление взаимоотношениями с клиентами. В целом су- ществующие системы могут предоставлять сле- дующие возможности: мониторинг упоминания брендов, определение рыночных рисков и возможностей, веб-аналитика, поддержка работы в онлайновых социальных сетях, прогнозирование и управление социальными сетями. В частности, система Radian 6 предназначена для отслеживания в реальном времени упоминаний брендов с учетом тональности в социальных сетях и для участия в происходящих обсуждениях. Система Alterian SM2 позволяет отслеживать упоминания брендов в социальных сетях с учетом тональности: положительная, отрицательная, нейтральная. Кроме того, данная система позволяет локализовать места обсуждений и определять демографические характеристики пользователей социальных сетей. Система анализа социальных сетей BrandSpotter позиционируется как система мониторинга и управления репутацией бренда в социальных сетях, а также упоминания бренда с учетом тональности; отслеживаются наиболее значимые пользователи социальных сетей по данной тематике.

Для автоматизации анализа поведения пользователей социальных сетей требуется система, которая могла бы проводить мониторинг подобных изменений. Мониторинг как таковой включает в себя получение и структурирование первичных данных. Собираются такие данные, как тексты сообщений, опубликованные материалы, ссылки на внешние ресурсы и прочее. Возможности системы во многом зависят от используемых данных и от способа их обработки. Анализ подразумевает несколько этапов обработки первичных данных, таких как вычисление базовых показателей и выявление статистических и структурных закономерностей, дающих понимание природы исследуемой сети. Прогноз возможен после идентификации математической модели информационного процесса. Могут использоваться статистические модели и модели динамических процессов на графах, семантических сетях и т.п. Управление заключается в оказании целенаправленных воздействий на социальную сеть для перевода информационных процессов в желае- мое состояние. Задачи по анализу, прогнозированию и управлению могут быть разными, в первую очередь, в зависимости от того, кто ее ставит, то есть кто является конечным пользователем системы.

Для решения этой задачи предлагается технология открытого куба, основанная на построении ортогональной системы индикаторов, характеризующих изменение данных в зависимости от разных факторов. При этом производится распределение возникающих событий взаимодействия относительно пользователей, динамики развития их ин- тереса во времени, реакции на внешние события и т.д. с использованием инструментария взаимного корреляционного анализа временных рядов с использованием интервальных корреляционных функций [10].

Представим потоки событий информационной активности и взаимодействия пользователей открытых ресурсов Интернета в виде булевых переменных:

ei,j,k = ei,j,k (ui, wj, ti,j,k) = {0,1},                          (1)

где ui – пользователь (актор); wj – информационный объект (статья, пост или комментарий); ti,j,k – время внесения изменений.

Логическую функцию, определяющую отношение события к выбранному индикатору, определим в виде

                        (2)

где , а  – условие отнесения события к выбранному индикатору.

Наличие линейной связи между потоками событий {ei1,j1,k1} и {ei2,j2,k2} в разложении по выбранным индикаторам d1, d2 соответственно в этом случае можно представить в виде

  (3)

Совокупность {dn} назовем открытым кубом.

На основе предоставленной модели разработан алгоритм для анализа больших данных в социальных сетях, который состоит из двух этапов.

Этап 1. Расчет вектора частоты выборки для всех пользователей и разработка стандартного вектора отклонения для различных пользователей.

Необходимо для набора событий {ei,j,k} сформировать показатель:

,      (4)

где  – время (интервал) публикации;  – условие соответствия информационных объектов (постов) тематике Ωm, а знаменатель содержит суммарное число пользователей, опубликовавших схожие посты по данной теме за период .

Для данного показателя необходимо также определить СКО .

Этап 2. Вычисление показателя отклонения для конкретного пользователя. На данном этапе необходимо выбрать темы Ωm и преобразовать их в представление ключ-значение, после чего обработать пары данных и подсчитать сумму тематик с одним и тем же ключом.

Для реализации предлагаемого подхода было разработано программное решение для идентификации фокуса в социальных сетях на основе обнаружения и анализа больших данных.

Решение может интегрироваться с различными источниками данных, идентифицировать тематики в виде облаков тегов и обрабатывать их изменения во времени. Данные, импортированные из социальных сетей, фиксируются в БД и могут обрабатываться либо в режиме реального времени, либо в пакетном режиме. Краулер обращается асинхронно к web-сервису с запросами на получение данных из социальных сетей. Получив запрос, web-сервис подтверждает начало обработки данного запроса. Далее web-сервис обращается к интегратору, который начинает выгружать запрошенные данные в виде RDF/XML-файлов, сохраняя промежуточные выгруженные данные, чтобы единым блоком передать уже выгруженные. Далее в фоновом режиме, то есть в режиме, при котором нет необходимости контролировать процесс выгрузки данных, интегратор автоматически продолжает ранее запущенный процесс, грузит данные в БД и с помощью Apache JENA формирует RDF/XML-файлы для последующей передачи.

Описанная модель, программное решение и его реализация были испытаны и апробированы с использованием типового набора данных, полу- ченных из ряда социальных сетей. В дополнение к реальному регулярному набору результатов переговоров пользователей социальных медиа была введена партия сообщений, генерируемых онлайн-ботом. Помимо социальных медиа (без предварительного знания о структуре данных), алгоритмы анализа больших данных смогли выявить влияние онлайн-бота.

Результаты представлены на рисунке, где продемонстрированы ежегодные тенденции активности пользователей. Пик, определенный 15 августа, соответствует активности бота и может быть легко определен агентом, сравнивающим поведение предыдущих периодов. Описанные результаты исследований показывают, что предлагаемую модель можно использовать для анализа поведения в сети и выявления негативного информационного влияния.

Таким образом, предлагаемая модель позволяет фиксировать процесс деятельности пользователя Интернета с учетом сочетания человеческого и временного факторов. Выявление закономерностей позволяет определять основные особенности поведения, информационное влияние, устанавливать и анализировать колебания интересов пользователя к различным информационным объектам и событиям и т.п. Применение такого рода аналитики на практике позволяет реализовывать эффективную контекстную рекламу, повышать эффективность работы социальных сетей, а также решать различные проблемы информационной безопасности.

Литература

1.     Bessis N., Dobre C. Big data and internet of things: a roadmap for smart environments. Berlin, Springer, 2014, 450 p.

2.     Базенков Н.И., Губанов Д.А. Обзор информационных систем анализа социальных сетей // Управление большими системами. 2013. Вып. 41. С. 357–394.

3.     Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Социальные сети: модели информационного влияния, управления и противоборства. М.: Физматлит, 2010. 228 с.

4.     Бреер В.В., Новиков Д.А., Рогаткин А.Д. Управление толпой: математические модели порогового коллективного поведения. М.: ЛЕНАНД, 2016. 168 с.

5.     Wei W., Joseph K., Liu H., Carley K. Exploring characteristics of suspended users and network stability on Twitter. Social Network Analysis and Mining, 2016, pp. 6–51.

6.     Kadushin C. Understanding social networks: theories, concepts, and findings. Oxford Univ. Press, 2012, 264 p.

7.     Орлов А.Ю., Иващенко А.В. Организация виртуального сообщества в сети Интернет // Информационные технологии. 2008. № 8. С. 15–19.

8.     Иващенко А.В., Пугачева Е.C., Погодина С.C. Моделирование виртуальных сообществ пользователей интегрированной информационной среды // Управление большими системами: сб. тр. М.: Изд-во ИПУ РАН, 2010. Вып. 29. С. 68–87.

9.     One Internet. Global commission on Internet Governance. Ghatham House: The Royal Institute of International Affairs, 2016. URL: https://www.cigionline.org/initiatives/global-commission-internet-governance (дата обращения: 01.11.2017)

10.   Прикладной анализ случайных процессов; [под ред. С.А. Прохорова]. Самара: Изд-во СамНЦ РАН, 2007. 582 с.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=4405
Версия для печати
Выпуск в формате PDF (29.74Мб)
Статья опубликована в выпуске журнала № 1 за 2018 год. [ на стр. 95-98 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик: