Модель открытого куба для анализа больших данных в социальных сетях

№3

13 Сентября 2024

2024

2023

Модель открытого куба для анализа больших данных в социальных сетях

DOI:10.15827/0236-235X.121.095-098

Дата подачи статьи: 26.12.2017

УДК: 519.68

Иващенко А.В. (anton-ivashenko@yandex.ru) - Самарский государственный аэрокосмический университет им. академика С.П. Королева (национальный исследовательский университет) (профессор), Самара, Россия, доктор технических наук, Шлычкова Н.М. (kler7409@yandex.ru) - Самарский национальный исследовательский университет им. академика С.П. Королева (студентка), Самара, Россия, Исайко В.А. (visayko@gmail.com) - ООО «Открытый код» (инженер), Самара, Россия, Ситников П.В. (sitnika@o-code.ru) - ООО «Открытый код» (директор), Самара, Россия, кандидат технических наук
Ключевые слова: открытый куб, анализ, большие данные, социальные сети
Keywords: open cube, analysis, big data, social networks

Существует достаточно много различных источников данных для анализа поведения пользователей сети Интернет. Например, социальные сети, новостные порталы, ленты, где люди могут под разными аватарами давать информацию любого рода. Такая информация носит заведомо субъективный характер, что необходимо учитывать при ее анализе. Многие открытые источники информации, онлайн-энциклопедии и средства массовой информации стараются решить эту проблему путем реализации массового обсуждения информационного контента, определения политик рецензирования и модерации, внедрения систем рейтингов, взаимной оценки и т.п. Однако вопрос оценки объективности информации, публикуемой в этих источниках, остается открытым.

Решить данную проблему могут аналитические инструменты выявления интереса пользователей сети Интернет на основе анализа их поведения, отраженного в различных информационных источниках. Для этого необходимо семантический анализ публикуемого контента дополнить анализом потоков событий, характеризующих его создание, прочтение, обсуждение и изменение. Учитывая большой объем такого рода событий, их высокое многообразие и изменчивость, а также слабую структурированность, при реализации аналитических инструментов необходимо использовать технологии анализа больших данных [1].

Исследованию фундаментальных принципов функционирования социальных сетей, информационному влиянию и управлению социально-экономическими системами с их использованием в настоящее время уделяется достаточно существенное внимание [2–4]. Описанию трендов развития социальных сетей и возможностям автоматизированного анализа данных посвящены работы [5, 6]. Моделирование виртуальных сообществ и выявление интереса пользователей для последующего анализа их развития и построения эффективных функциональных инструментов позволили реализовать ряд полезных проектов в этой области [7, 8]. Однако современные тенденции в развитии Интернета [9] потребовали реализации новых теоретических подходов.

На практике в настоящее время наиболее раз- виты системы анализа социальных сетей для коммерческих организаций. Независимо от того, для кого разрабатываются такие системы, их можно классифицировать по следующим пунктам: уровни анализа, модели, объекты анализа открытых источников сети Интернет, методы анализа, режимы анализа и сбора, охват источников и объем обрабатываемых данных. Система подобного рода может использоваться как для решения задач внутри самой организации, так и за ее пределами. На данный момент на рынке наиболее развитыми являются системы, направленные прежде всего на управление взаимоотношениями с клиентами. В целом су- ществующие системы могут предоставлять сле- дующие возможности: мониторинг упоминания брендов, определение рыночных рисков и возможностей, веб-аналитика, поддержка работы в онлайновых социальных сетях, прогнозирование и управление социальными сетями. В частности, система Radian 6 предназначена для отслеживания в реальном времени упоминаний брендов с учетом тональности в социальных сетях и для участия в происходящих обсуждениях. Система Alterian SM2 позволяет отслеживать упоминания брендов в социальных сетях с учетом тональности: положительная, отрицательная, нейтральная. Кроме того, данная система позволяет локализовать места обсуждений и определять демографические характеристики пользователей социальных сетей. Система анализа социальных сетей BrandSpotter позиционируется как система мониторинга и управления репутацией бренда в социальных сетях, а также упоминания бренда с учетом тональности; отслеживаются наиболее значимые пользователи социальных сетей по данной тематике.

Для автоматизации анализа поведения пользователей социальных сетей требуется система, которая могла бы проводить мониторинг подобных изменений. Мониторинг как таковой включает в себя получение и структурирование первичных данных. Собираются такие данные, как тексты сообщений, опубликованные материалы, ссылки на внешние ресурсы и прочее. Возможности системы во многом зависят от используемых данных и от способа их обработки. Анализ подразумевает несколько этапов обработки первичных данных, таких как вычисление базовых показателей и выявление статистических и структурных закономерностей, дающих понимание природы исследуемой сети. Прогноз возможен после идентификации математической модели информационного процесса. Могут использоваться статистические модели и модели динамических процессов на графах, семантических сетях и т.п. Управление заключается в оказании целенаправленных воздействий на социальную сеть для перевода информационных процессов в желае- мое состояние. Задачи по анализу, прогнозированию и управлению могут быть разными, в первую очередь, в зависимости от того, кто ее ставит, то есть кто является конечным пользователем системы.

Для решения этой задачи предлагается технология открытого куба, основанная на построении ортогональной системы индикаторов, характеризующих изменение данных в зависимости от разных факторов. При этом производится распределение возникающих событий взаимодействия относительно пользователей, динамики развития их ин- тереса во времени, реакции на внешние события и т.д. с использованием инструментария взаимного корреляционного анализа временных рядов с использованием интервальных корреляционных функций [10].

Представим потоки событий информационной активности и взаимодействия пользователей открытых ресурсов Интернета в виде булевых переменных:

ei,j,k = ei,j,k (ui, wj, ti,j,k) = {0,1}, (1)

где ui – пользователь (актор); wj – информационный объект (статья, пост или комментарий); ti,j,k – время внесения изменений.

Логическую функцию, определяющую отношение события к выбранному индикатору, определим в виде

(2)

где , а – условие отнесения события к выбранному индикатору.

Наличие линейной связи между потоками событий {ei1,j1,k1} и {ei2,j2,k2} в разложении по выбранным индикаторам d1, d2 соответственно в этом случае можно представить в виде

(3)

Совокупность {dn} назовем открытым кубом.

На основе предоставленной модели разработан алгоритм для анализа больших данных в социальных сетях, который состоит из двух этапов.

Этап 1. Расчет вектора частоты выборки для всех пользователей и разработка стандартного вектора отклонения для различных пользователей.

Необходимо для набора событий {ei,j,k} сформировать показатель:

, (4)

где – время (интервал) публикации; – условие соответствия информационных объектов (постов) тематике Ωm, а знаменатель содержит суммарное число пользователей, опубликовавших схожие посты по данной теме за период .

Для данного показателя необходимо также определить СКО .

Этап 2. Вычисление показателя отклонения для конкретного пользователя. На данном этапе необходимо выбрать темы Ωm и преобразовать их в представление ключ-значение, после чего обработать пары данных и подсчитать сумму тематик с одним и тем же ключом.

Для реализации предлагаемого подхода было разработано программное решение для идентификации фокуса в социальных сетях на основе обнаружения и анализа больших данных.

Решение может интегрироваться с различными источниками данных, идентифицировать тематики в виде облаков тегов и обрабатывать их изменения во времени. Данные, импортированные из социальных сетей, фиксируются в БД и могут обрабатываться либо в режиме реального времени, либо в пакетном режиме. Краулер обращается асинхронно к web-сервису с запросами на получение данных из социальных сетей. Получив запрос, web-сервис подтверждает начало обработки данного запроса. Далее web-сервис обращается к интегратору, который начинает выгружать запрошенные данные в виде RDF/XML-файлов, сохраняя промежуточные выгруженные данные, чтобы единым блоком передать уже выгруженные. Далее в фоновом режиме, то есть в режиме, при котором нет необходимости контролировать процесс выгрузки данных, интегратор автоматически продолжает ранее запущенный процесс, грузит данные в БД и с помощью Apache JENA формирует RDF/XML-файлы для последующей передачи.

Описанная модель, программное решение и его реализация были испытаны и апробированы с использованием типового набора данных, полу- ченных из ряда социальных сетей. В дополнение к реальному регулярному набору результатов переговоров пользователей социальных медиа была введена партия сообщений, генерируемых онлайн-ботом. Помимо социальных медиа (без предварительного знания о структуре данных), алгоритмы анализа больших данных смогли выявить влияние онлайн-бота.

Результаты представлены на рисунке, где продемонстрированы ежегодные тенденции активности пользователей. Пик, определенный 15 августа, соответствует активности бота и может быть легко определен агентом, сравнивающим поведение предыдущих периодов. Описанные результаты исследований показывают, что предлагаемую модель можно использовать для анализа поведения в сети и выявления негативного информационного влияния.

Таким образом, предлагаемая модель позволяет фиксировать процесс деятельности пользователя Интернета с учетом сочетания человеческого и временного факторов. Выявление закономерностей позволяет определять основные особенности поведения, информационное влияние, устанавливать и анализировать колебания интересов пользователя к различным информационным объектам и событиям и т.п. Применение такого рода аналитики на практике позволяет реализовывать эффективную контекстную рекламу, повышать эффективность работы социальных сетей, а также решать различные проблемы информационной безопасности.

Литература

1. Bessis N., Dobre C. Big data and internet of things: a roadmap for smart environments. Berlin, Springer, 2014, 450 p.

2. Базенков Н.И., Губанов Д.А. Обзор информационных систем анализа социальных сетей // Управление большими системами. 2013. Вып. 41. С. 357–394.

3. Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Социальные сети: модели информационного влияния, управления и противоборства. М.: Физматлит, 2010. 228 с.

4. Бреер В.В., Новиков Д.А., Рогаткин А.Д. Управление толпой: математические модели порогового коллективного поведения. М.: ЛЕНАНД, 2016. 168 с.

5. Wei W., Joseph K., Liu H., Carley K. Exploring characteristics of suspended users and network stability on Twitter. Social Network Analysis and Mining, 2016, pp. 6–51.

6. Kadushin C. Understanding social networks: theories, concepts, and findings. Oxford Univ. Press, 2012, 264 p.

7. Орлов А.Ю., Иващенко А.В. Организация виртуального сообщества в сети Интернет // Информационные технологии. 2008. № 8. С. 15–19.

8. Иващенко А.В., Пугачева Е.C., Погодина С.C. Моделирование виртуальных сообществ пользователей интегрированной информационной среды // Управление большими системами: сб. тр. М.: Изд-во ИПУ РАН, 2010. Вып. 29. С. 68–87.

9. One Internet. Global commission on Internet Governance. Ghatham House: The Royal Institute of International Affairs, 2016. URL: https://www.cigionline.org/initiatives/global-commission-internet-governance (дата обращения: 01.11.2017)

10. Прикладной анализ случайных процессов; [под ред. С.А. Прохорова]. Самара: Изд-во СамНЦ РАН, 2007. 582 с.

http://swsys.ru/index.php?id=4405&lang=%E2%8C%A9%3Den&like=1&page=article

Perhaps, you might be interested in the following articles of similar topics: