Методы обобщающей кластеризации при анализе социальных сетей

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Методы обобщающей кластеризации при анализе социальных сетей

Consensus clustering methods in social network analysis

Статья опубликована в выпуске журнала № 4 за 2011 год. [ на стр. 98 – 101 ]
Аннотация:Описаны результаты анализа социальных сетей с использованием комбинации различных методов кластериза-ции для получения наиболее полной кластерной структуры, которая в дальнейшем будет использоваться для более сложного анализа сети.
Abstract:In our social network analysis project we use combined clustering techniques in order to obtain meaningful clustering structure, which could be use as a base for different analysis methodologies.

Автор: Сивоголовко Е.В. (efecca@gmail.com) - Санкт-Петербургский государственный университет
Ключевые слова: оценка качества кластеризации, обобщающая кластеризация, анализ социальных сетей
Keywords: cluster validity, clustering, social network
Количество просмотров: 12998	Версия для печати Выпуск в формате PDF (5.83Мб) Скачать обложку в формате PDF (1.28Мб)

При анализе социальных сетей автор ставила перед собой задачу изучить взаимодействие пользователей в сети, а также распространение влияния наиболее авторитетных в том или ином кругу общения пользователей на группу единомышленников и изменение различных групп пользователей с течением времени. В этой работе важная роль базового этапа отведена кластеризации, позволяющей выделить близкие по контексту группы пользователей, которые потом обрабатываются с помощью других методов анализа данных.

Цель большинства существующих подходов к кластеризации социальных сетей – построить одну общую модель кластеризации, в которой будет учитываться весь окружающий пользователя контекст. Автор предлагает использовать двухэтапный подход, позволяющий кластеризовать различные семантические контексты по отдельности, а после этого объединять получившиеся структуры в одну конечную структуру классов.

Структура данных

В работе использованы данные, полученные из социальной сети Facebook специальным приложением, устанавливаемым исключительно по же- ланию пользователя и собирающим как личную информацию со страницы пользователя, так и информацию о его взаимодействии с другими пользователями сети. Такой подход в состоянии обеспечить случайную выборку пользователей, эксперименты на которой можно будет считать объективными. Подробное устройство тестового множества отражено на рисунке.

Таким образом, собранную информацию о пользователе можно разделить на три семантические группы: личные (демографические) данные, интересы и взаимоотношения. Заметим, что в группу интересов попадает не то, что указывает пользователь в соответствующем разделе своей личной страницы, а информация о посещаемых им страницах, о группах, в которых он состоит, и о событиях, в которых участвует. Общее количество объектов в полученном множестве данных следующее: пользователей – 12346, групп – 1288, страниц – 2500 и событий – 1053.

Кластеризация

В силу того, что данные о пользователе зачастую имеют самую различную природу, для учета этого семантического разрыва в характеристиках предлагается применить двухэтапный подход при кластеризации социальной сети.

Первый этап – кластеризация данных по отдельным характеристикам.

Второй этап – обобщающая кластеризация на основе всех или некоторых кластерных структур, полученных на предыдущем шаге.

Использование обобщающей кластеризации позволяет преодолеть семантическую разницу между характеристиками и применять различные алгоритмы (или же разные параметры для одного алгоритма) при кластеризации разных характеристик, подбирая для каждой наиболее оптимальный вариант, тем самым улучшая конечную структуру кластеров.

Кластеризация для отдельных характеристик. В качестве алгоритма для кластеризации по отдельным характеристикам в данной системе используется DBSCAN как эффективный и достаточно быстрый алгоритм кластеризации, позволяющий находить кластеры произвольной формы, выделять их нужное число и игнорировать выбросы данных [1]. Реализация DBSCAN взята из проекта Weka, в который было добавлено вычисление Manhattan distance между строками.

Параметры, используемые при кластеризации демографических характеристик, и количество полученных кластеров приведены в таблице 1.

Таблица 1

Кластеризация демографических характеристик

Характеристика	Метрика	Epsilon	Min_pts	Число кластеров
Возраст	Euclidian	0,1	5	20
Пол	Euclidian	0,1	3	2
Язык	Euclidian	0,1	7	13
Город	Manhattan	0,5	15	29
Страна	Manhattan	0,4	10	26
Место работы	Manhattan	0,1	5	29
Образование	Manhattan	0,3	4	19
Семейное положение	Manhattan	0,1	9	9

Кластеризация по интересам производилась в два этапа: сначала строилась структура кластеров для групп, событий или страниц, потом на ее основе с учетом отношения принадлежности строились кластеры пользователей. Таким образом, если и , а , то . Очевидно, что при таком построении в конечной кластерной структуре пользователей один пользователь может принадлежать нескольким кластерам одновременно. Результаты кластеризации по интересам приведены в табли- це 2.

В качестве меры схожести при кластеризации групп и событий на первом этапе использовалось количество общих пользователей между двумя сравниваемыми объектами. То есть, если и , то, скорее всего, эти объекты близки по смыслу, потому что большое количество людей состоит в них обоих.

Таблица 2

Кластеризация по интересам

Характеристика	Метрика	Epsilon	Min_pts	Число кластеров
Группы	Manhattan	0,5	3	42
События	Manhattan	0,5	3	65
Страницы	Manhattan	0,5	3	41

Обобщающая кластеризация. В качестве методологии обобщающей кластеризации была использована метакластеризация, или кластеризация кластеров. Пусть есть кластерные структуры и , полученные для характеристик и соответственно. Для каждого пользователя , участвующего хотя бы в одной структуре кластеров, строится характеристический вектор размерности где N – общее количество кластерных структур. Значение каждой компоненты этого вектора определяется по правилу

В данной работе для получения обобщающей кластеризации использовалась система GenePatternServer [2]. К сожалению, она написана не самым оптимальным образом: из-за ограничения на оперативную память для получения обобщающей структуры кластеров использовалась только часть характеристик (информация о них приведена в табл. 3). Количественная разница в выборке обусловлена тем, что не для всех пользователей имеется полная информация о возрасте или интересах.

Таблица 3

Данные для обобщающей кластеризации

Характеристики	Размерность	Количество пользователей
Возраст+Пол	20+9=29	9899
Группы+События+ Страницы	42+65+41=148	9006

Для запуска GenePatternServer необходимы были следующие параметры: no sampling, SOM (в качестве алгоритма кластеризации) и 500 (в качестве количества итераций для SOM), 5 (максимальное число кластеров в полученной обобщенной структуре). Система GenePatternServer последовательно строит обобщенные структуры кластеров с числом кластеров от двух до некоторого заданного пользователем значения, потом пользователю предоставляется возможность выбрать из полученных структур оптимальную, руководствуясь либо статистическими оценками каждой структуры, посчитанными системой, либо какими-то своими методами оценки качества кластеризации.

Результаты обобщающей кластеризации приведены в таблице 4. В колонке «Метки» указываются кластеры отдельных характеристик, которые были объединены в данный метакластер. Просмотрев отдельные составляющие метакластера, аналитик может сделать вывод о его семантике.

В работе использовался следующий механизм проставления меток для метакластеров.

· Для каждого метакластера входящие в него кластеры отдельных характеристик упорядочивались по количеству пользователей.

· Из всех кластеров отбирались те, число пользователей в которых было выше некоторого порогового значения (своего для каждого мета-кластера).

· Для всех отобранных кластеров составлялся список страниц, групп или событий, пользователи которых сформировали этот кластер.

· Выявление общей составляющей производилось вручную путем анализа названий из полученного на предыдущем шаге списка.

К сожалению, два первых кластера оказались слишком разнородными для того, чтобы выделить в них какую-либо направленность, но для остальных трех метки были составлены и указаны в соответствующем столбце таблицы 4.

Таблица 4

Обобщающая кластеризация по интересам

Интересы	Метки	Пользователи	Кластеры
Кластер 1	-	3563	2
Кластер 2	-	2115	2
Кластер 3	Музыка	101	73
Кластер 4	Прогулки, защита животных	182	70
Кластер 5	Регги, путешествия, мода	3045	149

Методы оценки

Качество кластеризации по отдельным характеристикам. При оценке качества кластеризации по отдельным характеристикам использовалась методология Pooling, которая заключается в следующем.

· Случайным образом выбирается 10 % из всех имеющихся кластеров.

· Если кластер включает менее 10 элементов, он проверяется целиком, если же более, для проверки случайным образом выбираются 10 элементов плюс еще 10 % от всего кластера.

Проверка в данном случае проводилась вручную. При просмотре выбранных элементов семантическое значение кластера определялось по наибольшей подгруппе схожих элементов, и уже относительно их делалось предположение о верном или неверном распределении оставшихся.

Мерой качества служила аккуратность кластеризации, вычисляемая по формуле .

Качество обобщающей кластеризации. Для оценки качества обобщающей кластеризации использовался модифицированный индекс Девиса–Болдуина, перенесенный в пространство схожести [3]. Эта метрика качества достаточно легко вычисляется и показывает хорошие результаты при оценках обобщающей кластеризации.

Рассмотрим попарную меру схожести между элементами и .

Используем , где N – количество кластерных структур для создания обобщенной структуры кластеров;

Центральный элемент обобщенного кластера – это элемент с максимальной средней схожестью в кластере:

Индекс Девиса–Болдуина в пространстве схожести определяется следующим образом:

где – количество кластеров в обобщенной кластерной структуре; – средняя попарная схожесть в структурах соответственно. Малые значения означают, что сходство между элементами из разных кластеров () мало, а между элементами, принадлежащими одному и тому же кластеру ( ), велико. Разбиение, минимизирующее , является оптимальным.

Подытоживая, отметим, что в ходе проекта по анализу социальных сетей [4] была разработана методология двухэтапной кластеризации пользователей. Установлено, что обобщающая кластеризация позволяет выделять более сложные кластерные структуры, чем кластеризация по отдельным характеристикам пользователей, что увеличивает значимость кластеризации для аналитиков сети. К недостаткам данного метода следует отнести длительное время работы, что в данном случае является менее значимым по сравнению с эффективностью техники.

Литература

1. Ester M., Kriegel H.-p., Jorg S., and Xu X. Portland. A density-based algorithm for discovering clusters in large spatial databases with noise // Conf. on Knowledge Discovery in Databases and Data Mining, 1996.

2. Duarte F.J. [et al]. On Consensus Clustering Validation. IAPR Int. Conf. on Structural, syntactic and statistical pattern recognition, 2010.

3. Reich M. [et al]. GenePattern 2.0. Nature Genetics 38. 2006. № 5, pp. 500–501.

4. Simoes J. [et al]. Exploring Influence and Interests among Users within Social Networks. Computational Social Networks: Springer-Verlag, 2011.

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=2924	Версия для печати Выпуск в формате PDF (5.83Мб) Скачать обложку в формате PDF (1.28Мб)
Статья опубликована в выпуске журнала № 4 за 2011 год. [ на стр. 98 – 101 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей

Программные продукты и системы

Авторитетность издания

Добавить в закладки

Следующий номер на сайте

Выпуски

Методы обобщающей кластеризации при анализе социальных сетей