На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
14 Июня 2026

Распознавание эмоциональных состояний с использованием ансамблевых методов мультимодального сентимент-анализа

Emotion recognition using ensemble methods for multimodal sentiment analysis
Дата подачи статьи: 04.02.2025
Дата после доработки: 03.06.2025
Дата принятия к публикации: 18.06.2025
УДК: 004.896
Группа специальностей ВАК: 2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки, физико-математические науки)
Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 114-124 ]
Аннотация:В статье представлен подход к распознаванию эмоциональных состояний человека на основе мультимодального сентимент-анализа с применением ансамблевых методов интеграции данных различных модальностей (текст, аудио и видео). Несмотря на прогресс в этой области, известные подходы (например, TFN, MARN) имеют существенные ограничения, связанные с низкой устойчивостью к зашумленным данным, значительными вычислительными затратами и сложностями в адаптации к индивидуальным особенностям различных модальностей. Новым в данном ансамблевом методе является объединение трех уровней интеграции: комбинирование различных типов данных (текст, аудио, видео), разнообразных моделей и стратегий ансамблирования (Stacking, Bagging, AdaBoost, CatBoost), что существенно отличает его от известных мультимодальных решений. Предложенный метод позволяет учитывать индивидуальный вклад каждой модальности и минимизировать ошибки отдельных классификаторов, повышая стабильность и точность итоговых предсказаний. Практическая значимость работы заключается в широких возможностях использования разработанного подхода для автоматизированного анализа эмоциональной окраски сообщений и реакций пользователей, включая мониторинг социальных сетей, маркетинговые исследования, анализ клиентской удовлетворенности, а также медицинскую диагностику. Вычислительный эксперимент проведен на открытом мультимодальном наборе данных eNTERFACE’05, содержащем видеозаписи с эмоциональными ре-акциями участников. Лучшие результаты получены с использованием стратегии Stacking (точность = 89,7 %, F1-мера = 89,8 %), что на 10 % и 15 % превосходит такие традиционные мультимодальные модели, как TFN и MARN соответственно, по метрике точности, и на 15 % и 17 % по F1-мере. Отдельное внимание уделено изучению устойчивости предложенных методов к шуму и искажениям входных данных. Полученные результаты показали, что разработанный метод сохраняет высокую эффективность и точность даже при значительном уровне шума (до 30 %), что существенно расширяет его практические возможности применения.
Abstract:This article presents an approach for recognizing human emotional states based on multimodal sentiment analysis, employing ensemble methods to integrate data from various modalities (text, audio, and video). Despite progress in this field, existing approaches (e.g., TFN, MARN) have significant limitations related to low robustness against noisy data, substantial computational costs, and difficulties in adapting to the individual characteristics of different modalities. The novelty of this ensemble method lies in the combination of three levels of integration: combining different data types (text, audio, video), diverse models, and ensemble strategies (Stacking, Bagging, AdaBoost, CatBoost), which substantially distinguishes it from known multimodal solutions. The proposed method allows for the consideration of the individual contribution of each modality and minimizes errors from individual classifiers, thereby enhancing the stability and accuracy of the final predictions. The practical significance of the work lies in the broad applicability of the developed approach for automated analysis of message sentiment and user reactions, including social media monitoring, market research, customer satisfaction analysis, and medical diagnostics. A computational experiment was conducted using the open multimodal dataset eNTERFACE'05, containing video recordings of participants' emotional reactions. The best results were obtained using the Stacking strategy (Accuracy = 89.7 %, F1-Score = 89.8 %), which outperforms traditional multimodal models such as TFN and MARN by 10 % and 15 %, respectively, in accuracy, and by 15 % and 17 % in F1-Score. Special attention was paid to studying the resilience of the proposed methods to noise and distortions in input data. The obtained results demonstrated that the developed method maintains high effectiveness and accuracy even under significant noise levels (up to 30 %), substantially expanding its practical application potential.
Авторы: Фазульянов Д.В. (fazulianov.dmitrii@gmail.com) - Национальный исследовательский ядерный университет «МИФИ» (ассистент кафедры), Москва, Россия, Гусева А.И. (aiguseva@mephi.ru) - Национальный исследовательский ядерный университет «МИФИ» (профессор), Москва, Россия, доктор технических наук
Ключевые слова: сентимент-анализ, мультимодальные данные, ансамблевые модели, stacking, Bagging, AdaBoost, CatBoost, глубокое обучение, трансформеры, эмоциональная окраска
Keywords: sentiment analysis, multimodal data, ensemble models, Stacking, Bagging, AdaBoost, CatBoost, deep learning, transform-ers, emotional valence, multimodal data, ensemble models, stacking, Bagging, AdaBoost, CatBoost, deep learning, transformers, emotional valence
Количество просмотров: 2666
Статья в формате PDF

Распознавание эмоциональных состояний с использованием ансамблевых методов мультимодального сентимент-анализа

DOI: 10.15827/0236-235X.153.114-124

Дата подачи статьи: 04.02.2025

Дата после доработки: 03.06.2025

Дата принятия к публикации: 18.06.2025

УДК: 004.896

Группа специальностей ВАК: 2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки, физико-математические науки)

Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 114-124 ]

В статье представлен подход к распознаванию эмоциональных состояний человека на основе мультимодального сентимент-анализа с применением ансамблевых методов интеграции данных различных модальностей (текст, аудио и видео). Несмотря на прогресс в этой области, известные подходы (например, TFN, MARN) имеют существенные ограничения, связанные с низкой устойчивостью к зашумленным данным, значительными вычислительными затратами и сложностями в адаптации к индивидуальным особенностям различных модальностей. Новым в данном ансамблевом методе является объединение трех уровней интеграции: комбинирование различных типов данных (текст, аудио, видео), разнообразных моделей и стратегий ансамблирования (Stacking, Bagging, AdaBoost, CatBoost), что существенно отличает его от известных мультимодальных решений. Предложенный метод позволяет учитывать индивидуальный вклад каждой модальности и минимизировать ошибки отдельных классификаторов, повышая стабильность и точность итоговых предсказаний. Практическая значимость работы заключается в широких возможностях использования разработанного подхода для автоматизированного анализа эмоциональной окраски сообщений и реакций пользователей, включая мониторинг социальных сетей, маркетинговые исследования, анализ клиентской удовлетворенности, а также медицинскую диагностику. Вычислительный эксперимент проведен на открытом мультимодальном наборе данных eNTERFACE’05, содержащем видеозаписи с эмоциональными ре-акциями участников. Лучшие результаты получены с использованием стратегии Stacking (точность = 89,7 %, F1-мера = 89,8 %), что на 10 % и 15 % превосходит такие традиционные мультимодальные модели, как TFN и MARN соответственно, по метрике точности, и на 15 % и 17 % по F1-мере. Отдельное внимание уделено изучению устойчивости предложенных методов к шуму и искажениям входных данных. Полученные результаты показали, что разработанный метод сохраняет высокую эффективность и точность даже при значительном уровне шума (до 30 %), что существенно расширяет его практические возможности применения.
Фазульянов Д.В. (fazulianov.dmitrii@gmail.com) - Национальный исследовательский ядерный университет «МИФИ» (ассистент кафедры), Москва, Россия, Гусева А.И. (aiguseva@mephi.ru) - Национальный исследовательский ядерный университет «МИФИ» (профессор), Москва, Россия, доктор технических наук
Ключевые слова: сентимент-анализ, мультимодальные данные, ансамблевые модели, stacking, Bagging, AdaBoost, CatBoost, глубокое обучение, трансформеры, эмоциональная окраска
Размер шрифта:
      Шрифт:
Ссылка скопирована!

Введение. Мультимодальный подход к анализу эмоций, использующий одновременно текстовые, аудиальные и визуальные сигналы, активно развивается, что позволяет значительно повысить точность распознавания эмоциональных состояний. Традиционные архитектуры мультимодальных моделей, такие как Tensor Fusion Network (TFN) и Multi-Attention Recurrent Network (MARN), имеют ряд ограничений, в частности, высокую чувствительность к шумам и сложность адаптации к разным  типам данных [1]. Подобные подходы характеризуются также значительными вычислительными затратами, сложностью интеграции разнородных признаков и недостаточной гибкостью при изменении структуры данных [2]. Научная новизна предлагаемого исследования заключается в применении ансамблевого подхода, интегрирующего три уровня объединения данных и моделей: комбинирование данных различных модальностей (текст, аудио, видео), использование разных моделей извлечения признаков (BERT, LSTM, ResNet-50), применение нескольких стратегий ансамблирования (Stacking, Bagging, AdaBoost, CatBoost). Предложенный метод впервые реализует комплексную многоуровневую интеграцию в отличие от моделей TFN и MARN, использующих лишь один или два уровня, и это существенно повышает точность и устойчивость мультимодального сентимент-анализа.

Практическая значимость разработанного подхода определяется его способностью эффективно решать задачи анализа эмоциональных реакций на основе мультимодальных данных в условиях реальной эксплуатации, характеризующихся зашумленными, неполными или искаженными данными. Метод перспективен для применения в автоматизированном мониторинге и при анализе общественного мнения  в социальных сетях, в изучении клиентских отзывов и эмоций пользователей онлайн-сервисов, в маркетинговых исследованиях, психолого-педагогической диагностике, а также в системах автоматизированной поддержки принятия решений в организационных комплексах.

Существующие исследования часто фокусируются на изолированной обработке модальностей, что ограничивает их способность воспринимать полную картину эмоционального состояния. Например, работы, сосредоточенные на аудиоканале [3, 4], позволяют достаточно эффективно считывать интонационные характеристики голоса, однако упускают семантический контекст. Подходы, базирующиеся на анализе статистических изображений [5], распознают мимику в конкретный момент времени, но игнорируют динамику изменений. Методы, основанные исключительно на текстовых данных [6, 7], хотя и обеспечивают высокую точность семантического анализа, не способны учитывать невербальные сигналы, которые важны для выявления сарказма или скрытых эмоций.

Другим недостатком современных подходов, особенно трансформерных моделей и сложных мультимодальных архитектур, является высокая вычислительная нагрузка, что затрудняет их применение в задачах реального времени  и коммерческих решениях, где важны быстродействие и адаптивность.

В представленной работе предложен ансамблевый подход, который позволяет компенсировать указанные недостатки за счет использования стратегий ансамблирования Stacking, Bagging, AdaBoost и CatBoost, обеспечивающих гибкость и устойчивость к неполным и зашумленным данным. Предложенная стратегия ансамблирования в задачах мультимодального сентимент-анализа позволяет динамически компенсировать ошибки одной модальности  за счет других, обеспечивая устойчивость к зашумленным данным, что невозможно при использовании методов жесткой интеграции признаков.

Научная новизна заключается в следующем: впервые проведено комплексное сравнение и исследование эффективности ансамблевых методов в рамках задачи мультимодального сентимент-анализа текстовых, аудио- и видеоданных. Проведен подробный анализ устойчивости предложенных стратегий по сравнению  с известными архитектурами TFN и MARN, продемонстрировавший существенное улучшение точности при значительных уровнях шума. Кроме того, предложенный ансамблевый подход обеспечивает эффективную интеграцию и компенсацию ошибок отдельных классификаторов, демонстрируя высокую гибкость и устойчивость, превосходящие существующие методы.

Модель TFN объединяет текстовые, аудио- и видеопризнаки методом компактного билинейного пуллинга. Текстовые данные переводятся в эмбеддинги, аудио – в спектрограммы, видео обрабатываются сверточными сетями. Полученные признаки объединяются в тензор, затем проецируются в пространство меньшей размерности. Классификация осуществляется многослойным перцептроном. Модель TFN точна на синхронизированных данных, но ресурсоемка и чувствительна к пропущенным модальностям [8]. Модель MARN, в отличие  от TFN, учитывает временные зависимости  и взаимодействия модальностей, каждая из которых обрабатывается рекуррентной нейросетью (LSTM или GRU). После чего применяется механизм внимания для выделения значимых признаков и связей между модальностями. Объединенные признаки классифицируются многослойным перцептроном. Модель MARN эффективна на аудио- и видеоданных, но ресурсоемка и менее стабильна на длинных последовательностях [9]. Согласно результатам исследований, модель TFN достигает точности около 74,6 %, а MARN – до 77,1 % при анализе мультимодальных данных набора CMU-MOSI [8, 9].

Используемые материалы и методы

Применение ансамблевых методов при муль- тимодальном анализе эмоций позволяет минимизировать ошибки отдельных моделей и повысить устойчивость к шумам и искажениям данных [10].

Предлагаемый метод направлен на повышение точности мультимодального сентимент-анализа за счет адаптивного объединения предсказаний специализированных моделей, обученных на различных модальностях (текст, аудио, видео) и учета межмодальных зависимостей. Он включает четыре шага обработки данных.

Шаг 1. Предварительная обработка, включающая нормализацию и приведение текстовых, аудио- и видеоданных к единому векторному представлению.

– Текст: очистка (удаление стоп-слов, знаков пунктуации), токенизация (разбиение на слова).

– Аудио: преобразование аудиофайла в спек- тограмму, удаление фонового шума и тишины, перевод частоты в мел-шкалу.

– Видео: разбиение на отдельные кадры, масштабирование изображений до стандартного размера входа сверточной нейронной сети ResNet-50, нормализация цветовых каналов  и удаление шума.

Шаг 2. Применение глубоких нейросетей (BERT, LSTM, ResNet-50) для выделения наибо- лее значимых признаков из каждой модальности и приведение их к единой размерности.

– Текст: векторизация с помощью BERT, выделение признаков (лингвистические и семантические особенности, контекст), обучение модели и классификация с помощью SVM.

– Аудио: анализ временных зависимостей  с использованием LSTM, выделение признаков (интонация, тембр, ритм и темп речи, громкость), обучение модели и классификация аудиофрагментов с помощью SVM.

– Видео: получение вектора признака для каждого кадра с помощью ResNet-50, агрегация признаков (мимика, жесты, поза тела), обучение модели и классификация с помощью SVM.

Шаг 3. Применение различных ансамблевых методов для объединения результатов  и формирования итогового предсказания.

– Stacking: объединение предсказаний базовых моделей с помощью обученной модели (логистическая регрессия).

– Bagging: усреднение предсказаний моделей для повышения устойчивости.

– AdaBoost: оптимизация предсказаний  с учетом категориальных признаков.

– CatBoost: усиление слабых моделей путем изменения весов сложных примеров.

Шаг 4. Итоговая оценка тональности: позитивная, негативная и нейтральная или классификация по эмоциям.

– Определение эмоциональной окраски (позитивная / негативная / нейтральная).

– Поддержка многоклассовой классификации по настроению.

Архитектура разработанной  программной системы

Для проведения исследования был разработан программный продукт, реализованный на языке Python, представляющий собой распределенную систему для мультимодального сентимент-анализа. В отличие от монолитных  решений разработанный комплекс использует  асинхронную сервис-ориентированную архитектуру на базе очереди задач, что дает возможность обрабатывать эмоционально тяжелый медиаконтент и горизонтально масштабировать систему.

Общая схема взаимодействия компонентов системы представлена на рисунке 1.

Программный комплекс состоит из следующих функциональных блоков.

– Веб-сервер. Реализован на базе фреймворка FastAPI. Обеспечивает REST API для взаимодействия с клиентом, выполняет валидацию входящих файлов (проверка MIME-типов, контроль размера) и их потоковую буферизацию во временное файловое хранилище.

– Подсистема оркестрации. Реализует паттерн Produce-Consumer. Веб-сервер формирует задачи и помещает их в очередь брокера сообщений Redis.

– Вычислительный узел. Изолированные процессы Celery выполняют задачи в фоновом режиме. Это исключает блокировку основного интерфейса при выполнении ресурсоемких операций инференса нейросетей.

– Модуль предобработки. Выполняет нормализацию медиаданных с использованием утилиты FFmpeg: видеопоток приводится к раз- решению 720 p и частоте 25 кадров/с, аудиодорожка извлекается в формате WAV (16 kHz, mono). Для транскрибации в текст используется ASR-модель Whisper.

Программная реализация  алгоритмического ядра

Логическая структура классов, реализующих конвейер машинного обучения, показана на рисунке 2. Анализ эмоционального состояния выполняется путем независимого извлечения признаков из каждой модальности с последующим поздним слиянием.

В качестве инструментов извлечения признаков используются следующие архитектурные решения.

Подсистема предобработки и извлечения признаков

·       Текстовая модальность: полученный в ре- зультате транскрибации текст токенизируется и векторизуется предобученной моделью BERT. Используется эмбеддинг токена или усреднение выходов последнего скрытого слоя с учетом маски внимания. Размерность вектора – 768.

·       Аудиальная модальность: аудиоданные обрабатываются LSTM, выделяющей временные зависимости из последовательности мелчастотных кепстральных коэффициентов, а так- же ритмические и тембральные характеристики. Итоговая размерность вектора – 240.

·       Визуальная модальность: входной видеопоток нормализуется, из видеопоследовательности извлекаются кадры с адаптивным шагом, каждый из которых приводится к размеру 224×224 пикселя, нормализуется по среднему и стандартному отклонению и подается на вход сверточной нейронной сети ResNet-50. Слой классификации отсекается, что позволяет получать векторы признаков размерностью  2 048. Финальный вектор видеомодальности формируется путем усреднения эмбеддингов всех кадров.

При выборе архитектуры нейронной сети для обработки видеоданных был проведен анализ современных решений. Визуальные модели на основе трансформеров (например, ViT) не были широко проверены на задаче распозна- вания эмоций, поэтому предпочтение отдано классическим сверточным нейронным сетям, таким как VGG, Inception и ResNet.

ResNet-50 выбрана за счет ее высокой производительности и надежности – по сравнению с VGG, она значительно сокращает количество параметров и вычислительных затрат, а наличие остаточных соединений обеспечивает стабильность градиента и улучшает процесс обучения. По сравнению с Inception архитектура ResNet-50 проще и надежнее при обучении, что делает ее наиболее подходящей для мультимодального анализа эмоциональных состояний.

Подсистема классификации и слияния

Для каждой модальности методом опорных векторов (Support Vector Machine, SVM) обучены независимые базовые классификаторы, которые возвращают вероятностные оценки принадлежности к классам эмоций. Векторы вероятностей объединяются в метапризнаковое пространство, обрабатываемое ансамблевым метаклассификатором. В системе реализованы следующие стратегии ансамблирования.

·       Stacking: предсказания базовых моделей объединяются в единый массив признаков, который передается на вход метамодели, реализованной в виде логистической регрессии, позволяющей учитывать сильные стороны каждой модальности и минимизировать их недостатки.

·       AdaBoost: базовые модели объединяются с помощью алгоритма адаптивного усиления, который последовательно обучает классификаторы, корректируя их ошибки и увеличивая точность на сложных примерах.

·       Bagging: применяется ансамблирование путем использования нескольких копий базовой модели, обученных на различных случайных подвыборках данных. Итоговый результат определяется путем голосования, что снижает чувствительность модели к шумам и выбросам.

·       CatBoost: используется современный алгоритм градиентного бустинга, специально адаптированный для эффективной обработки больших объемов разнородных данных. CatBoost минимизирует риск переобучения и демонстрирует высокую устойчивость и точность при работе с комплексными мультимодальными данными.

Методы взаимодействия системы с внеш- ними файлами

Программный комплекс обеспечивает прозрачную работу с данными через файловую си- стему. Результат обработки сохраняется в структурированный JSON-файл, содержащий техни- ческую метаинформацию (ID задачи, длительность обработки, параметры устройства), ссыл- ку на нормализованные медиафайлы, а также предсказанный класс эмоций и распределение вероятностей для всех используемых моделей (видео, аудио, текст, ансамбль).

Для обеспечения производительности и  ско- рости реализована параллельная обработка больших массивов данных с использованием библиотеки concurrent.futures, что позволяет существенно сократить время обработки при масштабировании на значительные объемы информации.

Для оценки предложенного ансамблевого метода использовался открытый мультимодальный набор данных eNTERFACE’05, содержащий видеозаписи, аудиоданные и текстовые расшифровки эмоциональных высказываний участников. Датасет включает данные о различных состояниях (радость, грусть, гнев, страх, удивление, нейтральное состояние), размеченные вручную, что позволяет проводить качественное обучение и валидацию моделей.

Характеристики разработанного метода.

-   Интеграция предсказаний базовых моделей снижает вычислительную сложность по отношению к традиционным мультимодальным моделям.

-   Возможность гибко комбинировать пред- сказания повышает точность классификации  (в отличие от TFN, использующего статический билинейный пуллинг).

-   Учет влияния каждой модальности на финальный результат обеспечивает комплексное понимание эмоций (в отличие от MARN, который ориентирован на временные зависимости).

-   Уменьшение влияния шумных данных  и повышение надежности анализа благодаря методам Bagging и CatBoost.

-   Использование логистической регрессии в качестве метамодели позволяет улучшить согласованность предсказаний различных базовых классификаторов, повышая итоговую точность анализа, и различать не только позитивные, негативные и нейтральные эмоции, но  и более сложные состояния, такие как удивление и страх.

-   Использование различных стратегий ансамблирования для гибкой настройки системы в зависимости от типа данных и задачи делает метод перспективным для применения в системах мониторинга общественного мнения, анализа отзывов и поддержки управленческих решений.

Эти преимущества подтверждаются результатами экспериментов.

Предобработка данных и извлечение признаков

Текстовые данные предварительно разбиваются на токены, удаляются малозначимые сло- ва, приводятся к нижнему регистру и базовым формам. Затем модель BERT преобразует их  в эмбеддинги, которые усредняются для получения единого представления текста.

Аудиоданные извлекаются из видео в формат WAV и преобразуются в мел-спектрограм- мы для учета особенностей слухового восприятия. Ключевые признаки (темп, громкость, интонация) представлены мел-частотными кепстральными коэффициентами и анализируются рекуррентной нейросетью LSTM, что позволяет учитывать временные изменения в речевом сигнале.

Видеоданные разделяются на отдельные кадры с частотой один кадр в секунду, пиксели нормализуются до диапазона [0,1], кадры масштабируются до 224×224 пикселей для обработки ResNet-50. Размер изображения выбран на основе рекомендаций авторов сверточной сети и подтверждён экспериментально, так как увеличение размера до 299×299 не только не улучшило точность, но и существенно повысило вычислительную сложность.

После прохождения кадров через сверточные слои формируется вектор признаков, содержащий информацию о ключевых визуальных характеристиках, таких как мимика, жесты и движения. Единое формирование представ- ления о видео достигается методом усреднения признаков по всем кадрам.

Классификация и интеграция результатов

Извлеченные признаки каждой модальности классифицируются SVM, строящим оптимальные гиперплоскости для разделения на классы. Для интеграции мультимодальных дан- ных применены ансамблевые методы Stacking, Bagging, AdaBoost и CatBoost. Метод Stacking использует логистическую регрессию как метамодель, агрегирующую вероятности классов от базовых моделей [14]. Итоговое решение принимается по классу с наибольшей вероятностью:

где P – итоговое предсказание; Ptext – вероятность предсказания класса по тексту; Paudio – вероятность предсказания класса по аудио; Pvideo – вероятность предсказания класса по видео.

Метод Bagging обучает несколько копий моделей на случайных подвыборках, снижая шум и переобучение. Итоговый класс определяется усреднением предсказанных вероятностей, что снижает влияние выбросов и случайного шума:

где T – количество итераций обучения; Pi – вероятность, предсказанная i-й базовой моделью.

Метод AdaBoost улучшает классификацию сложных примеров, адаптивно корректируя ошибки предыдущих предсказаний. Каждой базовой модели присваивается вес, зависящий от ее точности, а неправильно классифицированные объекты получают повышенный приоритет в обучении:

где Pt – вероятность, предсказанная моделью на t-й итерации; α – вес модели на t-й итерации, зависящий от ее точности.

Метод CatBoost применяет градиентный бустинг, адаптируя процесс обучения за счет синхронизации ошибок между модальностями. Он особенно эффективен при обработке текстовых эмбеддингов, мел-спектрограмм и визуальных признаков, так как минимизирует переобучение:

где T – количество деревьев в модели; ft (x) – предсказание t-го дерева; w – весовое значение t-го дерева.

После интеграции формируется итоговый вектор вероятностей, который позволяет отнести входные данные к одному из эмоциональных классов (позитивный, негативный, нейтральный, радость, страх, удивление, гнев, раздражение). Разнообразие стратегий ансамблирования обеспечивает гибкость настройки модели для решения конкретных практических задач.

Полученные результаты

Для объективной оценки эффективности разработанного метода мультимодального сентимент-анализа были выбраны следующие стандартные метрики классификации: общая точность, точность предсказаний, полнота, F1-мера.

Эксперименты проводились на мультимодальном наборе данных eNTERFACE’05. Данные были разделены случайным образом на обучающую (70 %) и тестовую (30 %) выборки. Для обеспечения репрезентативности результатов использована кросс-валидация с 5-кратным разделением. Для каждого метода ансамблирования были получены отдельные результаты по всем четырем метрикам (табл. 1).  В качестве базового уровня использовались  популярные мультимодальные модели TFN  и MARN.

На рисунке 3 представлены результаты экспериментов, включающие точность предсказаний, полноту и F1-меру по каждой эмоции.

Был проведен анализ устойчивости разработанного метода к неполным или зашумленным данным, результаты приведены в таблице 2. Для этого в тестовую выборку искусственно добавлялись помехи: шумы в аудиоданных, частичное отсутствие кадров в видеопоследовательности и случайное удаление фрагментов текста.

Как видно из таблицы 2, предложенные  ансамблевые подходы демонстрируют значительно большую устойчивость к шуму по сравнению с базовыми моделями TFN и MARN. Наилучшую устойчивость к зашумленным данным показали методы Stacking и Bagging, что объясняется их способностью усреднять и взве- шенно учитывать предсказания базовых клас- сификаторов. При этом AdaBoost и CatBoost показали умеренную устойчивость, оставаясь более стабильными в условиях шума, чем традиционные методы.

Высокая эффективность Stacking обусловлена возможностью динамической интеграции предсказаний моделей различных модальностей, компенсации ошибок отдельных моделей и оптимизации весовых коэффициентов.

Обсуждение

В ходе экспериментов было выявлено, что предложенный ансамблевый метод мультимодального сентимент-анализа превосходит су- ществующие подходы, такие как TFN и MARN, по точности и устойчивости к зашумленным данным.

Полученные результаты согласуются с выводами других исследований, подтверждаю- щих ограничения традиционных архитектур  и преимущества подходов на основе глубокого обучения и ансамблирования [1, 2, 10]. Их авторы подчеркивают необходимость анализа нескольких модальностей, отмечая ограничения TFN и MARN – высокую вычислительную на- грузку и низкую устойчивость к шумам. Предложенный метод за счет ансамблирования обеспечивает большую гибкость, повышенную точность и устойчивость при меньших вычислительных затратах.

Наиболее эффективным методом ансамблирования является Stacking, поскольку он автоматически выявляет оптимальные зависимости между модальностями (текст, аудио, видео) при помощи логистической регрессии как метамодели, что позволяет выделять наиболее информативную модальность и компенсировать ошибки менее надежных модальностей.

Предложенный подход остается эффективным даже при значительном уровне шума (до 30 %), существенно превосходя TFN и MARN. Он минимизирует недостатки отдельных моделей за счет взвешенного и усредненного голосования, что подтверждается стабильно высокими метриками точности предсказаний, полноты и F1-меры.

Высокая точность и устойчивость предложенного метода открывают возможности его практического применения при анализе как социальных сетей, характеризующихся зашумленностью и неполнотой данных (низкое качество видео, искаженный звук), так и клиентских отзывов для выявления эмоциональных реакций и оптимизации маркетинговых и коммуникационных стратегий.

Несмотря на доказанную эффективность, метод имеет ограничения, а именно: запрос повышенных вычислительных ресурсов на этапе обучения, что требует оптимизации подходов интеграции моделей, необходимость проверки на других мультимодальных наборах данных для подтверждения универсальности, а также контроль эффективности работы метода в режиме реального времени для практического внедрения.

Таким образом, предложенный подход демонстрирует явные преимущества и значительный потенциал для практического применения.

Выводы

В данной работе решена задача распознавания эмоциональных состояний на основе мультимодального сентимент-анализа с исполь- зованием различных ансамблевых методов (Stacking, Bagging, AdaBoost, CatBoost).

Предложенный ансамблевый подход (Stac- king) продемонстрировал существенное улучшение точности классификации по сравнению с популярными моделями TFN и MARN. Метод Stacking показал также наивысшую устойчивость к шуму и искажениям данных.

Методы Bagging и CatBoost также продемонстрировали хорошие результаты, стабиль- но превосходя базовые подходы и обеспечивая приемлемую устойчивость к зашумленным данным.

Метод AdaBoost показал умеренно высокие показатели точности, однако его устойчивость к шумам оказалась несколько ниже, чем у других ансамблевых методов.

Разработанный метод обладает выраженной научной новизной, обусловленной комплексным использованием трехуровневой ансамблевой интеграции: данных разных модальностей, различных моделей извлечения признаков  и нескольких методов ансамблирования с построением метаалгоритма, что ранее не применялось для задач мультимодального сентимент-анализа.

Предложенные ансамблевые методы эффек- тивно учитывают вклад каждой модальности (текст, аудио, видео), минимизируют ошибки отдельных моделей и повышают стабильность и точность итоговых предсказаний.

Полученные результаты подтверждают значительную практическую ценность разработанного ансамблевого метода, который может успешно применяться для мониторинга общественного мнения, оценки эмоциональных реакций потребителей на товары и услуги, анализа эмоционального состояния пользователей в социальных сетях, а также для поддержки при- нятия решений в организационных системах.

Несмотря на высокие показатели точности и устойчивости предложенного метода, дальнейшие исследования могут быть направлены на решение ряда открытых вопросов и ограничений. Одной из перспективных задач является автоматизация выбора наиболее подходящей стратегии ансамблирования в зависимости от типа и качества данных, что позволит динамически адаптировать метод под разные практические ситуации. Также важным направлением является интеграция данного подхода в специализированные программные решения для анализа эмоциональных состояний в реальном времени с использованием потоковых данных. Представляет интерес возможность изучения влияния различных способов предварительной обработки и нормализации данных на общую точность модели. Реализация этих направлений позволит расширить область практического применения разработанного метода и повысить его эффективность для задач автоматизированного анализа эмоциональных состояний пользователей.

Список литературы

  1. Huddar M.G., Sannakki S.S., Rajpurohit V.S. Attention-based multi-modal sentiment analysis and emotion detection in conversation using RNN. IJIMAI, 2021, pp. 112–121. doi: 10.9781/ijimai.2020.07.004.
  2. Iddamalgoda N., Thrimavithana P., Fernando H. et al. A user-oriented ensemble method for multi-modal emotion recognition. Proc. Int. Conf. SLAAI, 2019, pp. 150–156.
  3. Жиленков А.А. Современное состояние и тенденции развития систем распознавания речи, эмоций и верификации по голосу // Искусственные общества. 2023. Т. 18. № 3. URL: https://artsoc.jes.su/s207751800027272-8-1/ (дата обращения: 23.03.2025). doi: 10.18254/S207751800027272-8.
  4. Егорчев А.А., Пашин Д.М., Сарамбаев А.Ф., Фахрутдинов А.Ф. Анализ систем определения и классификации эмоций человека по данным звукового потока // Изв. ЮФУ. Технич. науки. 2024. № 4. С. 91–100. doi: 10.18522/2311-3103-2024-4-91-100.
  5. Senadheera S.P.B.M., Weerasinghe A.R., Wijesinghe C.R. Human nervous system cancer mutation analysis from protein sequences and structures. Proc. Int. Conf. SLAAI, 2019, pp. 32–38.
  6. Двойникова А.А., Карпов А.А. Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных // Информационно-управляющие системы. 2020. № 4. С. 20–30. doi: 10.31799/1684-8853-2020-4-20-30.
  7. Гималетдинова Г.К., Довтаева Э.Х. Сентимент-анализ читательского интернет-комментария к политическому тексту // Политическая лингвистика. 2020. № 1. С. 42–51. doi: 10.26170/pl20-01-05.
  8. Zadeh A., Chen M., Poria S. et al. Tensor fusion network for multimodal sentiment analysis. Proc. Conf. Empirical Methods in Natural Language Processing, 2017, pp. 1103–1114. doi: 10.18653/v1/D17-1115.
  9. Zadeh A., Liang P.P., Poria S., Vij P. et al. Multi-attention recurrent network for human communication comprehension. Proc. AAAI Conf. Artificial Intelligence, 2018, vol. 32, no. 1, pp. 5642–5649. doi: 10.1609/aaai.v32i1.12024.
  10. Voloshina T., Makhnytkina O. Multimodal emotion recognition and sentiment analysis using masked attention and multimodal interaction. Proc. Conf. Open Innovations Association (FRUCT), 2023, pp. 309–317. doi: 10.23919/FRUCT58615.2023.10143065.
  11. Vaswani A., Shazeer N., Parmar N. et al. Attention is all you need. Proc. Conf. NIPS, 2017, vol. 30, pp. 5998–6008. URL: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf (дата обращения: 25.03.2025).
  12. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. Proc. Conf. North, 2019, vol. 1, pp. 4171–4186. doi: 10.18653/v1/N19-1423.
  13. Yu Y., Si X., Hu C., Zhang J. A review of recurrent neural networks: LSTM cells and network architectures. Neural Computation, 2019, vol. 31, no. 7, pp. 1235–1270. doi: 10.1162/neco_a_01199.
  14. Фазульянов Д.В., Гусева А.И. Разработка мультимодального метода сентимент-анализа для поддержки принятия решений в организации // Современные наукоемкие технологии. 2024. № 5. Ч. 2. С. 313–320. doi: 10.17513/snt.40045.
  15. Odegua R. An empirical study of ensemble techniques (bagging, boosting and stacking). Proc. Conf. Deep Learn. IndabaXAt, 2019, vol. 1.
  16. Fazulianov D.V., Guseva A.I. Advanced multimodal sentiment analysis using stacking for enhanced decision support in organizational systems. Proc. 6th Int. Conf. Control SUMMA, 2024, pp. 322–327. doi: 10.1109/SUMMA64428.2024.1080389.

References

  1. Huddar, M.G., Sannakki, S.S., Rajpurohit, V.S. (2021) ‘Attention-based multi-modal sentiment analysis and emotion detection in conversation using RNN’, IJIMAI, pp. 112–121. doi: 10.9781/ijimai.2020.07.004.
  2. Iddamalgoda, N., Thrimavithana, P., Fernando, H. et al. (2019) ‘A user-oriented ensemble method for multi-modal emotion recognition’, Proc. Int. Conf. SLAAI, pp. 150–156.
  3. Zhilenkov, A.A. (2023) ‘The current state and development trends of speech recognition, emotions and voice verification systems’, Artificial Societies, 18(3), available at: https://artsoc.jes.su/s207751800027272-8-1/ (accessed May 23, 2025) (in Russ.). doi: 10.18254/S207751800027272-8.
  4. Egorchev, A.A., Pashin, D.M., Sarambaev, A.F., Fakhrutdinov, A.F. (2024) ‘Emotion detection and classification system based on sound flow Data’, Izv. SFedU. Engineering Sci., (4), pp. 91–100 (in Russ.). doi: 10.18522/2311-3103-2024-4-91-100.
  5. Senadheera, S.P.B.M., Weerasinghe, A.R., Wijesinghe, C.R. (2019) ‘Human nervous system cancer mutation analysis from protein sequences and structures’, Proc. Int. Conf. SLAAI, pp. 32–38.
  6. Dvoinikova, A.A., Karpov, A.A. (2020) ‘Analytical review of approaches for tonality recognition of Russian text data’, Information and Control Sys., (4), pp. 20–30 (in Russ.). doi: 10.31799/1684-8853-2020-4-20-30.
  7. Gimaletdinova, G.K., Dovtaeva, E.K. (2020) ‘Sentiment analysis of the reader’s internet comments on a political text’, Political Linguistics, (1), pp. 42–51 (in Russ.). doi: 10.26170/pl20-01-05.
  8. Zadeh, A., Chen, M., Poria, S. et al. (2017) ‘Tensor fusion network for multimodal sentiment analysis’, Proc. Conf. Empirical Methods in Natural Language Processing, pp. 1103–1114. doi: 10.18653/v1/D17-1115.
  9. Zadeh, A., Liang, P.P., Poria, S., Vij, P. et al. (2018) ‘Multi-attention recurrent network for human communication comprehension’, Proc. AAAI Conf. Artificial Intelligence, 32(1), pp. 5642–5649. doi: 10.1609/aaai.v32i1.12024.
  10. Voloshina, T., Makhnytkina, O. (2023) ‘Multimodal emotion recognition and sentiment analysis using
    masked attention and multimodal interaction’, Proc. Conf. Open Innovations Association (FRUCT), pp. 309–317. doi: 10.23919/FRUCT58615.2023.10143065.
  11. Vaswani, A., Shazeer, N., Parmar, N. et al. (2017) ‘Attention is all you need’, Proc. Conf. NIPS, 30, pp. 5998–6008, available at: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf (accessed May 23, 2025).
  12. Devlin, J., Chang, M.-W., Lee, K. Toutanova, K. (2019) ‘BERT: Pre-training of deep bidirectional transformers for language understanding’, Proc. Conf. North, 1, pp. 4171–4186. doi: 10.18653/v1/N19-1423.
  13. Yu, Y., Si, X., Hu, C., Zhang, J. (2019) ‘A review of recurrent neural networks: LSTM cells and network architectures’, Neural Computation, 31(7), pp. 1235–1270. doi: 10.1162/neco_a_01199.
  14. Fazulyanov, D.V., Guseva, A.I. (2024) ‘Development of a multimodal method of sentiment analysis to support decision-making in organizations’, Modern High Tech., (5), pt. 2, pp. 313–320 (in Russ.). doi: 10.17513/snt.40045.
  15. Odegua, R. (2019) ‘An empirical study of ensemble techniques (bagging, boosting and stacking)’, Proc. Conf. Deep Learn. IndabaXAt, 1.
  16. Fazulianov, D.V., Guseva, A.I. (2024) ‘Advanced multimodal sentiment analysis using stacking for enhanced decision support in organizational systems’, Proc. 6th Int. Conf. Control SUMMA, pp. 322–327. doi: 10.1109/SUMMA64428.2024.1080389.

Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=5231&lang=
Версия для печати
Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 114-124 ]

Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 114-124 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Возможно, Вас заинтересуют следующие статьи схожих тематик: