На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
09 Сентября 2024

Интерпретатор сигналов на основе нейроподобной иерархической структуры

Signals interpreter based on neural-like hierarchical structure
Статья опубликована в выпуске журнала № 1 за 2014 год. [ на стр. 92-97 ]
Аннотация:Рассматривается возможность применения гибридной системы, интегрирующей стратегии нейросетевых моделей и методы обработки нечетких данных для построения классификационных правил и интерпретации акустических сигналов с помощью разработанного интерпретатора. Интерпретатор акустических сигналов основан на идее растущей пирамидальной сети, адаптированной для работы с нечеткими описаниями объектов. Модели классов, со-держащиеся в построенной сети, интерпретируются в нечеткие высказывания, которые служат набором продукци-онных правил для нечеткого логического вывода. Продукционные правила представляются в понятных эксперту вербальных терминах. В статье рассматривается программная реализация интерпретатора, описываются алгоритм построения нейроподобной иерархической структуры и процедура формирования продукционных правил, приводятся результаты апробации программной реализации интерпретатора на реальных записях акустических сигналов, представленных дыхательными шумами и речевыми сигналами.
Abstract:The article considers the possibility of applying hybrid system that integrates a strategy of neural network models and methods of processing data to create fuzzy classification rules and interpret acoustic signals using developed in-terpreter. Acoustic signals interpreter is based on the idea of growing pyramidal network that is adapted for working with fuzzy descriptions of objects. Class models in constructed network are interpreted in fuzzy statements that serve as a set of production rules for a fuzzy logic conclusion. The production rules are presented as understandable verbal terms for expert. The paper discusses program implementation of the interpreter. It also describes an algorithm for constructing hierarchical neural structure and the production rules forming procedure. The article presents the results of testing a software implementa-tion of the interpreter in actual recordings of acoustic signals (respiratory noises and a voice signals).
Авторы: Филатова Н.Н. (nfilatova99@mail.ru) - Тверской государственный технический университет, Тверь, Россия, доктор технических наук, Ханеев Д.М. (nfilatova99@mail.ru) - Тверской государственный технический университет (аспирант), Тверь, Россия, Сидоров К.В. (nfilatova99@mail.ru) - Тверской государственный технический университет (аспирант ), Тверь, Россия
Ключевые слова: тестовая выборка, обучающая выборка, продукционное правило, нечеткое множество, акустический сигнал, растущие пирамидальные сети, нейроподобная иерархическая структура, программное средство, интерпретатор
Keywords: test set, learning sample, production rule, fuzzy set, acoustic signal, growing pyramidal networks, neural-like hierarchical structure, software, interpreter
Количество просмотров: 12342
Версия для печати
Выпуск в формате PDF (7.83Мб)
Скачать обложку в формате PDF (1.01Мб)

Размер шрифта:       Шрифт:

В последние полтора-два десятилетия существенно повысился интерес к средствам интерпретации различных сигналов, отражающих физио- логические процессы, протекающие в организме человека. Для большинства из них характерны нестационарность, высокая степень зависимости от методики записи сигналов, неточная локализация точек регистрации, что увеличивает субъективность регистрируемых зависимостей. Большой интерес вызывают методы и средства анализа акустических сигналов как результатов неинвазивных и наиболее быстрых методик исследования [1].

В данной работе рассматривается возможность применения гибридной системы [2], интегрирующей стратегии нейросетевых моделей и методы обработки нечетких данных для построения классификационных правил и интерпретации акустических сигналов с помощью разработанного интерпретатора. В интерпретатор загружаются реальные записи акустических сигналов, на основе которых формируется представление вторичных признаков. Вторичные признаки приводятся к нечеткому виду, что позволяет создавать правила классификации сигналов в понятных эксперту вербальных терминах. Правила строятся путем интерпретации закономерностей, содержащихся в нейроподобной иерархической структуре, построенной в процессе обучения. Каждое правило представляют собой нечеткую модель одного из классов сигналов. Полученные продукционные правила проходят проверку у эксперта.

Программная реализация интерпретатора

Программное средство реализовано на языке C# 3.0 для среды исполнения .NET Framework 3.5 и выше. Обобщенная структура программного средства представлена на рисунке 1. К основным блокам интерпретатора относятся модули предобработки, фазификации, генерации нейроподобной иерархической структуры (НИС), выделения описаний классов, нечеткого логического вывода.

Модуль предобработки сигналов предназначен для первичной обработки данных, включающей фильтрацию, нормализацию, автоматическое определение оптимального значения параметров аттрактора, восстановленного из исследуемого акустического сигнала, расчет аттрактора и спектральной плотности мощности, формирование на основе аттрактора вектора вторичных признаков. Результатом работы модуля является вектор X, представляющий сигнал набором дискретных признаков. Модуль фазификации осуществляет преобразование вектора X в лингвистическую шкалу и переход к нечетким признакам. Модуль генерации НИС предназначен для построения графовой модели (G) классов обучающей выборки (ОВ). Структура G отражает связи между приз- наками объектов ОВ. Модуль выделения описа- ний классов из НИС предназначен для выделения наборов продукционных правил из построен- ной НИС. Модуль нечеткого логического вывода решает задачу классификации с помощью построенных продукционных правил и вычисляет значение функции соответствия объекта описанию класса.

Алгоритм генерации нейроподобной иерархической структуры

Алгоритм построения НИС представлен в работе [3]. НИС является развитием идей растущих пирамидальных сетей [4] и представляет собой ориентированный ациклический граф в ярусно параллельной форме, не имеющий вершин с одной заходящей дугой, все дуги ориентированы от нижних уровней к верхним.

Все вершины сети делятся на два типа: рецепторы и ассоциативные элементы. Рецепторы являются входами сети и расположены на нулевом уровне иерархии. Вершина сети считается возбужденной, если возбуждены все смежные с ней вершины предшествующего уровня.

Первоначально сеть состоит из рецепторов, соединенных исходящими дугами с заключительной вершиной верхнего уровня Y, которая выполняет вспомогательную роль в процессе генерации сети. Каждому терму лингвистической переменной признака ставится в соответствие входной рецептор, в результате чего их количество равно суммарному числу термов всех признаков.

Каждый ассоциативный элемент характеризуется следующими параметрами: уровень в иерархии сети; состояние (возбужденное/невозбужден­ное); класс, породивший данный элемент; число рецепторов l, от которых существует путь к нему; значения счетчиков возбуждений mcl1–mclk, которые определяют реакцию вершины на входные объекты ОВ классов cl1–clk соответственно, где k – количество классов, представленных в ОВ.

Построение НИС выполняется в два последовательных этапа. На первом этапе формируются конъюнктивные зависимости значений признаков. Ввод новых вершин реализован последовательным выполнением правил PK1 и PK2 после подачи очередного объекта на вход сети.

Подпись:  
Рис. 2. Графическое представление НИС
Правило PK1. Из графа выделяется множество невозбужденных ассоциативных элементов Vd, которое сортируется по условию возрастания уровня вершины в иерархии сети. Далее рассматривается очередная вершина vt множества Vd, у которой выделяются смежные возбужденные вершины, расположенные на предыдущем уровне иерархии, и заносятся в множество Va. Если мощность множества Va меньше двух, выполняется переход к следующей просматриваемой вершине vi+1, иначе в сеть вводится новый ассоциативный элемент vn. Дуги от вершин из множества Va к vi ликвидируются, и вместо них вводятся дуги, соединяющие вершины из Va с новой вершиной vn. Выход нового элемента vn соединяется исходящей дугой с входом vi. Уровни всех вершин, к которым существуют пути из нового ассоциативного элемента vn, рекурсивно повышаются на 1 (граф приводится к ярусно-параллельной форме), выполнение правила прерывается. Переход правила к следующей вершине осуществляется только при условии, что выполнение правила для предыдущей вершины не изменило структуру сети.

Правило PK2. Из графа выделяется множество возбужденных вершин Ve (ассоциативные элементы и рецепторы), уровень иерархии которых ниже предпоследнего. Далее рассматривается каждая вершина vi множества Ve. Если у vi нет смежных возбужденных вершин, расположенных на следующем уровне иерархии, vi добавляется в множество S и выполняется переход к следующей вершине vi+1 множества Ve. По окончании просмотра множества Ve в сеть добавляется новый ассоциативный элемент vn. На вход vn заводятся дуги от вершин множества S, причем у элементов из множества S ликвидируются исходящие дуги к вершине Y. Исходящей дугой vn соединяется с заключительной вершиной верхнего уровня сети Y. В результате построений первого этапа ассоциативные элементы, смежные с вершиной Y, образуют множество Vc, с каждым элементом которого ассоциируется объект из ОВ с уникальными комбинациями значений нечетких признаков.

Множество Vc полностью описывает все объекты ОВ. На втором этапе алгоритм выделяет из пирамид с вершинами в множестве Vc минимально возможное количество контрольных элементов. Контрольные элементы представляют собой ассоциативные элементы с наиболее часто встречающимся набором значений признаков, характерных для объектов определенного класса. Принцип выделения контрольных элементов описан далее.

На вход сети поочередно подаются объекты ОВ, после подачи объекта происходит распространение возбуждения по всем вершинам, в ходе которого корректируются значения параметров вершин mcl1–mclk и l. Затем из всех ассоциативных элементов сети выбирается множество контрольных элементов по следующим условиям (в порядке приоритетности): 1) у ассоциативного элемента заполнен только один из счетчиков mcl1–mclk; 2) максимальное значение счетчика mclj среди других ассоциативных элементов сети, где j – класс, представляемый данной вершиной; 3) максимальное значение счетчика l. Все найденные вершины заносятся во множество контрольных элементов сети.

Вершины сети предпоследнего уровня (рис. 2), смежные с заключительной вершиной Y (U1–Un), образуют множество Vc, и каждая из них характеризует группу близких объектов с одинаковой комбинацией значений признаков HПp. Ассоциативные элементы K1, K2, K3 являются контрольными вершинами классов с номерами 1, 2 и 3 соответственно. HП1, HП2, …, HПp – нечеткие признаки (p=1, 2, …, P – порядковый номер нечеткого признака, где P – количество нечетких признаков).

Продукционные правила для каждого класса выделяются на основе анализа его контрольных элементов. Рецепторы, из которых имеется путь к контрольному элементу, объединяются конъюнктивной связью , где C – номер класса, n – номер контрольного элемента класса.

Для каждого класса из множества его , объединенных дизъюнктивной связью, строится продукционное правило. Например, для класса номер 3 будут выделены 2 контрольные вершины K3 и сгенерировано правило: IF (НП4 IS В AND НП3 IS В AND НП1 IS С) OR (НП4 IS В AND НП3 IS В AND НП1 IS В) THEN CLASS IS 3.

Интерпретация дыхательных шумов

Выборки дыхательных шумов (ДШ) получены с помощью устройства регистрации 3M Littmann 4100, а также из открытых источников (база примеров патологий фирмы 3M). Все записи имеют частотный диапазон 0–4 кГц, частоту дискретизации 8 000 Гц, разрешение 16 бит. Запись ДШ с помощью устройства 3M Littmann 4100 производилась у здоровых людей и у пациентов с патологическими изменениями функции дыхания в трех точках корпуса, выделенных в соответствии с принятыми методиками аускультации. ДШ субъективно классифицированы экспертом (врачом высокой квалификации с хорошим состоянием органов слуха) на два класса: НОРМА, ПАТОЛО­ГИЯ.

В качестве разделяющих признаков выбраны спектральные характеристики сигнала. Выбор обоснован тем, что для определенных видов ДШ характерен определенный частотный состав. Каждый объект ДШ анализируется в частотном диапазоне 185–2 000 Гц с шагом 11 Гц и рассматривается в виде описания из признаков спектральной плотности мощности (СПМ), рассчитывающихся по методу Уэлча с применением оконного быстрого преобразования Фурье:

S(v)ДШ=áS1, S2, …, Sbñ, PX=áPx1, Px2, …, Pxuñ, (1)

где S(v) – вектор признаков СПМ; v – номер объекта; b – номер признака СПМ, b=1, …, 163; Pxi – ордината спектра мощности на частоте fi=Dx×i; xi соответствует одному признаку; Dx – шаг по частоте; Dx=fx/Fw; fx – частота дискретизации; Fw – ширина окна FFT.

Для построения НИС использована ОВ из 32 объектов, иллюстрирующих классы НОРМА и ПАТОЛОГИЯ (рис. 3).

С помощью НИС созданы два правила, наибольший интерес представляет описание класса ПАТОЛОГИЯ (табл. 1).

Таблица 1

Детализация составляющих правила по значимости (на примере класса ПАТОЛОГИЯ)

Подправило

Количество объектов из ОВ, вошедших в подправило

1

9=MID; 27=HI

5

2

31=HI; 34=HI

5

3

46=HI; 48=HI

7

4

148=MID; 149=MID; 154=MID; 156=MID

7

5

122=MID; 126=MID

7

6

50=HI; 51=HI; 54=HI; 126=MID; 128=LOW

7

7

108=HI; 129=LOW

6

8

11=MID; 5=MID; 25=MID; 20=MID; 38=MID

6

Для каждого класса в соответствии с продукционным правилом вычисляется степень принадлежности для объекта. Объект ассоциируется с тем классом, степень принадлежности к которому выше среди других классов.

Подпись:  
Рис. 3. Графическое представление ОВ ДШ: 
абсцисса – номер признака, отсчеты; 
ордината – СПМ, усл. ед. 
Детализация логического вывода продукционного правила победившего класса по объекту позволяет выделить подгруппы внутри классов, а также ядро класса. Из таблицы 1 видно, что подправила 3, 4, 5, 6 покрывают большую часть объектов ОВ и представляют собой ядро класса ПАТОЛОГИЯ.

Следует отметить, что использование графиков СПМ в качестве объектов классификации позволяет НИС выделить (при формировании правил) наиболее информативные интервалы частот.

При классификации СПМ в качестве основной гипотезы H0 принято утверждение «Объект принадлежит классу НОРМА», следовательно, будем считать отнесение объекта с диагнозом НОРМА к классу ПАТОЛОГИЯ ошибкой первого рода, а отнесение объекта с диагнозом ПАТОЛОГИЯ к классу НОРМА – ошибкой второго рода. Результаты классификации ДШ по ОВ (32 объекта) и тестовой выборке (ТВ) (37 объектов) представлены в таблице 2.

Таблица 2

Результаты классификации ДШ

Параметр классификации

ОВ

ТВ

Число ошибочно классифицированных объектов

0

4

Успешность классификации, %

100

89

Количество ошибок первого рода

0

2

Успешность распознавания объектов из класса НОРМА, %

100

92

Количество ошибок второго рода

0

2

Успешность распознавания объектов из класса ПАТОЛОГИЯ, %

100

83

Из результатов распознавания интерпретатором ДШ видно, что имеются ошибки второго рода, но при этом общий уровень успешности классификации довольно высокий.

Интерпретация эмоций в речевых сигналах

Для построения классификатора эмоций, проявляющихся в естественной речи, была сформирована база русской эмоциональной речи, состоящая из 210 фраз различных дикторов. При создании базы в качестве испытуемых выступили 16 человек (11 мужчин и 5 женщин) в возрасте от 18 до 27 лет. Для активизации эмоций (положительных и отрицательных) применялись видеостимулы, сопровождающиеся звуковыми дорожками. Для объективного подтверждения изменения эмоций у каждого испытуемого регистрировалась 19-канальная электроэнцефалограмма (ЭЭГ), позволяющая в реальном времени отслеживать изменение электрической активности головного мозга при восприятии стимулов разного знака.

Подпись:  
Рис. 4. Регистрация речевых сигналов 
с объективно подтвержденной эмоцией: 
1 – блок регистрации РС; 2 – блок отображения сти-мулов; 3 – микрофон; 4 – блок управления; 5 – объект исследования; 6 – блок регистрации ЭЭГ; 7 – компью-терный энцефалограф; 8 – комплект электродов
Схема эксперимента представлена на рисун- ке 4. На первом этапе у испытуемого снималась ЭЭГ при предъявлении видеостимулов трех серий: 1 – положительные эмоции (сцены юмористического характера с участием людей и животных); 2 – нейтральное состояние (сцены с природными ландшафтами); 3 – отрицательные эмоции (сцены хирургических операций, жестокого обращения с людьми и животными). На втором этапе у ис- пытуемого регистрировался речевой сигнал (РС). Каждый испытуемый произносил контрольную фразу: «А голос мой звучит примерно так» (в моменты времени, когда чувствовал изменение эмоционального состояния, либо по условному знаку).

Регистрация образцов РС осуществлялась микрофоном «Genius» (частотный диапазон 50 Гц–20 кГц; импеданс 2,2 кОм; чувствительность –60±4 дБ). Образцы РС продолжительностью до 3 секунд сохранялись в файлах формата PCM (.wav) с частотой дискретизации 22 050 Гц и разрешением 16 бит. Для съема ЭЭГ использовался компьютерный энцефалограф-анализатор «Энцефалан-131-03». Образцы ЭЭГ продолжительностью по 1 минуте сохранялись в файлах формата (.EEG, .ASCII) с частотой дискретизации 250 Гц.

В работе использованы признаки на основе реконструкции аттрактора (максимальные векторы аттрактора по четырем квадрантам), определяемые по результатам двухмерной проекции [5]:

 (2)

t=0, 1, …, s–1, s=N–(m–1)t,                                

где Rj(i) – максимальный вектор аттрактора в j-м квадранте, j=1, …, 4; i – номер объекта, i=1, 2, …, M; M – количество объектов; N – число точек временного ряда; t – задержка по времени между элементами временного ряда; m – размерность вложения.

Каждый объект РС описывается в виде вектора из 5 признаков аттрактора и 300 признаков СПМ (анализируется частотный диапазон 2–5 кГц):

,  (3)

где A(l), S(l) – вектор признаков аттрактора и СПМ; l – номер объекта, l=1, …, 210; k – номер признака СПМ, k=1, …, 300.

В таблице 3 приведены составы ОВ и ТВ, где КЛАСС 1 – положительные эмоции; КЛАСС 2 – нейтральное состояние; КЛАСС 3 – отрицательные эмоции (рис. 5).

Таблица 3

Структура ОВ и ТВ РС

Выборка

Количество объектов (КЛАСС 1/КЛАСС 2/КЛАСС 3)

ОВ

110 (31/29/50)

ТВ

100 (39/24/37)

На основе анализа ОВ созданы варианты НИС, получены правила классификации. Их применение к ОВ и ТВ иллюстрирует таблица 4.

Таблица 4

Результаты классификации РС

Параметр классификации

Аттрактор

СПМ

ОВ

ТВ

ОВ

ТВ

Число ошибочно классифицированных объектов

0

4

0

13

Успешность классификации, %

100

96

100

87

Число объектов из КЛАССА 1, классифицированных как КЛАСС 2

0

0

0

4

Число объектов из КЛАССА 1, классифицированных как КЛАСС 3

0

0

0

1

Успешность распознавания объектов из КЛАССА 1, %

100

100

100

87

Число объектов из КЛАССА 2, классифицированных как КЛАСС 1

0

0

0

2

Число объектов из КЛАССА 2, классифицированных как КЛАСС 3

0

0

0

6

Успешность распознавания объектов из КЛАССА 2, %

100

100

100

67

Число объектов из КЛАССА 3, классифицированных как КЛАСС 1

0

0

0

0

Число объектов из КЛАССА 3, классифицированных как КЛАСС 2

0

4

0

0

Успешность распознавания объектов из КЛАССА 3, %

100

92

100

100

Полученные результаты показали довольно высокую точность классификации эмоционально окрашенных образцов речи при разных способах их описания. Применение аттракторов позволяет снизить ошибку классификации.

В заключение подчеркнем, что ядро програм- много комплекса (модули предобработки, фазификации, генерации НИС, выделения описаний классов из НИС, нечеткого логического вывода) является инвариантным к предметной области и может рассматриваться как универсальный компонент для проектирования интерпретаторов различных сигналов.

Литература

1.     Rangayyan R.M. Biomedical Signal Analysis: A Case-Study Approach. Wiley IEEE Press, NY, 2002, 516 p.

2.     Колесников А.В. Гибридные интеллектуальные системы: Теория и технология разработки. СПб: СПбГТУ, 2001. 711 с.

3.     Ханеев Д.М., Филатова Н.Н. Пирамидальная сеть для классификации объектов, представленных нечеткими признаками // Изв. ЮФУ: сер.: технич. науки. 2012. № 9 (134). С. 45–49.

4.     Гладун В.П. Растущие пирамидальные сети // Новости искусственного интеллекта. 2004. № 1. С. 30–40.

5.     Сидоров К.В., Филатова Н.Н. Применение методов нелинейной динамики для распознавания эмоции радости в речи // Науч.-технич. вестн. информ. технологий, механики и оптики. 2012. № 5 (81). С. 110–114.

References

1.     Rangayyan R.M. Biomedical signal analysis: a case-study approach. Wiley IEEE Press, NY, 2002, 516 p.

2.     Kolesnikov A.V. Gibridnye intellektualnye sistemy: Teo­riya i tekhnologiya razrabotki [Gibrid intelligent systems: a theory and development technology].  St. Petersburg, St. Petersburg State Polytech. Univ. Publ., 2001, 711 p.

3.     Khaneev D.M., Filatova N.N. Pyramidal network to classify objects that presented by fuzzy features. Izvestiya YuFU. Tekh­nicheskie nauki [Izvestiya SFedU. Engeneering Sciences]. 2012, no. 9 (134), pp. 45–49.

4.    Gladun V.P. Growing pyramidal networks. Novosti iskuss­tvennogo intellekta [News of artificial intelligence]. 2004, no. 1, pp. 30–40.

5.     Sidorov K.V., Filatova N.N. Using methods of nonlinear dynamics to joy emotion recognition in a speech. Nauch.-tekhnich. vestnik inform. tekhnologiy, mekhaniki i optiki [Scientific and Technical Journ. of Information Technologies, Mechanics and Optics]. 2012, no. 5 (81), pp. 110–114.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=3765
Версия для печати
Выпуск в формате PDF (7.83Мб)
Скачать обложку в формате PDF (1.01Мб)
Статья опубликована в выпуске журнала № 1 за 2014 год. [ на стр. 92-97 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик: