Основы структурно-лингвистического подхода в анализе нечетких временных рядов

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№4

Ожидается:

09 Сентября 2024

Выпуски

2024

2023

№4 2023

все выпуски

все статьи

Подписаться на RSS

Основы структурно-лингвистического подхода в анализе нечетких временных рядов

Статья опубликована в выпуске журнала № 4 за 2008 год.
Аннотация:
Abstract:

Автор: Афанасьева Т.В. () -
Ключевые слова: структурно-лингвистический подход, анализ, нечеткая логика
Keywords: , analysis, fuzzy logic
Количество просмотров: 16005	Версия для печати Выпуск в формате PDF (8.40Мб)

Классический анализ дискретных временных рядов (ВР) ориентирован на структурно-параметрическую идентификацию представленных в числовой форме моделей данных, полученных в результате измерений, наблюдений или преобразований. Числовой тип данных, традиционно используемый в теории ВР, определил аналитическую форму представления результатов обработки и набор ограничений, накладываемых на природу значений, образующих ВР, и, как следствие, на пространство решаемых задач и методов.

Таким образом, результат решения задачи структурно-параметрической идентификации модели ВР выражается в виде аналитической зависимости, в терминах языка математических формул, автоматическая реализация которого имеется во всех языках программирования. Язык, используемый для представления модели ВР и результатов его обработки, подчиняется синтаксическим правилам формальной грамматики языка математических формул и правилам семантической интерпретации, позволяющим на основе исходных числовых значений получать результирующие числовые значения.

Модель синтаксиса такого языка может быть представлена формальной грамматикой: >, где VN – множество нетерминальных символов; VT – множество терминальных символов; S – аксиома, начальный символ ; P – конечное множество правил подстановки (продукций) вида , позволяющих определять синтаксически правильные цепочки терминальных символов.

Множество терминальных символов языка формул образовано символами алфавита, описывающими переменные, числа, знаки операций, разделители. Множество нетерминальных символов применительно к аналитической форме модели ВР включает понятия идентификатор, выражение, процедура. В результате синтаксического анализа проводятся разбор синтаксической структуры математической формулы и ее преобразование в форму, удобную для программной интерпретации, то есть для применения процедур вычисления числовых значений.

Универсальное представление модели ВР в форме аналитической зависимости – удобное средство, позволяющее на основе математически определенных и программно реализованных элементов языка формул (его синтаксиса и семантики) и математических методов обработки ВР определять числовые значения ВР в любой заданный промежуток времени. При этом интерпретация результатов обработки ВР применительно к конкретной предметной области является отдельной задачей качественного анализа и оценивания.

Решение задач качественного анализа временных рядов, моделирующих наблюдаемое явление, формируется в терминах качественных характеристик, выраженных в предметно-ориентированных лингвистических терминах. Представление результатов обработки в такой форме понятно специалистам и удобно при принятии решений с учетом фактора развития в экспертной деятельности, проектировании, контроле, техническом анализе, медицине, диагностике, планировании и т.д. Отметим, что качественная оценка поведения ВР позволяет извлекать дополнительные знания и основывается на применении технологии Data Mining. Эта интеллектуальная технология востребована для обнаружения практически полезных знаний в сырых данных, накопленных в базах и хранилищах данных.

Использование нечетких ограничений, отражающих специфику состояний предметной области, при моделировании динамики этих состояний закономерно привело к появлению нового класса ВР – нечетких ВР (НВР).

НВР называют упорядоченную последовательность наблюдений над неким явлением, состояния которого изменяются во времени, если значение состояния в момент ti выражено с помощью нечеткой метки [1].

Нечеткая метка – это нечеткая переменная, задаваемая тройка значений вида (N, a, X,), где N – название нечеткой переменной; a – нечеткое множество, находится путем фаззификации четкого значения или экспертной оценки; X – универсальное множество (область определения a).

Нечеткая метка может быть сформирована непосредственно экспертом или получена на основе фаззификации значений исходного ВР. Множество допустимых нечетких меток для заданной предметной области и заданной характеристики этой предметной области может быть представлено через лингвистическую переменную , где – название лингвистической переменной; Tx – терм-множество, то есть множество названий нечетких меток лингвистической переменной , причем каждое из определено на универсальном множестве Ux; Gx – синтаксическое правило, порождающее названия значений переменной (такое синтаксическое правило может быть задано в форме грамматики); Mx – семантическое правило, которое ставит в соответствие каждой нечеткой метке ее смысл Mx().

Мягкие вычисления как совокупность, партнерство различных интеллектуальных технологий применительно к проблематике анализа НВР определили новое направление Time Series Data Mining (TSDM) [2].

Анализу НВР как новому направлению TSDM посвящены, например, работы [1,3–5].

Структурно-лингвистический подход при анализе НВР

Проводя аналогию с классическим анализом ВР, сформулируем основную задачу анализа НВР как задачу структурно-параметрической идентификации модели поведения НВР, порождающую проблему определения языка представления структуры и параметров этой модели. Так как значения НВР представимы значениями лингвистической переменной, естественно представить структуру НВР как цепочку семантически определенных лингвистических элементов, терминальных символов VT грамматики некоторого языка. Отношения следования (предшествования) между этими термами, обнаруживаемые на исследуемом НВР, фиксируют синтаксические правила, правила подстановки Р. Промежуточные структуры, составленные из последовательности термов, образуют нетерминальные символы VN искомой грамматики, которые на основе свертки порождают аксиому грамматики S.

Параметрами рассматриваемой структурной модели могут выступать нечеткие ограничения, представимые функциями принадлежности, а также числовые значения.

Таким образом, при рассмотрении проблемы определения языка для представления модели НВР интересны исследование и решение следующих задач.

1. Возможно ли свести задачу структурной идентификации НВР к задаче определения синтаксиса, грамматики некоторого языка?

2. К какому типу будет принадлежать такая грамматика?

3. Как определить семантические правила вычисления новых значений?

4. Какие информационные технологии и математические методы наиболее эффективны при реализации языка представления модели НВР?

Сформулированная совокупность проблем-задач позволяет обозначить структурно-лингвистический подход в решении задачи анализа НВР как задачи структурно-параметрической идентификации, выраженной в форме лингвистических зависимостей с последующей семантической интерпретацией.

В настоящей работе предпринята попытка в рамках направления TSDM определить основы структурно-лингвистического подхода для анализа НВР. При этом для описания модели поведения НВР будут использованы понятие и модель нечетких тенденций (НТ), представляющие собой лингвистическую форму выражения изменения нечетких меток анализируемого ВР.

Основная идея структурно-лингвистического подхода при анализе НВР заключается в идентификации неизвестного языка L на основе НВР, при этом НВР рассматривается как предложение на этом языке.

Одной из первых задач при определении языка и его грамматики является определение терминальных символов. Так как эта задача касается языка, предназначенного для определения модели поведения НВР, целесообразно в качестве терминальных символов языка L выбрать понятие, обозначающее движение, изменение, направление, тенденцию.

Терминальные символы языка L

Терминальным символам грамматики языка L сопоставим понятие НТ.

НТ НВР будем называть нечеткую метку Тj, выражающую характер изменения (систематическое движение) НВР: Tj=Tend(,ti), где iÎ[1,n]; n – количество членов НВР [1].

Определение 1. Элементарная тенденция (ЭТ) есть тенденция НВР tkÎT1, выражающая характер изменения на участке НВР между двумя соседними нечеткими метками НВР , +1. Носителем ЭТ является линейный участок НВР yÎY(ti,), где iÎ[1,n-1]; n – количество членов ряда.

Назовем нечеткие метки «Рост», «Падение», «Стабильность» базовыми типами тенденций, а «Колебания», «Хаос» – производными типами, так как вывод относительно их типа формируется на основе базовых.

Значения нечеткой метки T для обозначения типов тенденций НВР представимы в виде множества T={T1,T2}, где T1 определяет множество базовых типов тенденций НВР, которое конечно и ограничено тремя типами T1={n1,n2,n3}, где n1=С–«Стабилизация», n2=П–«Падение», n3=Р–«Рост», T2 – множество производных типов тенденций НВР, которое также конечно и ограничено в настоящий момент двумя типами T1={n4,n5}, где n4=К–«Колебания», n5=Х–«Хаос».

Отметим, что типы ЭТ являются базовыми типами тенденций НВР.

Теорема. Для каждой точки (ti,) НВР, кро- ме первой и последней, могут быть определены две ЭТ.

Доказательство. Так как все соседние линейные участки, на которых идентифицируются ЭТ, кроме первого и последнего, имеют общие точки, которые для одного участка являются начальными, а для другого конечными, то эти общие точки одновременно принадлежат двум соседним участкам НВР. А так как для каждого такого участка может быть определена отдельная ЭТ, то для таких общих точек могут быть определены две ЭТ. Для начальной и конечной точек НВР отсутствуют соседние точки, поэтому для них может быть определено только по одной ЭТ.

Утверждение 1. НТ Т исходного НВР может быть представлена множеством нечетких меток {(n1,mс),(n2,mп),(n3,mр)} с соответствующими функциями принадлежности, обозначающими степень принадлежности указанных типов тенденций исходному НВР.

Утверждение 2. Каждая элементарная тенденция t может быть представлена, выражена параметрической моделью следующего вида: t=, где t – наименование тенденции (идентификатор); nk – тип тенденции (k=[1,3]) (квалификатор) из множества T1; ak – степень изменения, интенсивность тенденции; ∆tk – продолжительность данной ЭТ.

Определение 2. К однородным ЭТ относятся ЭТ ti=(ni,ai,Dti) и ts=(ns,as,Dts), для которых верно ns=ni.

Определение 3. Объединением однородных ЭТ ti=(ni,ai,Dti), ts=(ns,as, Dts) является тенденция tj=tiÈts, такая, что tj=(nj,aj,Dtj), для которой nj=ni, степень интенсивности определяется как композиция aj=ai¤as, длительность тенденции Dtj= =Dti+Dts, где ¤ – знак операции соединения тенденций.

Определение 4. К эквивалентным ЭТ относятся однородные ЭТ ti=(ni,ai,Dti), ts=(ns,as,Dts), такие, что ai=as,Dti=Dts.

Определение 5. К противоположным ЭТ относятся однородные ЭТ ti=(ni,ai,Dti), ts=(ns,as,Dts), такие, что ai=as, Dti=Dts, ni=Р, ns=П(ni=П,ns=Р).

Тенденция типа n=С противоположной тенденции не имеет.

Утверждение 3. Исходный НВР может быть представлен в виде ВР ЭТ {ti,ti}, где ti=(ni,αi,Dti), Dti=[ti,ti+1), i=[1,n-1], на котором ЭТ наблюдается.

Преобразование исходного НВР в ВР ЭТ, которые принадлежат множеству базовых типов, позволяет сделать вывод о представимости любого НВР рассматриваемого вида инвариантами в виде цепочки терминальных символов, выраженных в виде особого класса НТ – ЭТ.

Структурно-лингвистический подход к анализу НВР с использованием модели НТ базируется на следующих принципах.

1. Определяются два вида лингвистических переменных – входная лингвистическая переменная, моделирующая нечеткие метки НВР, и выходная лингвистическая переменная, которая может быть получена на основе языка L.

2. Для входной лингвистической переменной существует процедура определения не только всех ее компонент, но и метрического отношения различия на множестве нечетких меток . Отметим, что входная лингвистическая переменная формируется на основе качественных оценок и нечетких ограничений, характерных для предметной области, в среде которой наблюдается НВР.

3. Модель анализируемого НВР рассматривается как цепочка ЭТ, ассоциированных с терминальными символами в неком языке L, грамматика которого заранее неизвестна. То есть заранее нельзя определить синтаксически правильные и неправильные цепочки.

4. Задачей анализа НВР является определение модели НВР, выраженной на языке L. Эта модель выражена в форме выходной лингвистической переменной, содержащей терм-множества, синтаксические правила (продукции и релевантной им грамматики) и процедуры семантической интерпретации. Решение указанной задачи может рассматриваться в виде последовательности двух этапов.

На первом этапе формируется модель структурно-параметрической идентификации НВР в терминах НТ. Структурная идентификация подразумевает определение синтаксической структуры последовательности НТ, а параметрическая идентификация выражается в определении парамет- ров НТ.

Целью второго этапа является определение модели семантики, то есть процедур вычисления лингвистического значения построенной структурно-параметрической модели.

Задачу анализа НВР на основе структурно-лингвистического подхода можно переформулировать как задачу определения алфавита, синтаксиса и семантики языка представления нового класса модели НВР на основе НТ и разработки системы реализации этого языка на основе мягких вычислений.

Введенные выше формализмы и проведенные эксперименты позволяют сделать вывод о том, что структурно-лингвистический подход при анализе НВР создает новые возможности решения таких проблем, как [5]: сегментация – разбиение НВР на значимые сегменты по типу нечетких тенденций; кластеризация – поиск группировок типов нечетких тенденций или их паттернов; классификация – назначение НВР или их паттернам одного из заранее определенных классов НТ; резюмирование – формирование краткого лингвистического описания НВР с использованием значимых НТ с точки зрения решаемой задачи и предметной области; обнаружение аномалий – поиск новых, нетипичных паттернов НТ; частотный анализ – поиск часто проявляющихся типов и паттернов НТ; прогнозирование – прогноз очередного значения НТ и нечеткого значения ВР; извлечение ассоциативных правил – поиск правил, связывающих типы и паттерны НТ в различных НВР.

Список литературы

1. Ярушкина Н.Г. Основы теории нечетких и гибридных систем. – М.: Финансы и статистика, 2004. – 320 с.

2. Заде Л.А. Роль мягких вычислений и нечеткой логики в понимании, конструировании и развитии информационных/интеллектуальных систем. / Пер. с англ. // Новости искусственного интеллекта. – 2001. – № 2–3. – С. 7–11.

3. Ковалев С.М. Гибридные нечетко-темпоальные модели временных рядов в задачах анализа и идентификации слабо формализованных процессов. // Сб. тр. IV Междунар. науч.-практич. конф. Т. 1 – М.: Физматлит, 2007. – 354 с.

4. Юнусов Т.Р., Ярушкина Н.Г., Афанасьева Т.В. Моделирование трафика терминал-сервера на основе анализа нечетких тенденций временных рядов. // Программные продукты и системы. – 2007. – № 4. – С. 15–19.

5. Batyrshin I. and Sheremetov L. Perception Based Time Series Data Mining for Decision Making//IFSA’07 Theoretical Advances and Applications of Fuzzy Logic, pp. 209–219.

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=1617&lang=&lang=&like=1	Версия для печати Выпуск в формате PDF (8.40Мб)
Статья опубликована в выпуске журнала № 4 за 2008 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей