На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

Диалоговые пакеты прикладных программ для решения задач регрессионной идентификации

Статья опубликована в выпуске журнала № 3 за 1992 год.
Аннотация:
Abstract:
Авторы: Семенов Н.А. (dmitrievtstu@mail.ru) - Тверской государственный технический университет (профессор кафедры «Информационные системы»), г. Тверь, Россия, доктор технических наук, Степашко B.C. () - , Петров Е.В. () -
Ключевое слово:
Ключевое слово:
Количество просмотров: 16103
Версия для печати

Размер шрифта:       Шрифт:

В настоящее время ПЭВМ широко используются в составе технических средств автоматизированных систем различного функционального назначения (автоматизированная система управления (АСУ), автоматизированная система научных исследований (АСНИ), система автоматизированного проектирования (САПР)). Одной из современных форм архитектуры программных средств являются пакеты прикладных программ (ППП) в виде комплекса взаимосвязанных компонент, в состав которого входит управляющая программа монитор. Характерная особенность заключается в "интеллектуальности" монитора, что достигается путем удовлетворения определенным требованиям, обеспечивающим наличие средств автоматической обработки данных, развитого диалога с пользователем, диагностирования и обнаружения ошибок, ассистирования, обучения и внутреннего документирования.

Проектирование является одним из основных этапов разработки программного продукта. Методология проектирования определяется как совокупность методов, приемов и средств, применяемых для выполнения проекта пакета программ. Основой методологии проектирования пакетов прикладных программ в предметной области, определяемой задачами регрессионной идентификации, является модульный анализ. При этом процесс разработки проекта пакета декомпозируется на этапы: определение предметной области; анализ взаимосвязей решаемых задач; анализ структуры данных; формализация вычислительных моделей; синтез идейного портрета пакета в виде графовых структур. Такой подход реализован при разработке пакетов программ "Параметрическая идентификация систем" (ПАРИС), "Методы анализа временных рядов" (МАВР) [2, 3, 4], "Методы группового учета аргументов" (МГУА) [5]. Пакеты реализованы на алгоритмическом языке ФОРТРАН-77 в операционной системе MS DOS.

При построении ППП ПАРИС, МАВР использована Полиэкранная инструментальная система [1], принцип работы которой аналогичен широко известным оконным системам Top View (IBM Inc), Microsoft Windows и др. Многооконный интерфейс с конечным пользователем предусматривает прямое обращение к функциям BIOS (базовой системы ввода-вывода), минуя драйвер управления экраном ANSI.SYS.

Многозадачная организация пакетов программ по типу "одна функция — одна задача" и использование библиотечных функций порождения задачи между ними позволяет максимально структурировать каждую из задач и согласовывать вход-выход при любом последовательном выборе функций пакета для организации цепочек обработки данных.

Применительно к ППП ПАРИС управляющая программа состоит из семи загрузочных модулей:

PARIS.EXE - обеспечивает выбор режима функционирования;

PARA.EXE - реализует обработку данных в автоматическом режиме;

PARD1.EXE, PARD21.EXE, PARD22.EXE, PARD3.EXE - для диалогового режима автоматизируют функции предварительного анализа матрицы исходных данных, построения линейных, нелинейных моделей и анализ качества регрессионых моделей;

GRAFIC.EXE - обеспечивает графическое отображение информации на основе драйвера DRIVERS.EXE.

Реализованная структура монитора позволяет, с одной стороны, увеличить объем обрабатываемой информации за счет снижения быстродействия, а с другой - предоставляет возможность конечному пользователю вызывать и работать с каждой задачей, за исключением GRAFIC.EXE.

В общем случае задача регрессионной идентификации состоит в определении структуры математической модели исследуемого процесса или системы и оценке ее параметров на основе входных количественных данных в виде двухмерной матрицы Z, задающей отношение "объект - признак". Путь Z = X © У, где X -матрица значений регрессоров (входных переменных): dimX — их т, п - объем выборки, т -число регрессоров, У - вектор-столбец значений отклика (выходной переменной): dimY = п.

После ввода файла входных данных Z отрабатывается директива назначения режима работы монитора: автоматический или диалоговый. При работе в автоматическом режиме управляющая программа реализует определенную стратегию предварительной обработки данных, выбора алгоритма структурно-параметрической идентификации и оценки качества получаемых моделей. На этапе предварительного анализа осуществляется проверка выполнения основных предпосылок применимости регрессионного анализа. Управляющая программа обеспечивает проверку статистических гипотез о нормальности распределения и статистической независимости значений отклика. При этом для и ^60 используется критерий Пирсона, для 30.<и<; 60 - критерий Колмогорова-Смирнова, для и<30 - W-критерий. Проверка гипотезы о статистической независимости значений У осуществляется на основе критерия Аббе или критерия квадратов последовательных разностей. Анализ мультиколлинеарности матрицы X основан на алгоритме Феррара-Глаубера. Как известно, мультиколлинеарность приводит к значительному понижению точности оцениваемых параметров регрессионной модели, к искажению оценок дисперсии остатков, дисперсии коэффициентов регресии и ковариаций между ними. В пакете предусмотрена процедура устранения мультиколлинеарности путем исключения одного или нескольких регрессороа на основе анализа матрицы взаимных корреляций регрессоров и вектора взаимных корреляций регрессоров с откликом.

С целью идентификации регрессионных моделей в классе линейных структур в ППП ПАРИС реализованы методы множественной регрессии, всех возможных регрессий и пошаговой в том числе, которые в автоматическом режиме работы используются для числа регрессоров т^ 10, 10-^wi<40 и w>40 соответственно. В пакете реализован алгоритм расчета гребневых (ridge) оценок параметров уравнения множественной линейной регрессии на основе процедуры определения каазиоптимального значения коэффициента регуляризации, предложенной Леннартом.

Процедура оценки качества линейных моделей предусматривает проверки гипотез о нормальности распределения и статистической независимости для значений остатков, проверку значимости множественного коэффициента корреляции, F - анализ дисперсии воспроизводимости и дисперсии остатков. Для расчета критических значений функций распределения используются полученные на основе обработки табличных данных методом Брандона мультипликативные модели.

В случае неудовлетворительной оценки качества линейной модели управляющая программа пакета обеспечивает синтез регрессионной модели в классе полиномиальных структур. В зависимости от значений числа регрессоров и объема выборки в автоматическом режиме используются: процедура функционального преобразования матрицы значений регрессоров; комбинаторный алгоритм МГУА с оптимальной схемой перебора моделей; процедура синтеза мультипликативной модели на основе алгоритма Брандона и процедура комплексного использования алгоритмов Брандока и МГУА.

Задача синтеза модели оптимальной сложности на основе комбинаторного алгоритма МГУА решается в два этапа. На первом этапе из полного набора моделей различной сложности отбираются по эвристическим критериям Р лучших структур, коэффициенты которых на втором этапе пересчитываются по всей йыбор-ке. На основании сравнительного анализа Р структур полученных моделей и соответствующих значений эвристических критериев пользователь осуществляет окончательный выбор лучшей модели. В блоке перебора различных структур выполняются следующие основные операции: формирование двоичного вектора, единичные элементы которого указывают структуру частной модели; формирование соответствующей системы нормальных уравнений и ее решение; вычисление значений эвристического критерия; текущий отбор заданного числа лучших моделей. Для всех операций используются процедуры ускоренного счета. Оценка параметров моделей осуществляется по рекуррентному алгоритму, что максимально уменьшает время полного перебора. Однако уровень реактивности алгоритма, необходимый для поддержки диалогового режима работы пакета обеспечивается при количестве регрессоров не более трех.

Полная степень регрессионной модели, получаемой методом Брандона быстро возрастает с увеличением числа регрессоров, несмотря на то, что порядок идентифицируемых на каждом шаге однофакторных моделей не превышает двух. Характерная особенность процедуры идентификации заключается в том, что регрес-соры вводятся в модель последовательно в порядке уменьшения значимости, оцениваемой по F-статистике. При т>3 и ограничении на максимально допустимый порядок полинома полной модели в автоматическом режиме пакета реализуется процедура комплексного использования алгоритмов Брандона и МГУА, при этом алгоритм Брандона используется в качестве процедуры для выделения триад наиболее значимых регрессоров.

При работе в автоматическом режиме на экран терминала выдаются информационные сообщения, которые не предусматривают ответных действий со стороны пользователя, например: ГИПОТЕЗА О НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ ЗНАЧЕНИЙ ОТКЛИКА ПОДТВЕРДИЛАСЬ или МОДЕЛЬ АДЕКВАТНА ЭКСПЕРИМЕНТАЛЬНЫМ ДАННЫМ. Диагностические средства обнаружения ошибок включены в управляющую программу в местах

их возможного возникновения при выполнении функциональных алгоритмов. При обнаружении ошибки осуществляется передача управления в программно-локализованный блок обработки ошибок, где происходит определение типа обнаруженной ошибки, выдаются соответствующие рекомендации по ее устранению и решается вопрос о продолжении работы монитора. Ошибки вывода на печать обрабатываются средствами операционной системы.

В диалоговом режиме работы монитор обеспечивает возможность выбора пользователем метода структурно-параметрической идентификации из "меню" библиотеки алгоритмов пакета ПАРИС. Кроме вышеуказанных в библиотеку включены программные средства, реализующие DUD-метод для оценки параметров нелинейных моделей и модифицированный метод Брандона. DUD-метод применим для решения широкого круга задач, в которых аналитические выражения для производных трудно или невозможно получить. Структура модели задается пользователем в виде соответствующей подпрограммы-функции. Аппроксимация производных, входящих в классический метод Гаусса-Ньютона, опирается на использование значений функции, полученных на предыдущих итерациях. Реализованный алгоритм предусматривает возможность фиксирования части оцениваемых параметров. Процесс идентификации завершается, если будет проделано заданное количество итераций или будет удовлетворен критерий сходимости.

Модификация метода Брандона заключается в расширении класса структур однофактор-ных моделей и в использовании DUD-метода для уточнения значений параметров нелинейных однофакторных моделей на каждом шаге синтеза мультипликативной структуры.

В отличие от работы с управляющей программой в автоматическом режиме, когда в результате реализации принципа умолчания пользователь не вмешивается в процесс ре-, шения задачи идентификации, при выполнении функциональных алгоритмов в диалоговом режиме имеется возможность задавать значения отдельных параметров и назначать критерии отбора лучших моделей.

Например, при использовании метода всех возможных регрессий предусмотрены директивы: ВВЕДИТЕ КРИТЕРИИ ВЫБОРА МОДЕЛИ; ВВЕДИТЕ ЖЕЛАЕМОЕ ЧИСЛО НАИЛУЧШИХ МОДЕЛЕЙ, ВЫВОДИМЫХ НА ПЕЧАТЬ и др. После обработки набора исходных данных в автоматическом или диалоговом режимах пользователь имеет возможность перейти к следующему файлу данных, изменив : при желании режим работы монитора.

• Пакет МАВР предназначен для решения

* задач структурно-параметрической идентифи- 1 Один трендовых моделей и прогнозирования £ одномерных и многомерных временных рядов. V При обработке одномерных временных рядов в 5 качестве исходных данных используется вектор ). мнений временного ряда, зафиксированных в '; равноотстоящих точках.

При решении задач идентификации трендовых моделей и прогнозирования для одномерных временных рядов управляющая программа в автоматическом режиме работы реализует определенную стратегию обработки данных. На этапе предварительного анализа осуществляется проверка статистической гипотезы о существовании тренда методом Фостера-Стьюарта. Результаты данного метода достаточно надежны, за исключением случаев, когда временной ряд охватывает два периода с противоположными тенденциями. В связи с этим, если гипотеза о существовании тренда отвергается, монитор передает управление подпрограмме выделения гармонического тренда.

С целью прогнозирования в ППП МАВР реализованы различные алгоритмы сглаживания временных рядов. Процедура сглаживания заключается в замене фактических уровней временного ряда расчетными, характеризующими тренд. В пакете программ реализован алгоритм гармонических весов, который использует в качестве процедуры сглаживания метод двух точек, а вычисление значений временного ряда на период упреждения осуществляется на основе рекуррентного соотношения. В отличие от других методов сглаживания, использующих взвешивание уровней, реализованный в ППП МАВР алгоритм не требует выполнения определенных требований относительно вида тренда.

Среди известных методов сглаживания временных рядов важное значение принадлежит алгоритмам аналитического выравнивания. Основной проблемой решения задачи аналитического выравнивания является структурно-параметрическая идентификация трендовой модели. Для этой цели в пакете программ используются: метод полиномов Чебышева, метод адаптационного прогнозирования, гармонический и комбинаторный алгоритм МГУ А. С целью повышения точности прогнозирования в управляющей программе предусмотрена процедура комбинирования частных прогнозов, полученных по отдельным алгоритмам, которая состоит в том, что любой прогноз содержит независимую информацию о динамических свойствах временного ряда, определяемую, в частности, выбранной структурой взаимосвязи параметров трендовой модели. Объединение прогнозов, полученных независимо, способствует повышению точности прогнозирования за счет вовлечения дополнительной информации, характеризующей динамические свойства временного ряда. Процедура определения лучшего из двух частных прогнозов построена на основе вычисления коэффициента расхождения, который в случае "совершенного" прогнозирования равен нулю. В процессе выполнения функциональных алгоритмов в автоматическом режиме на экран терминала выводятся сообщения, не требующие ответных действий пользователя, например: ГИПОТЕЗА О СУЩЕСТВОВАНИИ ТРЕНДА ПОДТВЕРДИЛАСЬ; СГЛАЖИВАНИЕ ВРЕМЕННОГО РЯДА ПРОИЗВЕДЕНО МЕТОДОМ ДВУХ ТОЧЕК; МЕТОД

ГАРМОНИЧЕСКИХ ВЕСОВ ОТРАБОТАЛ УСПЕШНО и пр.

В диалоговом режиме пользователю предоставляется возможность выбора алгоритма структурно параметрической идентификации и прогнозирования из библиотеки алгоритмов пакета МАВР и задания значений отдельных параметров, в частности уровня значимости на этапе проверки статистических гипотез.

При анализе многомерного временного ряда необходимо предварительно определить результирующий признак (отклик).

Предполагается, что инерционность отклика проявляется как сохранение взаимосвязей с временными рядами-регрессорами. С целью оценки параметров динамической регрессии в пакете используется метод множественной линейной регрессии. Значения временных рядов-регрессоров на период упреждения определяются согласно стратегии решения задачи прогнозирования одномерных временных рядов в автоматическом режиме, а прогнозирование значений отклика - путем подстановки значений регрессоров на периоде упреждения в уравнение динамической регрессии.

ППП МГУА является совместной разработкой сотрудников Института кибернетики им. В.М. Глушкова АН Украины (Киев) и Научно-исследовательского института "Центрпрог-раммсистем" (Тверь). Пакет предназначен для решения задач структурнопараметрической идентификации и прогнозирования на основе экспериментальных данных ограниченного объема в условиях неполноты информации о структуре исследуемых процессов, объектов и систем. В основе функционального наполнения пакета программ лежат различные алгоритмы, реализующие МГУА, который базируется на теории эвристической самоорганизации, разработанной под руководством члена-корреспондента АН Украины А. Г. Ивахненко.

Основными целями моделирования являются:

системный анализ взаимодействия переменных в исследуемых процессах, объектах или системах для определения набора информативных признаков;

структурно — параметрическая идентификация регрессионных моделей;

прогнозирование параметров исследуемых процессов, объектов или систем; планирование, управление и принятие решений.

Широко известные методы регрессионного анализа, базирующиеся на жестких требованиях к виду экспериментальных данных, часто не позволяют достичь указанных целей. Принцип расширения исходного базиса переменных с целью повышения точности моделирования часто приводит к противоречивым результатам, не поддающимся интерпретации.

Алгоритмы МГУА, при построении которых используются принципы эвристической самоорганизации, селекции (последовательного выбора), внешних дополнений, свободы выбора решений на каждом этапе селекции, "от простого к сложному", позволяют преодолеть многие трудности, возникающие при решении задач моделирования, и при ограниченном4 объеме исходных данных получить непротиворечивую модель оптимальной сложности.

В структуре каждого алгоритма МГУА можно выделить следующие типовые блоки: преобразование экспериментальных данных с возможным расширением исходного базиса переменных в соответствии с выбранным классом моделей;

генерация моделей различной сложности и оценка их параметров;

вычисление значений критериев селекции для каждой генерируемой модели и отбор нескольких лучших моделей для передачи на следующий этап селекции;

сравнительная оценка качества отобранных моделей.

Классы моделей определяются, в. основном, типом исходных данных (двухмерная матрица типа "объект-признак", временные ряды и др.) и могут быть разделены на три группы: статистические модели регрессионного типа; модели временных рядов; динамические модели в виде разностных уравнений. В ППП МГУА предусмотрена возможность кластеризации исходных данных с автоматическим выбором комбинации информативных признаков, после чего моделирование может осуществляться отдельно для каждого кластера.

Процедура генерации структуры моделей реализуется с помощью переборных (комбинаторных) и итерационных методов.

К первым относятся генераторы, основанные на идее полного или направленного перебора, по структуре аналогичного известному в прикладной статистике методу всех возможных регрессий. Итерационные генераторы, являясь оригинальными, реализуют специальную процедуру перцептронного типа для усложнения структуры моделей с помощью последовательного учета небольших групп переменных. Выбор типа генератора зависит прежде всего от числа переменных в исходном или расширенном базисе, так как при одинаковом базисе временные затраты на получение результатов гораздо меньше по итерационным алгоритмам, чем по переборным.

Важную роль при синтезе моделей играет выбор внешнего критерия селекции, который определяется целями моделирования.

Поскольку в алгоритмах МГУА задачи структурной и параметрической идентификации решаются одновременно, для оценки параметров и синтеза структуры модели применяются критерии, содержащие различную информацию. При этом информация, заключенная в критерии селекции структуры модели, является дополнительной или внешней по отношению к информации, на которой построен критерий оценки параметров модели. В связи с этим критерии селекции называют "внешними", а критерии оценки параметров "внутренними".

В алгоритмах МГУА используются следующие основные эвристические критерии:

регулярности (точности), выражающие ошибку модели на различных подвыборках; несмещенности (согласованности), отражающие меру близости оценок моделей на различных подвыборках;

баланса, показывающие согласованность моделей при исследовании взаимосвязанных переменных в случае многомерного выходного пространства признаков.

Если модель должна удовлетворять нескольким требованиям, применяются комбинированные критерии, позволяющие избежать проблемы многокритериального выбора.

В случае проведения обычного регрессионного анализа пакет МГУА предоставляет пользователю возможность отобрать модели по значению статистики Фишера. Необходимо отметить, что ряд критериев, применяемых в регрессионном анализе, в частности статистика Фишера, позволяет выбрать лучшую модель из некоторого множества. При этом используются внешние дополнения в виде предположений о свойствах генеральной совокупности экспериментальных данных, уровнях значимости, характере распределения ошибок наблюдений и др. Однако при нарушении исходных предпо-1 сылок применимости регрессионного анализа не удается получить несмещенные оценки параметров модели, проверить .адекватность и содержательность модели. Функциональное наполнение ППП МГУА составляют девять программных модулей, реализующих комбина-',, торные, многоэтапные и селекционные алго-> ритмы, которые позволяют решать широкий 1 спектр задач моделирования. Преимущество ; выбранных алгоритмов МГУА связано прежде всего с существенным снижением уровня априорных знаний об объекте исследования. Кроме набора исходных данных пользователю необходимо задать целесообразный класс моделей и критерий для сравнения моделей. При этом требуется квалифицированное задание определенного набора управляющих параметров, от которых существенно зависит время и качество решения задачи. В связи с этим при разработке ППП МГУА большое внимание уделено созданию интеллектуального монитора, который, кроме средств автоматической обработки данных, обеспечивает диалоговое взаимодействие с пользователем в ходе постановки задачи и задания управляющих параметров, а также имеет средства обнаружения и диагностирования ошибок, ассистирования, обучения и внутреннего документирования.

Монитор предназначен для обеспечения диалогового взаимодействия пользователя с пакетом программ. Предусмотрено три режима

функционирования пакета в зависимости от : квалификации пользователя: автоматический, ! полуавтоматический и пакетный. В  автоматическом режиме достаточно задать тип решаемой задачи, после чего исходные данные обрабатываются управляющей программой, обеспечивающей вызов функциональных алгоритмов пакета. В полуавтоматическом режиме работы с ППП МГУА пользователю предоставляется возможность выбрать класс моделей и задать значения управляющих параметров. Пакетный режим работы обеспечивает: выбор любого модуля из библиотеки алгоритмов пакета программ;

анализ работы выбранного алгоритма на основе визуализации информации о промежуточных результатах идентификации; обработку экспериментальных данных последовательно по нескольким алгоритмам МГУА; расширение исходного базиса входных переменных.

Решение задач идентификации динамических объектов предусмотрено в полуавтоматическом и пакетном режимах, а реализация алгоритма кластерного анализа — только в пакетном.

В ППП МГУА реализованы некоторые функции обучения и ассистирования. Для ознакомления пользователя с назначением, правилами работы и функциональными возможностями пакета в мониторе заложена функция "ОБЩИЕ СВЕДЕНИЯ О ПАКЕТЕ МГУА". Интерфейс пользователя с пакетом обеспечивает смешанный диалог экранного типа в виде "меню" с входным непроцедурным языком. В пакете программ предусмотрен анализ ошибок, допускаемых при вводе исходных данных и задании управляющих параметров, с выдачей соответствующих диагностических сообщений и правил исправления ошибок.

Пакеты программ ПАРИС, МАВР, МГУА внедрены и эффективно используются в многочисленных научно-исследовательских, проектных организациях, на промышленных предприятиях для решения задач моделирования технологических процессов и технических систем, анализа и прогнозирования технико-экономических показателей, оптимального управления и обучения.

СПИСОК ЛИТЕРАТУРЫ

Полиэкранная инструментальная система для создания интерфейсов с конечным пользователем. Руководство пользователя. - М.: ВНИИ ПАС, 1988. - 119 с.

Семенов Н.А. Программы регрессионного анализа и прогнозирования временных рядов. Пакеты ПАРИС и МАВР. - М.: Финансы и статистика, 1990. - 111 с.

Семенов Н.А. Разработка и технология сопровождения пакетов прикладных программ регрессионной идентифи кации для решения задач автоматизации научных иссле дований. - Дисс.в форме научн.докл. на соиск^уч.ст. докт.техн.наук. - М., НСКП "Кибернетика" АН СССР, 1990. - 37 с.

Сильвестров Д.С., Семенов Н.А., Марищук В.В. Пакеты прикладных программ статистического анализа. - Киев: Техника, 1990. - 176 с.

Степашко B.C., Семенов Н.А., Михеев В.Н. Диалоговый пакет прикладных программ моделирования на основе алгоритмов МГУА (ППП МГУА). - В сб.каучн.трудов "Искусственный интеллект - основа новой информацион ной технологии". - Калинин: НПО "Центрпрограммсис- тем", 1990.-С. 105-116.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=1461&lang=
Версия для печати
Статья опубликована в выпуске журнала № 3 за 1992 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик: