ISSN 0236-235X (P)
ISSN 2311-2735 (E)
4

09 Сентября 2024

О мобильной библиотеке программ по прикладной статистике


Петрович М.Л. () -
Ключевое слово:
Ключевое слово:


     

Статистические методы получения математического описания сложных объектов давно вошли в практику. Естественно, что это повлекло за собой и создание необходимого прикладного программного обеспечения (ППО) различной степени сложности.

Согласно анализу разработанного у нас в стране ППО по прикладной статистике, подавляющая масса программных средств разработана для одной конкретной ЭВМ (в основном это ЕС ЭВМ), что значительно снижает эффективность их использования. Поэтому актуальным стал вопрос разработки переносимого (мобильного) программного обеспечения, работающего как в различной вычислительной среде, так и на разных типах ЭВМ. Создание такого ППО требует знания совокупности технических средств, операционной системы, особенностей компиляторов конкретной ЭВМ из того машинного окружения, на которое оно рассчитано.

На основе опыта создания библиотеки БИМ в Институте математики АН БССР разрабатывается многомашинная (ЕС ЭВМ, СМ ЭВМ, БЭСМ-6, персональные ЭВМ) библиотека прикладных программ БИМ-М.

Известно, что библиотека прикладных программ является самой динамичной частью программного обеспечения ЭВМ. Она имеет самостоятельное значение, а также может использоваться в качестве функционального наполнения пакетов прикладных программ, базы знаний в экспертных методоориентированных системах. Состав библиотеки программ и гибкость ее структуры оказывают влияние на широту класса прикладных задач, которые пользователь может решать с ее помощью. Разработчики библиотеки стремились обеспечить:

•     решение широкого круга задач с помощью современных методов вычислительной математики и прикладной статистики;

•     возможность модернизации и расширения библиотеки за счет новых алгоритмов и разделов;

•     простоту и удобство в эксплуатации.

Библиотека является совокупностью подпрограмм, построенных по единой технологии, и имеет модульную структуру. Основной язык, на котором написаны программы библиотеки, — ФОРТРАН. Его выбор обусловлен вычислительным характером решаемых задач. Конкретные реализации языка на разных машинах и для различных трансляторов не совпадают. С целью обеспечения мобильности программ было отобрано подмножество языка, которое допустимо на всех машинах и для всех трансляторов и выполняет одинаковые функции аналогичным образом во всех реализациях языка. Для программ с машинно-зависимыми конструкциями необходимо иметь несколько версий, чтобы на каждой ЭВМ можно было использовать одну версию, либо эти конструкции выделить в машинно-зависимый блок, расположенный, как правило, в начале программы. Этот блок модифицируется затем в зависимости от машинного окружения. Большое внимание уделяется обеспечению наглядности и единообразию документирования подпрограмм библиотеки, что облегчает их использование и перенос на другие ЭВМ.

На использование операций ввода-вывода наложены строгие ограничения, что также повышает мобильность подпрограмм библиотеки БИМ-М. В случае когда обойтись без них нельзя, для вывода используется, как правило, оператор PRINT, в других случаях номера устройств ввода-вывода задаются в переменных, являющихся формальными параметрами данного модуля. Допускается задание ввода-вывода в специальной подпрограмме, которую пишет пользователь и передает ее имя в списке фактических параметров.

Библиотека БИМ-М предназначена для решения задач вычислительной математики, математической' кибернетики, оптимального управления и прикладной статистики и состоит из 11 разделов. Раздел «Прикладная статистика» (С), в свою очередь, состоит из 12 подразделов, выделенных в результате анализа задач, использующих прикладную статистику:

СР — предварительная обработка данных;

CF — распределение вероятностей;

СН — проверка гипотез;

CR — корреляционно-регрессионный анализ;

СК — классификация, распознавание;

CD — дисперсионный анализ;

CW — временные ряды;

СМ — марковские процессы;

CN — непараметрическая статистика;

СЕ — планирование эксперимента;

SV — построение псевдослучайных объектов;

СС — сервисные и вспомогательные подпрограммы. В каждом из подразделов проведен анализ предметной области, позволивший выделить основные модули, с помощью набора которых можно решать прикладные задачи. Проведена унификация имен подпрограмм, математических обозначений и соответствующих им идентификаторов в подпрограммах, облегчающая их классификацию и использование (особенно при автоматизации вычислительного процесса). С этой же целью в число параметров подпрограмм введена переменная (диагностический параметр), которая информирует о результатах выполнения подпрограмм (результат получен в соответствии с назначением, не может быть получен и др.). По значению этой переменной выдается текстовое диагностическое сообщение.

Рассмотрим кратко функциональное наполнение основных подразделов раздела «Прикладная статистика».

Для того, чтобы с помощью статистических методов выявить закономерности, содержащиеся в экспериментальных данных, необходимо располагать не любыми данными, а полученными по определенной методике и обладающими необходимыми свойствами (например симметрией), подчиненными нормальному закону распределения и т. д. Если пренебречь природой данных, то результат, полуденный даже с помощью самых точных вычислительных процедур, будет неинформативным. «Мусор на входе — мусор на выходе» — так кратко формулируют ситуацию, когда пытаются точными вычислительными методами и с помощью ЭВМ компенсировать недостатки сбора и подготовки данных для анализа.

Предварительная обработка данных — это подраздел, широко используемый на практике. Она включает в себя выбор подмножества (по некоторому признаку) данных для дальнейшего статистического анализа, определение числовых характеристик распределений, диаграмм рассеивания, преобразование данных. Сюда же можно отнести построение гистограммы и ее сглаживание некоторой математической функцией, визуализацию многомерных данных. Наряду с традиционными алгоритмами большое место отведено робастным, т. е. устойчивым к нарушению предположения о виде распределения.

Идея, лежащая в основе визуализации данных, состоит в замене m-мерной точки некоторыми фигурами (звездчатой диаграммой, гистограммным блоком и т. д.) на плоскости. Сопоставление по тому или иному правилу этих фигур с точками позволяет «смотреть» на данные, видеть их характер, сравнивать их качественно, угадывать те или иные нетривиальные признаки, отличающие данные одного класса от другого или позволяющие прослеживать их динамику относительно некоторого порядка их расположения.

Функции распределения вероятностей

В теории и практике статистических исследований очень важно уметь вычислять распределение вероятностей для функций от случайных величин, распределение которых известно. На этом главным образом основана теория статистического оценивания и проверки статистических гипотез. В библиотеке представлен широкий набор функций распределения дискретных и непрерывных случайных величин, для вычисления которых использовались различные аппроксимационные формулы, позволяющие получить результаты с высокой точностью.

Квантили уровня а

Квантиль уровня а является функцией, обратной функции распределения вероятностей. Эти функции широко используются для построения доверительных интервалов неизвестных параметров распределений и различных статистик, в экспертных системах, а также в разнообразных статистических критериях проверки гипотез. В библиотеке имеются подпрограммы вычисления квантилей нормального, F-, t-, xu- квадрат и других распределений.

Оценивание параметров распределений

Функции распределения вероятностей часто зависят от параметров, значения которых неизвестны. Поэтому возникает задача их оценки с помощью выборки объема п. Существуют различные методы оценивания параметров. В библиотеке для оценивания параметров нормального (одно- и многомерного), логнормального, Вейбулла, гамма- и других распределений используются устойчивые алгоритмы, одношаговые процедуры.

Проверка статистических гипотез

Важным этапом в исследовательской работе является проверка статистических гипотез. В библиотеку БИМ-М включены параметрические и непараметрические критерии проверки гипотез о независимости наблюдений (переменных), симметрии, однородности, виде функции распределения и других одномерных и многомерных переменных.

Датчики псевдослучайных величин

При изучении сложных объектов часто прибегают к приему статистического моделирования на ЭВМ, что в свою очередь требует широкого набора датчиков псевдослучайных чисел. В библиотеке имеются следующие датчики: нормального (одно- и многомерного), логнормального, Вейбулла, гамма и других распределений.

Классификация, распознавание

Программное обеспечение задач классификации, распознавания в БИМ-М представлено двумя группами алгоритмов. Первая группа не опирается на знание вероятностных распределений, а матрица исходных данных рассматривается «как адекватная модель реального мира», поэтому выводы, полученные по этой матрице, полностью переносятся на тот «срез реальности», который представлен в данных. Подпрограммы объединены в пять групп:

•     оценка связей и весовых коэффициентов признаков;

•     оценка связей между наблюдениями;

•     классификация объектов по матрице показателей связи между ними;

•     иерархическая классификация;

•     интерпретация и прогноз.

Ко второй группе относятся алгоритмы распознавания, базирующиеся на одномерной непараметрике, состоятельной при работе с Т-распределениями, которые можно получить из нормальных путем произвольных монотонных преобразований их компонент.

Анализ структуры и тесноты статистической связи между исследуемыми переменными (корреляционный анализ)

На практике часто приходится изучать структуру многомерных данных, выявлять характерные тенденции во взаимодействии компонент, которые могут быть измерены с использованием различных шкал (количественной, номинальной, порядковой). Важным этапом статистического исследования является анализ связей для этих переменных. В качестве меры связи в БИМ-М вычисляются: Я матрица парных, частных коэффициентов корреляции традиционными и робастными алгоритмами, множественный коэффициент корреляции, корреляционное отношение с проверкой значимости коэффициентов корреляции и построением доверительных интервалов, каноническая корреляция и другие для количественной шкалы;

■   ранговая корреляция различными алгоритмами с учетом связей, частная ранговая корреляция, коэффициент согласованности и другие для порядковой шкалы;

■   различные меры связи (основанные на х2, X Гудмена и др.), производится анализ таблиц сопряженности и приписывание численных значений качественным переменным (дуальное шкалирование) для номинальной шкалы.

Для анализа структуры связей между компонентами многомерного сектора в БИМ-М имеются подпрограммы, с помощью которых можно:

•     упорядочить номера вершин графа с древообразной структурой зависимостей (ДСЗ);

•     вычислить коэффициент корреляции для вектора с ДСЗ;

•     построить граф структуры зависимостей по заданной корреляционной матрице;

•     вычислить веса дерева.

Регрессионный анализ

Исследование зависимости одной или нескольких переменных от множества других переменных — одна из важнейших задач прикладной статистики, решению которой уделяется большое внимание и в теории, и в программном обеспечении.

В процессе исследования зависимости особо были выделены случаи нарушения основных предположений, при которых выполняется классический регрессионный анализ:

•     ШФО, т. е. элементы вектора случайных ошибок смещены, что может быть вызвано неполнотой или избыточностью модели;

•     De=o2V, т. е. отклонения г коррелированы;

•     ранг матрицы X меньше числа оцениваемых параметров, т. е. имеет место линейная (или близкая к ней) зависимость предикторных переменных;

•     предикторные переменные Хц, i=1,n, j=1,m наблюдаются с ошибками, в результате чего матрица перестает быть детерминированной;

•     отклонения е, подчинены распределению, отличному от нормального;

•     параметры модели удовлетворяют заданным условиям;

•     значения зависимой переменной вычисляются в заданной точке (локальная регрессия). Для каждого случая имеется набор алгоритмов и подпрограмм.

Известно, что при описании сложных объектов приходится выбирать математическую модель исходя из опыта специалиста. Однако адекватность модели может быть проверена с помощью статистических методов. Для этого проводится исследование отклонений фактических значений от значений, рассчитанных с помощью модели, используется метод скользящего экзамена и т. д.

Планирование эксперимента

В БИМ-М включены подпрограммы, предназначенные для автоматизации процесса построения планов и обработки результатов эксперимента при построении регрессионных моделей исследования объекта. Производится также отбор существенных факторов и рандомизация матрицы плана.

Условия применения и поставка пользователю

Библиотека прикладных программ БИМ-М может применяться на ЭВМ с использованием операционных систем, систем программирования, указанных в таблице.

 

В комплект поставки, кроме технической документации, входит дистрибутивная магнитная лента с объектными и загрузочными программными модулями, демонстрационными примерами и оперативным справочником, содержащим краткие сведения о подпрограммах БИМ-М.



http://swsys.ru/index.php?id=1494&lang=.docs&page=article


Perhaps, you might be interested in the following articles of similar topics: