ISSN 0236-235X (P)
ISSN 2311-2735 (E)
2

16 Июня 2024

1. Сравнительный анализ методов построения математических моделей функционирования объекта с применением машинного обучения [№2 за 2023 год]
Ковальногов В.Н., Шеркунов В.В., Хуссейн Мохамед, Клячкин В.Н.
Предметом данного исследования является технический объект, работа которого определяется множеством факторов, а качество функционирования характеризуется некоторым показателем. Требуется построить математическую модель, связывающую этот показатель со значениями факторов. В качестве примера исследуется влияние различных факторов на эффективность работы горелочных устройств (нагрузки, расхода воздуха, метана и биогаза, составов топлива и окислителя и других). Эффективность (качество функционирования) горелочного устройства оценивается по температуре дымовых газов. Задача решается методами машинного обучения, поскольку классические методы регрессионного анализа показали недостаточную точность. В настоящей статье исследуется эффективность метода опорных векторов, случайного леса и бустинга деревьев решений. Для численных расчетов использована локализованная версия 13.3 системы Statistica. Все три подхода машинного обучения показали существенное повышение точности модели на тестовой выборке. Наилучшие результаты в рассматриваемом примере дал метод бустинга деревьев решений. Рекомендуемая технология построения модели, обеспечивающая необходимую точность прогнозирования, сводится вначале к апробации классического регрессионного анализа (если полученная модель обеспечит необходимую точность, то она предпочтительна с точки зрения ее интерпретируемости). При недостаточной точности используются три рассмотренных метода машинного обучения, вместе с тем важен подбор параметров каждого из них, который, с одной стороны, обеспечивал бы необходимую точность, а с другой – не приводил бы к переобучению модели. Полученная модель может быть использована для оценки влияния различных факторов на эффективность работы технического объекта, а также для прогнозирования качества его функционирования, в частности, температуры дымовых газов.

2. Кластеризация данных на лету для СУБД PostgreSQL [№2 за 2023 год]
Татарникова Т.М.
В работе определена актуальность задачи кластеризации данных в реальном масштабе времени в виде динамически встраиваемой библиотеки для СУБД PostgreSQL с открытым исходным кодом. Сформулированы условия для выполнения кластеризации в реальном времени, заключающиеся в обеспечении достаточной производительности, при которой время определения кластеров не превышает время записи данных в таблицу и ограниченное количество данных для кластеризации. Методы PostgreSQL доступны в devel-библиотеке, что позволяет использовать их для взаимодействия с данными на уровне внутреннего представления и других языков программирования, выполняющих некоторые операции быстрее, чем язык запросов SQL. Схема взаимодействия между элементами для кластеризации включает БД, в которую установлены динамически встраиваемая библиотека и расширение TimescaleDB для организации хранения данных сервером БД; интерпретатор – программная прослойка для перевода данных из внутреннего представления в типы используемого языка перед кластеризацией и, наоборот, перевода результатов кластеризации во внутренний формат для их сохранения в БД; кластеризатор – программа, выполняющая кластеризацию переданных данных согласно алгоритму. Предлагаемая библиотека представляет собой реализацию триггерной функции, которая по сути является интерпретатором, связывающим кластеризатор с БД. Если это первое срабатывание функции для таблицы, то производится выбор начальных центроидов способом, заданным пользователем. В противном случае происходит считывание данных о центроидах из таблицы. Приведена демонстрация работы библиотеки. Набор данных для кластеризации сгенерирован случайным образом с концентрацией около заданных координат центроидов. Библиотека не ограничивает пользователя как в размерности точек, которые необходимо распределить по кластерам, так и в количестве таблиц, в которые может производиться вставка данных. Ввиду вычислительной сложности алгоритмов имеется ограничение на максимальное число данных для кластеризации.

3. Разработка механизма самосборки программ на основе сокетов [№2 за 2023 год]
Кольчугина Е.А.
Предметом исследования являются методы и алгоритмы спонтанной самосборки и самоорганизации программных систем. Среди моделей искусственной химии известны методы, допускающие самоформирование программ. Но эти методы очень специфичны и проблематичны в случае интеграции с обычными, широко распространенными и хорошо известными инструментами императивного программирования. Следовательно, необходимы другие виды инструментов, позволяющие динамически устанавливать отношения между программами или процессами. Разработанный автором данной статьи метод основан на использовании сокетов Internet, соединяющих программные единицы различных типов. Одни из этих единиц являются серверами, другие – клиентами, а третьи относятся к гибридному типу, сочетающему функции и клиента, и сервера. Программные единицы обычно рассматриваются как искусственные атомы, вступающие в реакцию друг с другом и образующие сложные вещества (то есть программы различной структуры). В данной работе предлагаются алгоритмы реализации таких программных единиц. Эти алгоритмы позволяют создавать коллективы независимых взаимодействующих единиц, способных формировать различные вычислительные конфигурации. Разработанные алгоритмы являются основой для реализации концепции, допускающей спонтанное формирование ПО в соответствии с заданными правилами при заданных условиях. В ходе экспериментов были получены вычислительные структуры, подобные полимерам реального мира и способные прокачивать данные через себя. Полученные результаты необходимы для организации полностью автоматизированного процесса разработки ПО, основанного на моделировании спонтанности. Процесс разработки программы потребует меньшего участия человека и потому станет более эффективным и экономически выгодным.

4. Нейросетевая инструментальная среда для создания персонализированных интерфейсов прикладных программ [№2 за 2023 год]
Тагирова Л.Ф., Зубкова Т.М.
Статья посвящена проблеме персонализации интерфейса прикладных программ к индивидуальным особенностям пользователей на основе применения нейросетевых технологий. Новизной предложенного подхода является формирование прототипа интерфейса путем подбора каждого элемента меню отдельно, позволяющего сформировать персонализированный интерфейс. Предлагается использование инструментальной среды, включающей набор компонентов интерфейсной части, из которых динамически генерируется уникальный прототип интерфейса, адаптированный под особенности каждого пользователя. В качестве инструмента для подбора компонентов интерфейса использована глубокая нейронная сеть, представленная в виде многослойного перцептрона. Входными параметрами нейронной сети являются отличительные особенности пользователей, выходными – компоненты будущего прототипа интерфейса. В качестве критериев адаптации интерфейсной части приложений выбраны профессиональные, психофизиологические характеристики пользователей, их демографические особенности, а также эмоциональное состояние. Выходными параметрами являются компоненты интерфейса: размер шрифта текста и гиперссылок, размер и расстояние между элементами веб-страницы, вид подсказок и контекстного меню, сообщения пользователю, цветовая гамма, наличие окна для поиска информации и др. В результате разработана инструментальная среда для создания персонализированных интерфейсов прикладных программ c использованием нейросетевых технологий. В ходе работы программного средства пользователи проходят оценку своих характеристик с помощью базовых тестов IТ-сферы и психологии. Для определения эмоционального тона, возраста и пола в системе используется библиотека Deepface языка Python, которая реализует алгоритм на основе обученной сверточной нейронной сети. Внедрение предложенной инструментальной среды позволит обеспечить удобное взаимодействие между пользователями и программным приложением.

5. Особенности работы с русскоязычными онтологиями с помощью библиотеки Owlready2 на языке Python [№2 за 2023 год]
Щукарев И.А.
При работе в библиотеке Owlready2 языка Python с онтологиями, в которых изначально классы, индивидуумы и отношения написаны кириллицей, машина логического вывода reasoner выдает некорректные данные. Вследствие сбоя в кодировке Owlready2 дублирует онтологию, а вместо текста кириллицы появляются нечитаемые символы. Решить данную проблему предлагается путем явного задания кодировки выходных данных в файле reasoning.py, а именно cp1251, то есть стандартной 8-битной кодировки для русских версий Microsoft Windows. Сам файл находится в корневой папке программы – \Python\Python311\Lib\site-packages\owlready2\ для версии Python 3.11.0. Он и рассматривается в данной статье. Для поиска решения использован метод сравнительного анализа различных версий библиотеки Owlready2 и ее предшественника – библиотеки Owlready. Решение найдено путем сравнения команд работы с исходными данными в различных версиях библиотек Owlready. После внесения соответствующего изменения упрощается работа с онтологиями в Python, особенно при многократных запусках машины логического вывода reasoner. Становится возможным использование огромного функционала библиотеки Owlready2 для работы с русскоязычными онтологиями, например, для создания соответствующих русскоязычных баз знаний. Предложенный в статье способ может быть полезен для ИТ-специалистов, разрабатывающих информационные системы на основе онтологий предметных областей, а также при работе с онтологиями в рамках образовательного процесса в вузе.

6. Использование языковых моделей T5 для задачи упрощения текста [№2 за 2023 год]
Васильев Д.Д., Пятаева А.В.
Проблема читаемости текста на естественном русском языке актуальна для людей с различными когнитивными нарушениями и для тех, кто слабо владеет языковыми знаниями, например, трудовых мигрантов и детей. Повышение доступности текстов (инструкций, указаний, рекомендаций) для указанных категорий граждан возможно путем использования автоматизированного алгоритма симплификации текста. В данном исследовании в качестве автоматизированного алгоритма симплификации используются глубокие нейронные архитектуры – трансформеры. В работе были применены следующие языковые модели: ruT5-base-absum, ruT5-base-paraphraser, ruT5_base_sum_gazeta, ruT5-base. Экспериментальные исследования проведены с использованием двух наборов данных – Института филологии и языковой коммуникации и из открытого репозитория Github. Для оценки моделей использован набор метрик: BLEU, индекс удобочитаемости Флеша, автоматический индекс удобочитаемости и разница длин предложений. С помощью тестового набора данных из перечисленных метрик извлекались статиcтические показатели, на основе которых сравнивались алгоритмы с различными параметрами обучения. Было проведено несколько экспериментов с указанными моделями, в которых использовались разные значения параметра скорости обучения для каждого набора данных, размеры батча, а также исключение из обучения дополни-тельного набора данных. Несмотря на различные показатели метрик при ручном сравнении выходы моделей слабо отличались друг от друга. Результаты экспериментальных исследований показали необходимость увеличения набора данных для обучения моделей, а также изменения параметров обучения моделей или использования других алгоритмов. Данное исследование является первым шагом к созданию системы поддержки принятия решений для автоматического упрощения текста и требует дальнейшего развития.

7. Использование трехмерных кубов данных в реализации системы бизнес-анализа [№2 за 2023 год]
Черныш Б.А., Мурыгин А.В.
Бизнес-анализ является одним из ключевых инструментов управления, позволяющих получать достоверную картину текущего состояния дел на предприятии по всем направлениям деятельности. Для обеспечения этого процесса в любой компании в качестве показателей ее работы используются различные данные. Источником данных прежде всего являются интегрированные информационные системы. Эти системы могут использовать либо имеющиеся в их составе инструменты бизнес-анализа, либо специализированные решения, позволяющие выполнять сложные аналитические задачи по заданной постановке. В статье рассматриваются особенности обоих подходов, их преимущества и недостатки, приводятся примеры существующих на рынке зарубежных и отечественных продуктов для бизнес-анализа. Предлагается способ построения трехмерных кубов с использованием содержащихся в системе данных на примере модуля бизнес-анализа разработанной авторами интегрированной информационной системы SciCMS. Описываются используемые методики, исходные требования и ограничения. Проведена формализация задач, рассмотрен математический аппарат построения многомерных моделей данных на основе информации из фиксированного набора нормализованных таблиц реляционной БД. Представлены примеры SQL-запросов и выходных данных. В ряде случаев (работа с нереляционной СУБД, необходимость в наличии заранее рассчитанных агрегатных значений, сложность и высокая стоимость прямых SQL-запросов и т.д.) применение описанного способа построения многомерных кубов невозможно. Решением данной проблемы в SciCMS является собственный модуль импорта и трансформации данных на основе библиотеки с открытым исходным кодом. В статье обобщены основные достоинства и недостатки предлагаемого подхода, перспективы его использования на отечественных предприятиях.

8. Оптимальное управление нелинейными системами по квадратичному критерию с ограничениями на управляющие воздействия [№2 за 2023 год]
Емельянова И.И., Пчелинцев А.Н.
В статье предложен метод построения оптимального управления одним классом нелинейных систем по квадратичному критерию с классическим ограничением типа неравенства на управляющее воздействие. Данный метод является дальнейшим развитием метода последовательных приближений. Модификация указанного метода позволила установить существование оптимального управления рассматриваемой задачи и синтезировать собственно оптимальное управление. Ключевым для построения оптимального управления является вопрос о сходимости метода последовательных приближений. В статье приведены условия сходимости этого метода, которые являются предельно простыми и естественными. Кроме того, предложенная схема приводит к вычислительной процедуре, предполагающей построение последовательности решений двухточечных краевых задач. Это, как известно, создает некоторые вычислительные трудности. Избежать их позволяет приведенная в работе модифицированная схема, которая дает управление, близкое к оптимальному. Показано, что разработанная схема сводит исходную задачу к последовательности не зависящих друг от друга задач Коши, решение которых легко получить простейшими методами численного анализа. Описаны условия сходимости модифицированной схемы. Для иллюстрации предложенного метода приводятся результаты вычислительного эксперимента по построению оптимального управления для управляемой системы, характеризуемой уравнением Ван дер Поля. Оказалось, что в данном случае именно модифицированная схема дает оптимальное управление.

9. Статистический эксперимент по проверке практической сходимости в одной задаче субмодулярного программирования [№2 за 2023 год]
Скакодуб К.Р., Лесик А.И., Перевозчиков А.Г.
В статье рассматривается cтатистический эксперимент по проверке практической сходимости в одной задаче субмодулярного программирования. Предлагается постановка задачи по максимизации суммы эффективности группового назначения. Вводится понятие смешанного решения транспортной задачи о групповом назначении, когда ресурсные ограничения в среднем выполняются. Показано, что определение смешанных решений транспортной задачи о групповом назначении может быть сведено к задаче субмодулярного программирования, решаемой методом ветвей и границ с верхними оценками, основанными на субмодулярности транспортной задачи с ограничениями в виде равенств по столбцам. Полиномиальность ε-оптимальной версии метода ветвей и границ доказана лишь в отношении классической схемы решения многомерной задачи о рюкзаке. Авторы применили схему, использующую специфику задачи, поэтому для проверки гипотезы полиномиальности необходимы дальнейшие усилия, в том числе и при помощи статистических экспериментов. Основным результатом являются разработка численной реализации ε-оптимальной версии метода ветвей и границ на высокоуровневом языке программирования С++ и проведение статистического эксперимента по проверке практической сходимости самого алгоритма на основании статической транспортной задачи о групповом назначении по эффективности назначения. По результатам анализа численного эксперимента установлено, что для рассматриваемой задачи процент раскрытых в ходе работы ε-оптимального алгоритма вершин от общего числа вершин в орграфе при увеличении размерности убывает довольно быстро, что говорит о достаточной эффективности алгоритма. Гипотеза о полиномиальности не подтвердилась, так как используется не классический алгоритм решения целочисленной задачи, а специфика поставленной задачи.

10. Применение MATLAB при проектировании цифровых фильтров для выделения геомагнитных пульсаций типа Pc5 [№2 за 2023 год]
Коробейников А.Г.
В статье рассмотрена процедура проектирования методом наилучшей равномерной (чебышевской) аппроксимации оптимального нерекурсивного полосового цифрового фильтра с конечно-импульсной характеристикой (КИХ-фильтра). Фильтр предназначен для решения задачи выделения геомагнитных пульсаций типа Pc5 из набора показателей измерений геомагнитного поля. Этот тип пульсаций выбран в связи с доступностью 1-секундных данных в широко разнесенной сети геомагнитных наземных обсерваторий, имеющих стандартизированную геофизическую наземную аппаратуру. Данные, обработанные соответствующим образом, можно использовать, например, при детальном анализе свойств возмущений магнитного поля Земли в диапазоне длиннопериодных пульсаций, а также характера взаимодействия волн и частиц в магнитосфере. Результаты анализа можно использовать, в частности, при расчете прогноза космической погоды, что обусловливает актуальность настоящей работы. Решение задачи выделения пульсаций Pc5 производится путем пропускания исходного набора данных через полосовой КИХ-фильтр, обладающий требуемыми характеристиками, зависящими от диапазона периода пульсаций Pc5, – 150–600 секунд. Отсюда следуют границы полосы пропускания, равные 1.7–6.7 мГц. Выбор нерекурсивного полосового КИХ-фильтра обусловлен возможностью обеспечения линейной фазочастотной характеристики, исключающей фазовые искажения на выходе КИХ-фильтра, а также устойчивостью по определению данного типа фильтров. Первое условие также гарантирует и отсутствие требований к фазочастотной характеристике КИХ-фильтра. Работоспособность полученного цифрового фильтра продемонстрирована на примере обработки реального набора данных измерений состояния геомагнитного поля, полученного с геомагнитной обсерватории Lycksele (Швеция), входящей в международную сеть INTERMAGNET. Проектирование полосового КИХ-фильтра и расчеты проводились в MATLAB R2022b.

| 1 | 2