Журнал "Программные продукты и системы" - научные статьи в области информационных технологий

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Статьи журнала №2 2016

1. Возможности параллельного программирования в математических пакетах [№2 за 2016 год]
Авторы: Чернецов А.М. (an@ccas.ru) - Вычислительный центр им. А.А. Дородницына ФИЦ ИУ РАН, Национальный исследовательский университет «Московский энергетический институт» (научный сотрудник, доцент), кандидат технических наук;
Аннотация: За последние годы при решении множества трудновычислимых задач стали применяться средства и возможности параллельного программирования. Широко известны модели программирования в общей и распределенной памяти, позднее к ним прибавились гибридные модели. Однако все упомянутые средства относятся к достаточно низкоуровневому программированию, когда производится значительная переделка исходного кода. Немалое число математических расчетов выполняется не на алгоритмических языках (C/C++, Fortran), а в специализированных математических пакетах MATLAB, Maple, Mathematica, MathCad. В работе рассмотрены средства параллельного программирования в современных математических пакетах. Приведен краткий обзор развития средств параллельного программирования в широко распространенных пакетах MATLAB, Maple, Mathematica и MathCad. Для MATLAB кратко описываются основные примитивы параллельного программирования и их соответствия в среде MPI, а также приводятся другие операторы параллельного программирования. Рассматриваются различные средства обеспечения параллелизма в пакете Maple (работа с нитями, высокоуровневыми абстракциями Task Programming Model, параллельное программирование). Для Mathematica приводятся некоторые базовые конструкции параллельного программирования, имеющиеся в языке Mathematica Wolfram Language. Рассматриваются различные примеры. В зависимости от того, в каком пакете происходит работа, доступны несколько отличающиеся возможности, однако любая задача может быть решена в каждом из рассматриваемых пакетов (за исключением MathCad).

Abstract: Recently tools and features of parallel programming have been used for calculating difficult tasks. Programming models in shared and distributed memory are well-known. Later hybrid models have appeared. However, all these tools suppose fairly low-level programming when a source code is modified significantly. A significant number of mathematical calculations is performed not in algorithmic languages (C/C++, Fortran), but in special mathematical suites such as MATLAB, Maple, Mathematica, MathCad. The paper discusses parallel programming tools in modern mathematical suites. There is a short review of parallel programming tools development in well-known suites, such as MATLAB, Maple, Mathematica and Mathcad. The paper briefly describes the main primitives of parallel programming and their analogs in MPI for MATLAB. It also mentions other operators of parallel programming. It describes different features of parallelism in Maple (threads programming, high-level Task Programming Model, parallel programming). There are some basic constructions of parallel programming in Mathematica Wolfram language. The paper describes different examples. Different possibilities are available depending on an operation suite. However, any problem can be solved in each of these suites (except MathCad).

Ключевые слова: wstp, mpi, математические пакеты, параллельное программирование
Keywords: wstp, MPI, mathematical suites, parallel programming
Просмотров: 11908

2. Алгоритм классификации, основанный на принципах случайного леса, для решения задачи прогнозирования [№2 за 2016 год]
Авторы: Картиев С.Б. (mlearningsystems@gmail.com) - Инженерно-технологическая академия Южного федерального университета (аспирант); Курейчик В.М. (kur@tgn.sfedu.ru) - Таганрогский технологический институт Южного федерального университета (профессор), доктор технических наук;
Аннотация: Работа посвящена методам построения ансамблей моделей для решения задачи прогнозирования. Одним из основных этапов прогнозирования является классификация. На данном этапе производится основная логика прогностических моделей. Описывается метод классификации с использованием методов случайного леса. Отмечены плюсы и минусы использованных методов. В ходе работы обосновывается выбор данного метода для применения в разработанной системе прогнозирования. Разработан алгоритм построения случайного леса на основе методов комбинирования элементов принятия решений и обучения сформированной структуры данных с использованием модифицированного алгоритма обучения случайного леса (MRF). Принципиальным отличием данного метода является нахождение оптимального класса, к которому относится объект, рассматриваемый для задачи прогнозирования. Описывается программная реализация на языке Java с использованием принципов обобщенного программирования и приводится описание основной структуры данных в виде UML-диаграммы. Также определено место разработанного модуля в системе диагностирования сложных технических систем по поддержанию работоспособности программной системы с использованием принципов моделирования, основанных на темпоральной логике. Проведены экспериментальные исследования, показавшие эффективность описываемого метода по сравнению с существующими. Качество классификации улучшилось примерно на 5 % по сравнению с предыдущими опытами.

Abstract: This article considers the methods of constructing ensembles of models to solve the forecasting problem. One of the major forecasting stages is classification. This stage includes the basic logic of predictive models. It describes the “random forest” classification method. It also presents the pros and cons of the methods used. During the research the authors justify the choice of this method for using in the developed forecasting system. The paper presents an algorithm for random forest construction based on a combination of decision-making elements and training methods for generated data structures using a modified random forest (MRF) training algorithm. The fundamental difference of this method is finding the optimal class which possesses the object in question for a forecasting task. The paper describes the software implementation in Java using the principles of generic programming. It also describes the basic data structure as an UML-diagram. The article defines the place of the developed module in the diagnostic system of complex technical systems for software system maintenance using modeling principles based on temporal logic. The experimental research showes the efficiency of the described method compared to existing ones. Classification quality has improved at approximately 5 % compared to previous experiments.

Ключевые слова: временной автомат, прогнозирование, алгоритм, случайный лес, классификация
Keywords: temporal logic, forecasting, algorithm, random forest, classification
Просмотров: 13720

3. Модель и алгоритмизация оптимизационной задачи о назначениях в условиях дополнительных ограничений [№2 за 2016 год]
Авторы: Кордюков Р.Ю. (romkord@yandex.ru) - Главное управление научно-исследовательской деятельности и технологического сопровождения передовых технологий МО РФ, ул. Профсоюзная, 84/32, г. Москва (зам. начальника Главного управления), кандидат технических наук; Допира Р.В. (rvdopira@yandex.ru) - НПО РусБИТех, пр-т Калинина, 17, г. Тверь, 170001, Россия (профессор, зав. отделом), доктор технических наук; Иванова А.В. (tiki.mikck@yandex.ru) - НПО РусБИТех (младший научный сотрудник); Абу-Абед Ф.Н. (aafares@mail.ru) - Тверской государственный технический университет (доцент, декан), кандидат технических наук; Мартынов Д.В. (idpo@tstu.tver.ru) - Тверской государственный технический университет (Мартынов), кандидат технических наук;
Аннотация: В статье рассматривается задача оптимального выбора кандидатов на выполнение работ в тендерных проектах исходя из финансовых условий, выдвигаемых соискателями. Представлены критерии, являющиеся ключевыми при отборе подходящих заявок претендентов с учетом заранее объявленных нормативов. Задача приводится в формализованном виде, при этом целевой функцией является минимизация затрат на реализацию проектов. Построена модель, агрегирующая исходные данные и ограничения в единую систему и позволяющая оперировать начальными условиями для их анализа. Предлагается специальный алгоритм поиска оптимальных вариантов назначений, базирующийся на теории графов, методике последовательного анализа и отсева вариантов и неявном переборе. Данный алгоритм учитывает требования, предъявляемые к заявкам соискателей, и работает как при наличии финансовых ограничений предприятий по максимуму и минимуму, так и при их отсутствии, а также предоставляет возможность подбора исполнителей на комплексный проект, реализация которого подразумевает успешное совместное завершение множества отдельных проектов, входящих в его состав. Предлагаемое ПО, разработанное для решения данной задачи, предоставляет возможности по формированию списков конкурсных проектов, кандидатов на их выполнение и их заявок на определенные виды работ с учетом существующих стоимостных, временных и вероятностных ограничений. По представленному алгоритму осуществляется поиск всех заявок, удовлетворяющих требованиям нормативов, и среди них определяется оптимальная выборка, учитывающая возможности исполнителей по освоению выделяемых ресурсов.

Abstract: The article discusses the problem of optimal selection of candidates for working in tender projects based on financial conditions offered by candidates. It presents key criteria in selecting appropriate applications of candidates on the basis of pre-announced standards. The problem is formalized. The objective function is to minimize the costs for project implementation. The developed model aggregates the source data and constraints into one system and allows operating the initial conditions for their analysis. The authors offer a special algorithm for optimal appointment variants search based on the graph theory, the method of sequential analysis and option screening, as well as implicit enumeration. This algorithm takes into account the requirements for the applications of candidates. It works both in terms of the excistance of enterprises’ maximum and minimum financial constraints, and in their absence. It allows selecting performers for a complex project, which involves the successful completion of many individual projects in its composition. The developed software provides opportunities for creating a list of competitive projects, candidates for their implementation and their applications for certain types of work, taking into account the existing cost, time and probability limits. The algorithm searches all applications that meet the requirements of standards, then it determines the optimal selection among them, taking into account the performers’ possibilities of the acquisition of allocated resources.

Ключевые слова: неявный перебор, теория графов, оптимизация расходов, распределение проектов, тендер, задача о назначениях
Keywords: implicit enumeration, the theory of counts, cost optimization, project distribution, tender, assignment problem
Просмотров: 10164

4. Алгоритмы автоматизированной системы управления испытанием оборудования на надежность [№2 за 2016 год]
Авторы: Русин А.Ю. (alrus@tvcom) - Тверской государственный технический университет (доцент), кандидат технических наук; Абдулхамед М. (alrus@tvcom) - Тверской государственный технический университет (аспирант); Барышев Я.В. (alrus@tvcom) - Тверской государственный технический университет (аспирант);
Аннотация: Повышения экономической эффективности системы испытания оборудования на надежность можно добиться, сократив время испытаний или уменьшив количество испытуемых образцов. При сокращении времени испытаний возрастает степень цензурирования выборки, а при уменьшении количества образцов уменьшается объем выборки наработок оборудования. Сокращать параметры испытаний можно только в случае, если методы обработки информации обеспечивают достоверность рассчитанных показателей надежности. В результате испытаний формируются малые цензурированные выборки наработок оборудования на отказ. Расчет показателей надежности по таким выборкам выполняется методом максимального правдоподобия. В статье представлены экспериментальные исследования точности оценки максимального правдоподобия параметра экспоненциального закона распределения по малым, однократно цензурированным справа выборкам. Исследования выполнялись моделированием на компьютере цензурированных выборок, подобных выборкам, формирующимся при испытаниях оборудования на надежность. Эти экспериментальные данные показывают, что большинство оценок максимального правдоподобия, полученных по малым, однократно цензурированным справа выборкам, имеют значительные отклонения от истинных значений. В работе построены регрессионные модели, устанавливающие зависимость между отклонением оценки максимального правдоподобия от истинного значения и параметрами, характеризующими структуру выборки. Они позволяют рассчитать и ввести поправки к оценкам максимального правдоподобия. Были проведены экспериментальные исследования результатов их использования. Точность оценок максимального правдоподобия после применения разработанных моделей и введения поправки к оценкам максимального правдоподобия значительно возрастает. Разработано ПО для применения регрессионных моделей на практике.

Abstract: Economic efficiency of equipment reliability test system can be improved by running time reduction or decrease in the amount of specimens. When running time reduces, sample trimming rating increases. Decrease in the amount of specimens leads to decrease in the sample number of equipment running. Evaluation test specifications may be reduced only if information processing methods ensure the validity of the calculated reliability characteristics. The result of test operations is forming small censored samples of mean-time-between-equipment failures. Reliability measurement using such samples is made by the maximum likelihood method. The article presents experimental studies of estimating precision of maximum a likelihood parameter of the exponential distribution law on small singly right-censored samples. In their studies the authors used computer simulating of censored samples, which are similar to the samples formed in equipment reliability testing. These experimental data show that the majority of maximum likelihood estimates obtained using small singly right-censored samples have significant deviations from ideal values. The work includes regression models that set a relation between a deviation of maximum likelihood estimate from ideal value and the parameters characterizing the sample structure. They allow calculating and putting amendments to maximum likelihood estimates. The paper also includes experimental studies of its usage results. After applying developed models and putting amendments to maximum likelihood estimates the accuracy of maximum likelihood estimates increases. There also is a developed software to apply regression models in practice.

Ключевые слова: программное обеспечение, метод максимального правдоподобия, цензурированные выборки, надежность, испытания оборудования, обработка информации, компьютерное моделирование
Keywords: the software, maximum likelihood method, censored samples, reliability, equipment test, information processing, computer modeling
Просмотров: 9898

5. Приближенные рассуждения на основе темпоральных нечетких байесовских сетей [№2 за 2016 год]
Авторы: Борисов В.В. (BYG@yandex.ru) - Смоленский филиал Московского энергетического института (технического университета) (профессор), доктор технических наук; Захаров А.С. (auth1989@yandex.ru) - Смоленский филиал Национального исследовательского университета МЭИ (аспирант);
Аннотация: Статья посвящена решению актуальной задачи моделирования приближенных рассуждений в условиях неопределенности. Описана темпоральная нечеткая байесовская сеть, представляющая собой байесовскую сеть доверия, в которой предпосылками причинно-следственных связей являются сложные темпоральные высказывания, а в качестве меры истинности высказываний используется нечеткая вероятностная мера. Темпоральная нечеткая байесовская сеть позволяет как качественно, так и количественно задавать причинно-следственные отношения с учетом темпоральных зависимостей в условиях стохастической и нестохастической неопределенности. Результатом приближенных рассуждений является значение нечеткой вероятностной меры истинности утверждения о нахождении узла сети в одном из его состояний. При этом сам процесс рассуждений реализуется в виде последовательного перехода между моментами времени и осуществления для каждого момента времени вероятностного вывода в темпоральной нечеткой байесовской сети. В ходе вывода для каждого момента времени в случае наличия темпоральных зависимостей используются результаты вывода, полученные на предыдущих шагах. Для моделирования приближенных рассуждений на основе темпоральной нечеткой байесовской сети предложен метод, позволяющий в процессе прямого и обратного вывода определять значения нечеткой вероятностной меры истинности высказываний с учетом сложных темпоральных зависимостей. Предлагаемый метод основан, во-первых, на преобразовании нечеткой байесовской сети со сложными темпоральными высказываниями к виду, содержащему лишь простые темпоральные высказывания; во-вторых, на построении дерева сочленений на основе исходной нечеткой байесовской сети; в-третьих, на вычислении искомого распределения нечетких вероятностей посредством передачи сообщений между узлами дерева сочленений, а также на формировании сети временных ограничений для обеспечения возможности передачи сообщений через неоднородные сепараторы дерева сочленений. Разработаны программные средства, реализующие предложенные модель и метод приближенных рассуждений. Приведены примеры использования разработанных модели и метода для анализа динамики психоэмоционального состояния пациентов.

Abstract: The article considers the problem of approximate reasoning modeling under uncertainty. It describes a temporal fuzzy Bayesian network, which represents a Bayesian belief network, where preconditions of cause-effect relationships are complex temporal expressions; a statement truth measure is a fuzzy probability measure. A temporal fuzzy Bayesian network allows qualitative and quantitative setting of cause-effect relationships, taking into account temporal dependencies under conditions of stochastic and non-stochastic uncertainty. A result of approximate reasoning is a value of fuzzy probabilistic truth measure of a statement about finding a network node in one of its states. Moreover, the reasoning process is implemented as a sequential transition between moments of time and for each time moment implementing probabilistic inference in a temporal fuzzy Bayesian network. During the inference for each time moment when there are temporal dependencies we use reasoning results obtained at previous steps. To model approximate reasoning based on a temporal fuzzy Bayesian network the authors propose a method that allows to determine values of a fuzzy probability truth measure of statements during the forward and backward reasoning considering complex temporal dependencies. The proposed method is based, first, on the transformation of a fuzzy Bayesian network with complex temporal statements into a form containing only simple temporal statements. Second, it is based on the join tree construction according to the source fuzzy Bayesian network. Third, it is based on calculating fuzzy probability distribution by transmitting messages between join tree nodes, as well on a time constraint network to transmit messages through heterogenous join tree separators. The paper describes the developed software tools that implement the proposed model and the method of approximate reasoning. There are examples of using the developed model and method for analysing mental and emotional state of patients.

Ключевые слова: темпоральная нечеткая байесовская сеть, нечеткая вероятностная мера, моделирование приближенных рассуждений
Keywords: temporal fuzzy bayesian network, fuzzy probability measure, approximate reasoning modeling
Просмотров: 6192

6. Гибридная настольно-облачная платформа для исследования пространства параметров [№2 за 2016 год]
Авторы: Прохоров А.А. (alexander.prokhorov@datadvance.net) - Компания «ДАТАДВАНС», г. Москва (начальник отдела); Назаренко А.М. (alexey.nazarenko@datadvance.net) - Компания «ДАТАДВАНС» (старший программист); Пересторонин Н.О. (nikita.perestoronin@datadvance.net) - Компания «ДАТАДВАНС» (старший программист); Давыдов А.В. (andrey.davydov@datadvance.net) - Компания «ДАТАДВАНС» (технический писатель);
Аннотация: В современной инженерной практике подход к выработке решений с использованием расчетных моделей и метамоделей считается наиболее перспективным и выгодным с точки зрения сокращения сроков и стоимости разработки. Однако его применение сопряжено с рядом методологических и эксплуатационных проблем, вследствие чего данная практика не получает широкого распространения, оставаясь недоступной для небольших коллективов, которые часто не располагают необходимыми ресурсами. Для данного метода характерен высокий порог вхождения, обусловленный высокой сложностью и стоимостью реализации расчетных моделей, которая связана с многодисциплинарным характером современных инженерных задач. Разработка таких моделей требует как широкого спектра знаний в различных областях, так и использования различного специализированного ПО, как правило, доступного только на коммерческой основе. Помимо этого, для проведения крупномасштабных автоматизированных вычислений необходимо наличие специального высокопроизводительного программно-аппаратного комплекса, что влечет дополнительные издержки на его создание и обслуживание. В статье рассматриваются основные вопросы применения крупномасштабных автоматизированных вычислений, необходимость в которых возникает при использовании вычислительных методов на этапе выработки инженерных решений в отличие от распространенной в настоящее время практики, когда вычислительное моделирование проводится уже на этапе валидации предполагаемых решений и не требует многократных вычислительных экспериментов. В качестве способов снижения порога вхождения обсуждаемого метода рассматриваются существующая практика создания интегрированных приложений, доступных широкому кругу пользователей, и применение облачных вычислений, что позволяет сократить накладные расходы на моделирование. Отдельное внимание уделено использованию программных средств с поддержкой облачных вычислений совместно с традиционными настольными приложениями. Сформулированы соответствующие требования к системе управления автоматизированными расчетами, поддерживающей интеграцию как с облачным, так и с настольным ПО, что делает возможным создание гибридных интегрированных приложений для решения классов сходных задач. Предложена архитектура такой системы, разработанная с учетом приведенных требований и позволяющая использовать основные компоненты системы как в облачной, так и в настольной версии с целью минимизации усилий по ее разработке.

Abstract: Modern engineering practice shows that simulation driven design is arguably the most promising method to reduce lead time and development costs. However, its application involves a number of methodological and operational difficulties. Thus, it remains limited and in general is not available for smaller companies that lack the required resources. High entry level of this method is the consequence of high complexity and cost of implementing the simulation models required in solving modern multidisciplinary engineering problems. Development of such models requires a high level of expertise in many subject domains, as well as using various specific software products which are usually available on commercial basis only. Moreover, performing large scale simulations leads to additional costs for development and maintenance a high-performance computing system. The paper considers the main issues of performing large scale automated simulations that are required when computational methods are applied at early design stages in order to support a search for new design decisions. On contrary, we have a yet more common practice of using simulation experiments only at the later stage of design validation, which does not require mass calculations. The paper discusses the ways of lowering the entrance level paying attention to the existing practice of developing integrated solutions that are accessible to a wide range of users, as well as to the opportunity of at least partial moving simulation experiments into a cloud, which would allow lowering simulation costs. The authors also consider developing hybrid integrated applications based both on cloud and desktop software. The paper formulates related requirements for the process integration and automation platform that would support both cloud and desktop components in order to allow developing hybrid integrated applications aimed to solve classes of similar tasks. It then proceeds to describe the software architecture developed with regard to these requirements, which allows minimizing resources required for implementation thanks to the fact that its main components can be used both in the cloud and desktop versions.

Ключевые слова: управление расчетами, интеграция, облачные вычисления, автоматизация инженерных расчетов
Keywords: design process management, integration, cloud computing, engineering automation
Просмотров: 8477

7. Препроцессорная обработка множеств прецедентов для построения решающих функций в задачах классификации [№2 за 2016 год]
Авторы: Гданский Н.И. (al-kp@mail.ru) - Московский политехнический университет (профессор), доктор технических наук; Куликова Н.Л. (kulikovanl@mpei.ru) - Национальный исследовательский университет «Московский энергетический институт» (доцент), кандидат технических наук; Крашенинников А.М. (lifehouse@list.ru) - Российский государственный социальный университет (старший преподаватель);
Аннотация: Рассмотрена актуальная проблема наличия ошибок в обучающих выборках, предназначенных для последующего построения по методу прецедентов решающих функций, используемых в задачах классификации новых объектов. Исследованы основные причины возникновения данных ошибок и их влияние на построение классификаторов. На основе геометрической интерпретации задачи классификации предложены методы, позволяющие не только анализировать качество обучающей выборки, но и выявлять возможные причины ошибок, содержащихся в ней, а также выполнять их коррекцию, необходимую для последующего построения эффективного классификатора. Для численного учета общих долей удаляемых и корректируемых выбросов в обучающей выборке предложено использовать соответствующие предельно допустимые пороговые величины. По ним даны рекомендации для основных предметных областей. В алгоритме анализа прецедентов использована специальная мера близости одиночного объекта к произвольному классу, аналогичная методу ближайшего соседа, но с той разницей, что соседство определяется не по одной ближайшей точке, а по нескольким. Сложность предложенных алгоритмов анализа и коррекции обучающих выборок является полиномиальной по числу точек в обучающей выборке: в первом случае квадратичная, во втором линейная. Получаемая в результате коррекции новая обучающая выборка задает более плавные границы классов в пространстве значений признаков. Вследствие этого данные множества точек в большей степени удовлетворяют гипотезе компактности и в результате дают решающие функции с более простой структурой, требующие затем меньше вычислительных операций на решение задачи классификации.

Abstract: The article considers an important problem of errors in learning samples for subsequent construction using the method of solving functions precedents in problems of new objects classification. The paper researches the main causes of these errors and their impact on the construction of classifiers. Based on the geometric interpretation of a classification problem the authors propose methods to not only analyze the quality of a training sample, but also identify possible causes of the errors contained in it, as well as perform their correction required for the subsequent construction of an effective classifier. For numerical accounting of common emission lobes, which must be removed and corrected in a learning sample, the authors propose using the corresponding maximum allowable threshold values. There are some recommendations for the main subject areas. The algorithm of precedent analysis uses a special measure of single object proximity to an arbitrary class. It is similar to the method of the nearest neighbor with the difference that neighborhood is determined by not a nearest point but several points. The complexity of the proposed algorithms for analysis and correction of training sets is polynomial according to the number of points in the the learning sample. In the first case it is quadratic, in the second case it is linear. A new corrected training set sets smoother class boundaries in the space of characteristic values. Consequently, the data set of points to a greater extent satisfy the compactness hypothesis and give decision functions with a simpler structure, which requires less computing operations to solve the problem of classification.

Ключевые слова: коррекция, анализ, ошибочные данные, прецедент, обучающая выборка, решающая функция, классификатор, задача классификации
Keywords: correction, analysis, erroneous data, precedent, learning sample, decision function, classifier, classification problem
Просмотров: 8616

8. Методы автоматического построения онтологий [№2 за 2016 год]
Авторы: Платонов А.В. (avplatonov@corp.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) (аспирант); Полещук Е.А. (eapoleschuk@corp.ifmo.ru) - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) (аспирант);
Аннотация: В статье рассматривается процесс автоматического построения онтологии предметной области по входному набору текстовых документов. В частности, рассматриваются процессы, аналогичные системам Biperpedia, BOEMIE Project и т.п. В работе освещены основные этапы автоматической генерации онтологии, а именно процесс извлечения объектов предметной области, концептов, то есть терминов, объединяющих множество объектов, а также процесс извлечения семантических отношений и правил для онтологии. Для каждого процесса представлены алгоритмы, решающие задачу соответствующего шага генерации онтологии. В рамках процесса извлечения объектов предметной области рассмотрены алгоритмы извлечения именованных сущностей, генерации регулярных выражений на основе генетических алгоритмов. Предложен процесс построения шаблонов извлечения объектов на базе методов поиска частотных цепочек символов по аналогии с поиском частотных шаблонов последовательностей. В статье описаны основные шаги извлечения концептов предметной области и рассмотрены алгоритмы для определения его основных атрибутов. Содержится описание методов извлечения семантических отношений на базе лексико-синтаксических шаблонов. Предложен подход к данной задаче с точки зрения поиска ассоциативных правил по аналогии с алгоритмами поиска частотных шаблонов. Наконец, в работе предложены три метода оценки качества работы всего процесса автоматического построения онтологии: метод на основе золотого стандарта, метод ручной оценки и косвенный метод через оценку качества использующего онтологию ПО. Рассмотрены положительные и отрицательные стороны того или иного метода оценки. Предложен компромиссный подход для оценки качества модели, учитывающий достоинства и недостатки каждого из описанных.

Abstract: The article describes an automatic domain ontology generation process using input text corpora. In particular, it describes the processes similar to Biperpedia, BOEMIE Project systems, etc. This paper includes a description of basic steps of automatic ontology construction, specifically a domain-object extraction process, concept (i.e. terms that combine an object set) extraction process, as well as the process of semantic relations and rules extraction. This paper reviews algorithms for each steps of an ontology construction process. There is a named entity recognition task and regular expression generation based on a genetic programming approach for a domain-object extraction process. The authors propose an idea of using a sequential pattern mining approach for term sequences extraction for an object identification process. The paper contains a description of basic steps of a concept extraction task and a review of a concept attributes extraction task. The article also describes a lexico-syntactic pattern approach for a domain semantic relation extraction process. The authors propose an approach to this task based on association rules mining like in a frequent pattern mining approach. The paper includes three methods of ontology learning evaluation, specifically: a golden sample method, a human evaluation method and an indirect method using client-application evaluation. The paper describes positive and negative aspects of each method and proposes a compromise to estimate the quality of a model.

Ключевые слова: извлечение семантических отношений, извлечение именованных сущностей, онтология
Keywords: semantic relation extraction, named entity recognition, ontology
Просмотров: 11049

9. Метод распределенного анализа свойств верифицируемых моделей [№2 за 2016 год]
Авторы: Шипов А.А. (a-j-a-1@yandex.ru) - Московский технологический университет (МИРЭА) (старший инженер-программист), кандидат технических наук;
Аннотация: Программные системы с каждым днем становятся все более сложными и комплексными, поэтому необходимо наличие таких инструментов, которые позволяли бы относительно легко выполнять проверку их работы на соответствие заданным спецификациям, особенно, когда речь идет о больших и распределенных программных системах. Однако зачастую на пути верификации данного рода систем встает проблема комбинаторного взрыва, из-за которой возникает резкий рост временной сложности во время верификации при относительно невысоком увеличении объема верифицируемых систем. И, как показывает практика, использование только существующих на сегодняшний день методов борьбы с данной проблемой, таких как абстракция, интерпретация и верификация «на лету», зачастую может оказаться недостаточным для ее преодоления. Логика подсказывает, что и процесс выполнения больших распределенных программных систем, и процесс верификации должны осуществляться распределенным образом. В статье подробно рассмотрен и проанализирован предлагаемый автором метод для преодоления проблемы комбинаторного взрыва в дополнение к уже имеющимся методам. Идея его состоит в использовании алгоритма распределенной верификации автоматов Бюхи для логики линейного времени (LTL). Применение данного алгоритма позволяет повысить эффективность и быстродействие всего процесса верификации за счет разделения вычислительной нагрузки на заданное количество вычислительных узлов. Несмотря на то, что идея разделения вычислительной нагрузки не является инновационной и подобные средства уже присутствуют в таком инструменте формальной верификации методом проверки на моделях, как Spin, предложенный алгоритм демонстрирует на практике более высокую эффективность работы, чем в Spin, что подкрепляется рядом наглядных примеров.

Abstract: Due to every day complexity and complication growth of software systems, we need some useful tools to check matching their specifications, especially for large distributed software systems. However, verification of this kind of systems is often followed by the “combinatorial explosion” problem, which causes a sharp growth of temporal complexity during verification at rather low volume increase of verifiable systems. Nowadays there are some methods to overcome this problem, such as abstraction, interpretation and verification “on the fly”. Nevertheless, practically, the usage of only existing methods can be often not enough to solve this problem. The logic prompts that we should carry out the process of executing large distributed software systems, as well as a verification process in a distributed way. The article offers and analyses a method for overcoming the problem of “combinatorial explosion”. It can be used as additional for already existing methods. The idea of the method consists in using the algorithm of Buchi automata distributed verification for linear temporal logic (LTL). This algorithm can help to increase efficiency and speed of the verification process due to division of computations between the number of computing knots. Despite the fact that the idea of distributed computations is not innovative and similar tools are already presented in a model checking tool Spin, the theoretical material of the article is supported by the set of examples which shows on practice that the proposed algorithm is more efficient than one presented in Spin.

Ключевые слова: ctl, ltl, формула временной логики, автомат бюхи, spin, верификация
Keywords: ctl, ltl, temporal logic formula, Buchi automaton, spin, verification
Просмотров: 9680

10. Системный анализ и принятие решений о реинжиниринге корпоративных информационно-управляющих систем [№2 за 2016 год]
Авторы: Шильникова О.В. (tmo@mite.ru) - Смоленский филиал Национального исследовательского университета МЭИ (старший преподаватель), Аспирант ;
Аннотация: Cтатья посвящена эволюции информационно-управляющих систем. В начале жизненного цикла этих систем моделирование процесса поддержки их работоспособности осуществляется с целью оптимизации использования состава ресурсов, необходимых на первом этапе. Модель учитывает, что параметры системы постепенно дрейфуют и уходят достаточно далеко от оптимальных значений, а фазовая траектория эволюции системы «притягивается» к стабильной, но неоптимальной точке. В итоге это свидетельствует о том, что, возможно, выполняются необходимые условия достижения точки бифуркации. Приведение системы к более эффективному состоянию, не прерывая ее жизненного цикла, требует некоторых специальных решений, одним из которых является выпуск следующей версии системы. Качественный и количественный анализ функциональных параметров, эксплуатационных свойств и живучести распределенной многоуровневой информационно-управляющей системы выполняется с помощью компьютерных средств моделирования, в том числе имитационного. Модели учитывают неоднородность и изменчивость структуры, пропускную способность каналов связи и свойства распределенной БД. В последнее время актуальными становятся исследования свойств эволюционирующих информационных систем в управлении корпорациями. При наличии в корпорациях научно-исследовательских IT-подразделений одними из их новых важнейших функций могут стать собственные системно-аналитические исследования и постановки задач системного анализа корпоративных информационно-управляющих систем для университетов.

Abstract: Qualitative and quantitative analysis of functional parameters, performance properties and survivability in a distributed multi-level information management system is performed using computer modeling tools including simulation. The models take into account heterogeneity and variability of structures, network bandwidth and distributed database features. In recent years investigation of the evolving information system properties in corporation management has become topical. This article considers the evolution of information management systems (IMS). Modeling of support IMS performance process is carried out with using an optimal composition of the resources required at the first stage. The model takes into account the fact that system parameters gradually drift far enough away from the optimum and the phase trajectory is “attracted” to the stable but non-optimal point in the evolution. As a result, we can see that necessary features to achieve the bifurcation point are performed. The article proves the validity of the hypothesis about the need to release a new version of MIS. Bringing the system to even more efficient state without interrupting the life cycle requires some special solutions. One of them is a release of the next IMS version. Scientific research and consulting units in corporations can carry out systematic analytical study of IMS on their own, or set targets for outside organizations (universities or research institutes).

Ключевые слова: странный аттрактор, жизненный цикл, cинергия, холдинг, эволюция, эмерджентность, вложенные цепи маркова, имитационная модель, точка бифуркации, аттрактор, информационно-управляющая система
Keywords: strange attractor, life cycle, synergy, corporation, evolution, emergence, embedded markov chain, simulation model, bifurcation point, attractor, information-control system
Просмотров: 9336

| 1 | 2 | 3 | Следующая → ►