Журнал "Программные продукты и системы" - научные статьи в области информационных технологий

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№4

Ожидается:

09 Декабря 2024

Выпуски

2024

2023

№4 2023

все выпуски

все статьи

Подписаться на RSS

Статьи журнала №4 2014

11. Двухслойный векторный персептрон для решения задачи распознавания бинарных образов [№4 за 2014 год]
Авторы: Крыжановский В.М. (vladimir.krizhanovsky@gmail.com) - Центр оптико-нейронных технологий НИИСИ РАН (зав. сектором), кандидат физико-математических наук; Мальсагов М.Ю. (magomed.malsagov@gmail.com) - Центр оптико-нейронных технологий НИИСИ РАН, кандидат физико-математических наук; Желавская И.С. (irina.zhelavskaya@skolkovotech.ru) - Сколковский институт науки и технологий (студентка);
Аннотация: Для решения задачи поиска ближайшего соседа в конфигурационном пространстве предложена новая модель нейронной сети – двухслойный векторный персептрон (Double-Layer Vector Perceptron, сокращенно DLVP). Она позволила решить проблему однослойного персептрона, заключающуюся в том, что ошибка даже одного выходного нейрона приводит к ошибочному распознаванию сети в целом. Предложенная модель является развитием однослойного векторного персептрона: добавлен дополнительный слой, аккумулирующий информацию. В результате стало возможным корректное распознавание даже в том случае, когда все нейроны внутреннего слоя ошибаются, то есть строить нейронные сети на «слабых» нейронах. Было проведено сравнение данной модели с однослойным персептроном. Разработанная модель значительно превосходит однослойный векторный персептрон в качестве распознавания (понижение ошибки распознавания на четыре порядка и более) ценой незначительного увеличения вычисли-тельной сложности (на 5 %) и требований оперативной памяти. Был проведен анализ свойств и получена теоретическая оценка емкости памяти предложенной модели. В ходе анализа выяснилось, что эта модель обладает еще одним полезным свойством, которого нет у однослойной модели, а именно: с ее помощью можно решать задачу поиска k ближайших соседей.

Abstract: A new model of neural network, Double-Layer Vector Perceptron (DLVP), to solve nearest neighbor search problem, is proposed. The problem of single-layer perceptron, when error of the even one output neuron leads to fail of all network, is solved. DLVP is improved single-layer perceptron with additional layer, which accumulates information. As result, it is possible to right recognize even if all middle layer neurons are fail, i.e. neural networks with ‘weak’ neurons can be built. The model was compared with a single-layer vector perceptron. This comparison showed that though its operation requires slightly more computations (by 5 %) and more effective computer memory, double-layer vector perceptron excels at a much lower error rate (four orders of magnitude lower). We obtained the estimate of DLVP storage capacity and analyzed its properties. During this analysis we found out that the model has one more useful property, which single -layer vector perceptron does not have, i.e. using the proposed model we can effectively solve k nearest neighbors search problem.

Ключевые слова: нейронные сети, векторные нейронные сети, модель поттс, распознавание бинарных образов
Keywords: neural network, vector neural networks, potts model, binary pattern recognition
Просмотров: 15596

12. Методика и программный комплекс для динамического поиска уязвимостей в бинарном коде [№4 за 2014 год]
Авторы: Шудрак М.О. (mxmssh@gmail.com) - Сибирский государственный аэрокосмический университет им. М.Ф. Решетнева, г. Красноярск (аспирант );
Аннотация: В работе дается описание оригинальной методики для динамического анализа уязвимостей в бинарном коде, которая позволяет проводить тестирование различных приложений, взаимодействующих в сети. Уязвимые сетевые программные продукты представляют огромную угрозу для безопасности различных информационных систем. Уязвимости в web-браузерах или в серверном программном обеспечении могут иметь серьезные последствия. Отличный пример – критическая уязвимость «HeartBleed», обнаруженная в реализации TLS OpenSSL и позволяющая злоумышленнику удаленно и без авторизации получать критическую информацию, в том числе закрытые ключи пользователей на уязвимом сервере. Для решения описанной проблемы используется сочетание технологий динамической бинарной инструментации, анализа покрытия кода и так называемого фаззинга – технологии генерации потенциально ошибочных данных и мо-ниторинга результата. Подход позволяет проводить итеративный анализ для заданного сетевого приложения в тестовой среде с использованием средств виртуализации. Для повышения качества тестирования в работе представлен новый подход к эффективному анализу каждой тестовой итерации с использованием анализа покрытия кода, оценки сложности участка выполненного кода с их после-дующей визуализацией. Описывается реализация методики в виде единого программного комплекса, позволяющего проводить поиск уязвимостей в сетевых и файловых приложениях со значительным уровнем производительности и автоматизации тестирования. Помимо этого, приводится экспериментальная оценка эффективности предложенного решения на 17 тестовых приложениях для различных операционных систем. В результате экспериментов были найдены две ранее неизвестные уязвимости в нескольких популярных приложениях, что подтверждает эффективность использования методики и программного комплекса для решения задачи поиска уязвимостей в бинарном коде.

Abstract: The article introduces an original technique for binary executables security analysis that allows analyzing ne t-work applications security using fuzz testing which is effective for software bugs detection. Vulnerable network applications are a tremendous threat to network communications security. Vulnerabilities in web browsers and server software can cause a disastrous effect. A good example of it is HeartBleed critical vulnerability in OpenSSL TLS implementation that allows an unauthenticated remote attacker to retrieve critical data from a connected client or server. The technique uses a combination of dynamic binary instrumentation, code coverage analysis, potential erroneous data generation and results analysis. The author also presents a new way to assess effectiveness of each test iteration using code coverage visualization. In the second part the author describes a technique implementation as a software framework that al-lows detecting vulnerabilities in network and file – based applications with high-level of visualization and testing automatiza-tion. In addition, the author conducted a large-scale experimental evaluation of the system on 17 different network applications for different operation systems. The results of the experiment confirmed that system suit s well for vulnerability detection in modern applications. Moreover, the experiments helped detect several previously unknown vulnerabilities in the popular and wide-spread applications.

Ключевые слова: поиск уязвимостей, динамический анализ, бинарная инструментация, покрытие кода, фаззинг
Keywords: vulnerabilities detection, dynamic analysis, dynamic binary instrumentation, code coverage, fuzzing
Просмотров: 8724

13. Исследование возможностей аппаратного модуля на базе программируемых логических интегральных схем для задач нагрузочного тестирования [№4 за 2014 год]
Автор: Бородин А.А. (AntonioBorodin@gmail.com) - Московский государственный университет леса (ассистент);
Аннотация: Обеспечение качественного и надежного функционирования информационных систем является исключительно важной задачей. В настоящее время ее решение во многом обеспечивается нагрузочным тестированием, а постоянное развитие данных систем требует повышения его эффективности. Нагрузочное тестирование является сложным и многоплановым процессом, состоящим из множества шагов. Анализ теории и практики показал, что вопросам запуска теста исследователи уделяют недостаточное внимание. Эффективность данной стадии зависит от качества реализации программы нагрузчика и характеристик используемого компьютера. На практике для создания требуемой нагрузки ресурсов одного компьютера не хватает, поэтому существуют методы создания нагрузки на основе распределенных вычислений, которые имеют свои недостатки. Эти методы представлены облачными и кластерными вычислениями, а также объединением совокупности компьютеров посредством локальной сети. В данной статье приведены результаты экспериментов по измерению характеристик аппаратного нагрузчика, который был построен автором на базе программируемых логических интегральных схем с целью повышения эффективности стадии создания нагрузки. Это устройство обеспечивает проведение нагрузочного тестирования без применения дополнительных компьютерных узлов. В рамках данных экспериментов были определены предельные нагрузочные способности созданного прототипа аппаратного нагрузчика. Проведено сравнение полученных результатов с характеристиками существующих компьютерных систем.

Abstract: Quality and reliability assurance of information system is an important task. Nowadays it is mostly solved using load testing. Constant progress of information technologies requires increasing testing efficiency. Load testing is a complicated process that includes many stages. Theory and practice analysis showed that researcher’s attention to test launching is not enough. Efficiency of this stage depends on loader program performance quality and computer characteristics. Practically, resources of a single computer are not enough to produce the required amount of load. That is why there are load -creating methods based on distributed computing which have disadvantages. These methods include cloud and cluster computing as well as a group of computers connected together using local network. This paper presents experimental results of hardware loader characteristics measuring, created by the author based on FPGA to increase load creation stage efficiency. This device allows load testing process without using additional computers. During experiments, maximum load capability of a created prototype has been determined. The results were compared with characteristics of existing computer systems.

Ключевые слова: нагрузочное тестирование, плис, аппаратный нагрузчик, запуск тестов, создание нагрузки
Keywords: load testing, FPGA, hardware loader, test launching, load creation
Просмотров: 8996

14. «Кафедра онлайн»: облачные технологии в высшем образовании [№4 за 2014 год]
Авторы: Тельнов В.П. () - Обнинский институт атомной энергетики НИЯУ МИФИ (доцент), кандидат технических наук; Мышев А.В. (mishev@iate.obninsk.ru) - Обнинский институт атомной энергетики НИЯУ МИФИ, кандидат физико-математических наук;
Аннотация: Обеспечение масштабируемости компьютерных сетей и программного обеспечения – одна из насущных проблем отечественных университетов. В условиях быстрого роста сетевого трафика ИТ-специалисты университетов вынуждены тратить все больше времени и средств на обеспечение пропускной способности каналов связи. В то же время ИТ-бюджеты университетов зачастую отстают от необходимых темпов роста. Учебным заведениям требуются экономичные, надежные и технологичные способы удовлетворения растущих информационных потребностей при одновременном контроле расходов. Созданный программный продукт «Кафедра онлайн» базируется на концепции облачных вычислений, в максимальной степени использует общедоступные технологические решения и ресурсы, при этом по мере возможности не зависит от конкретных провайдеров услуг и лицензионного программного обеспечения. Продукт ориентирован на высшие учебные заведения, имеющие бюджетные ограничения в части приобретения и поддержки собственной компьютерной инфраструктуры, сетевого оборудования и программного обеспечения. Для бюджетных образовательных учреждений РФ программное обеспечение «Кафедра онлайн» доступно на безвозмездной основе. В данной статье рассмотрены важнейшие характеристики облачных вычислений, дан краткий аналитический обзор существующих готовых решений для высшей школы. Сформулированы требования к программному обеспечению «Кафедра онлайн», представлены основные компоненты программного продукта, даны ключевые архитектурные, технологические и проектные решения в нотации UML-диаграмм, показаны результаты тестирования программного обеспечения и образцы пользовательского интерфейса.

Abstract: Ensuring computer networks and software scalability is one of the urgent problems for modern higher education. In the context of network traffic rapid growth IT-specialists have to spend more and more time and resources for ensuring bandwidth. At the same time, universities IT-budgets often lag behind the rate of growth. Universities need cost-effective, reliable and technological ways to meet the growing information needs while controlling costs. Created software product “Online chair” is based on the “cloud computing” concept, takes full advantage of high-tech solutions and public resources, with possible independence on specific service providers and licensed software. The product is aimed at the higher education institutions with budgetary constraints in terms of the acquisition and support their own computing infrastructure, network equipment and software. For budget universities of the Russian Federation software “Online chair” is available at no cost. The article considers the main characteristics of cloud computing, a brief analytical review of existing solutions for a higher school. In the main part the article formulates requirements to “Online chair” software, presents the main components of the software product, key architectural, technological and design solutions in the notation of UML diagrams, shows the results of testing the software and sample of user interface.

Ключевые слова: информационные технологии, облачные вычисления, высшее образование, удаленные хранилища данных
Keywords: information technologies, cloud computing, higher education, remote data storage
Просмотров: 15353

15. Разработка прототипа информационно-технологического процесса обработки информации с учетом его стоимости [№4 за 2014 год]
Автор: Скрипачев В.О. (skripatchevv@inbox.ru) - Российская корпорация ракетно-космического приборостроения и информационных систем (зам. начальника отдела); Чулкин М.О. (m.chulkin@yandex.ru) - Российская корпорация ракетно-космического приборостроения и информационных систем «Российские космические системы» (ведущий специалист);
Аннотация: При функционировании сложных информационно-технических систем часто приходится сталкиваться с необходимостью обработки разнородной информации. Для обработки отдельных видов используемой информации имеет смысл ввести понятие информационно-технологического процесса. При реализации конкретных информационно-технологических процессов обработки информации используются механизмы объектно-ориентированного программирования: инкапсуляция, наследование и полиморфизм. При реализации программной части информационно-технологического процесса необходимо создать прототип ПО – предварительное воплощение предлагаемого нового программного продукта. Основная цель создания прототипа – устранение неясностей на ранних стадиях процесса разработки. Для разработки прототипа целесообразно использовать модель параллельной разработки ПО. Кроме то-го, создание прототипа позволяет оценить затраты на создание ПО и принять соответствующее управленческое решение. Для оценки затрат применена алгоритмическая модель оценки стоимости разработки ПО – COnstructive COst MOdel (COCOMO). В статье рассмотрены особенности применения COCOMO, а также прототип ПО информационно-технологического процесса с использованием базового уровня, позволяющего оценить трудоемкость и стоимость разработки ПО как функции от размера программы, при этом размер выражается в оценочных тысячах строк программного кода. Для обозначения объема программных строк используется единица KLOC – kilo lines of code.

Abstract: There is a need to process heterogeneous information in complex information technology systems operating. It is useful to introduce the concept of information-technological process (ITP) for processing certain types of information. The object-oriented programming mechanisms are used when implementing specific ITP for information processing. They are encapsulation, inheritance, and polymorphism. When implementing the ITP software part it is reasonable to create a software prototype – a preliminary implementation of the proposed new software product. The main purpose of the prototype creating is elimination of ambiguities on the early stages of the development process. To develop a prototype it is better to use a parallel software development model. In addition, a prototype creation allows estimating the software creating costs and taking management decisions. The authors applied an algorithmic model of the software development estimation – a COnstructive COst MOdel (COCOMO). The article considers the features of the COCOMO application and the ITP software prototype using baseline for assessing labor intensity and costs of software development as a function of the program size. The size is expressed in thousands of estimating code lines. KLOC is used (kilo lines of code) to indicate the scope of program lines.

Ключевые слова: программный продукт, прототип, процесс, модель, проект, объектно-ориентированное программирование, информация, обработка данных, стоимость
Keywords: software product, prototype, process, mathematical model, project, object(oriented programming, information, data processing, costs
Просмотров: 13501

16. Web-сервис для автоматизированного формирования продукционных баз знаний на основе концептуальных моделей [№4 за 2014 год]
Авторы: Юрин А.Ю. (iskander@irk.ru) - Институт динамики систем и теории управления СО РАН, г. Иркутск (доцент, зав. лабораторией), кандидат технических наук; Дородных Н.О. (tualatin32@mail.ru) - Институт динамики систем и теории управления СО РАН (младший научный сотрудник), кандидат технических наук;
Аннотация: В данной статье описан web-сервис для автоматизированного формирования баз знаний продукционного типа на основе результатов концептуального моделирования. Сервис обеспечивает автоматизированный анализ XML-структуры файлов CASE-средства Rational Rose (содержащих описание моделей классов) и системы когнитивного моделирования FreeMind, выделение понятий и отношений, их представление в виде понятий онтологии. На основе сформированной онтологической модели могут быть осуществлены автоматизированное создание продукций и их визуальное моделирование с использованием нотации RVML – Rule Visual Modeling Language. Полученные модели продукций используются для генерации программного кода в формате CLIPS (C Language Production System). В статье описываются функции сервиса, его архитектура и алгоритмы формирования моделей онтологии и продукций, приводятся примеры соответствия элементов концептуальной, продукционной моделей и конструкций CLIPS. Web-сервис может быть рассмотрен как один из модулей системы управления базами знаний, областью применения которого является решение задач извлечения, структурирования и формализации знаний в различных предметных областях. Апробация и тестирование сервиса осуществлены при создании баз знаний продукционных экспертных систем для исследования и обеспечения техногенной безопасности труднодоступных водных объектов.

Abstract: The paper describes a web-service for automated creation of the rule-type knowledge bases based on conceptual models. The service provides an automated analysis of the XML structure of IBM Rational Rose files (that contain description of class models) and FreeMind with subsequent selection of concepts and relations. Selected concepts and relations are represented as ontology. In turn the ontological model can be used for automated generation of rule bases and their visual modeling using RVML (Rule Visual Modeling Language) notation. Obtained models are used for generation of CLIPS codes (C Language Production System). The article presents descriptions of web-service functions, the architecture, algorithms for analysis of conceptual models, and tables for models transformation support. The web-service can be considered as one of the modules of the knowledge management system. This module is designed for retrieval, structuring and formalization of knowledge in different problem domains. The approbation and testing of the web-service are carried out in development of knowledge bases of rule-based expert systems for investigation the technogenic safety of hard-to-reach water objects.

Ключевые слова: генерация кода, clips, uml, web-сервис, автоматизация, формализация знаний, база знаний
Keywords: code generation, CLIPS, uml, web service, automation, knowledge formalization, knowledge base
Просмотров: 15351

17. Комплекс программ для индуктивного формирования баз медицинских знаний [№4 за 2014 год]
Авторы: Смагин С.В. (sergey.v.smagin@gmail.com) - Институт автоматики и процессов управления ДВО РАН, кандидат технических наук;
Аннотация: В статье представлено описание комплекса программ InForMedKB (Inductive Formation of Medical Knowledge Bases), позволяющего создавать обучающие выборки (состоящие из историй болезни различных разделов медицины) и на их основе (в форме, принятой в медицинской литературе) индуктивно формировать базы медицинских знаний, содержащие описания заболеваний, а также объяснение этих баз знаний. В разработанном комплексе реализован алгоритм обучения (решающий задачи классификации и кластеризации в их новых постановках, представленных как частный случай задачи оценки значений параметров модели зависимости, которая обусловливает качество разработанного для нее алгоритма обучения) для практически полезной и хорошо интерпретируемой математической модели зависимости с параметрами, являющейся онтологией медицинской диагностики, приближенной к реальной (заданной системой логических соотношений с параметрами). Этот алгоритм по обучающей выборке находит значения параметров (базу медицинских знаний) указанной модели, близкие к значениям, характеризующим предметную область медицинской диагностики. При помощи данного комплекса на основе обучающей выборки реальных данных, содержащей истории болезни из раздела медицины «острый живот», индуктивно сформирована база медицинских знаний, обладающая высоким уровнем интерпретируемости для практикующего врача. Входящие в полученную базу знаний описания заболеваний, по оценке эксперта, соответствуют знаниям, имеющимся в научной и учебной медицинской литературе, а в ряде случаев дополняют их описанием динамики клинических проявлений. Формальное представление баз медицинских знаний, получаемых при помощи разработанного комплекса, позволяет использовать их в экспертных системах медицинской диагностики.

Abstract: The article provides the description of InForMedKB (Inductive Formation of Medical Knowledge Bases) software package.It allows creating training sets (consisting of clinical histories from various branches of medicine) and forming medical knowledge bases inductivly. These knowledge bases are presented in the form accepted in the medical literature and contain descriptions of diseases (from specified branches of medicine), as well as explanations of these knowledge bases. The developed software package implements training algorithm which solves classification and clustering problems in their new definitions w hich are presented as a special case for problem of estimating the parameters of a reliability model that affects the quality of the training algorithm. This learning algorithm is developed for the useful and easily interpretable mathematical reliability model with parameters. It is a near real-life ontology of medical diagnostics (defined by a system of logical relationships with parameters). Presented algorithm finds parameter values for given model (medical knowledge base), which are close to the values that characterize the object domain of medical diagnostics. Using this software package and real data training set (containing clinical histories from "Acute abdomen" branch of medicine), a medical knowledge base is inductively formed. It has a high level of interpretability for a practicing physician. Descriptions of diseases included in the inductively formed knowledge base (expert evaluation) correspond to knowledge from scientific and academic medical literature. And sometimes they add descriptions of clinical implications dynamics. The formal representation of medical knowledge bases obtained using the software package allows using them in medical diagnostics expert systems.

Ключевые слова: интеллектуальный анализ данных, машинное обучение, индуктивное формирование баз знаний, онтология медицинской диагностики, модель зависимости с параметрами, алгоритм обучения
Keywords: data intelligent analysis, machine learning, inductive formation of knowledge bases, medical diagnostics ontology, reliability model with parameters, learning algorithm
Просмотров: 10132

18. Adaptive fuzzy systems on FOREL class taxonomy [№4 за 2014 год]
Авторы: Щекин В.П. (shchokin@rambler.ru) - Криворожский национальный университет (профессор), доктор технических наук; Черный С.Г. (sergiiblack@gmail.com) - Керченский государственный морской технологический университет (доцент), кандидат технических наук; Бордюг А.С. (sergiiblack@gmail.com) - Керченский государственный морской технологический университет (студент );
Abstract: The article presents the results of developing a method of neuro-fuzzy self-organization structures in intelligent proc-ess control systems. The proposed modification of the basic algorithm can improve the control performance index of intelligent automated control systems at a reduced volume of calculations and corresponding increase in system performance. In classical train-ing rule fuzzy neural networks analyze the number of production rules, membership functions type, fuzzy inference algorithm type, etc. In the case of incorrect choice of these parameters fuzzy neural networks can be ineffective in the automation field. Th e devel-oped algorithm operation is based on the theory of sampling frequency and training frequency distribution. In the theory of control systems with discrete time it is determined that the sampling time T is usually selected according to the following rule of t humb: the value must exceed the maximum frequency of the system. In traditional adaptive control systems parameters are adjusted once e very sampling period, thus the sampling rate and update rate are not separated. We propose an expert method determining the concentra-tion coefficient of membership functions and sampling limits for further adjustments to the base of adaptive -established rules in or-der to reduce the algorithm running time and improve its efficiency when performing parametric synthesis of asymptotically stable intelligent control systems. According to the developed technique it is possible to compare the membership function parameter s which have been obtained as a result of the work of the modified adaptive algorithm of the Wang-Mendel fuzzy network, and the doubling parameters obtained from statistical processing of information systems solutions of the dynamic object state identif ication. We developed a systems operation algorithm taking into account the developed method of self-organization of neuro-fuzzy struc-tures based on the FOREL class taxonomy algorithm.

Аннотация: Представлены результаты разработки метода нейронечетких структур самоорганизации для интеллектуальных систем управления технологическими процессами. Предлагаемая модификация основного алгоритма может улучшить индекс производительности контроля за интеллектуальными автоматизированными системами управления за счет снижения минимизации расчетов и соответственно увеличение производительности системы. Согласно классическому правилу обучения, нечеткие нейронные сети анализируют правила развития сети, тип функций принадлежности, нечеткого вывода типа алгоритма и т.д., в случае неправильного выбора этих параметров нечетких нейронных сетей процесс может быть неэффективным. Эксплуатация разработанного алгоритма основана на теории частотой дискретизации и распределения обучения квантования. В теории систем управления с дискретным временем определен такт выборки Т, что обусловлено правилом: величина должна превышать максимальную частоту системы. В традиционных адаптивных системах управления параметры регулируются тактом дискретизации, а частота дискретизации и скорость обновления не разделены. Для уменьшения времени работы алгоритма при выполнении параметрического синтеза асимптотически устойчивых интеллектуальных систем управления применены идентифицирующий метод коэффициента концентрации функций принадлежности и границы корректирующих выборок в базе адаптивных правил. Согласно разработанной методике, можно сравнить параметры функции принадлежности, которые были получены в результате работы модифицированного адаптивного алгоритма нечеткой сети Ван–Менделя, и параметры, полученные на основе статистической обработки информационных систем решений идентификации динамического состояния объекта. Использован алгоритм с учетом разработанного метода самоорганизации нейронечетких структур на основе алгоритма FOREL, элемент класса таксономии.

Keywords: mathematical expression, programming, fuzzy logic, algorithm, modeling
Ключевые слова: математическое выражение, программирование, нечеткая логика, алгоритм, моделирование
Просмотров: 12883

19. Реализация генетического алгоритма для эффективного документального тематического поиска [№4 за 2014 год]
Авторы: Иванов В.К. (mtivk@mail.ru) - Тверской государственный технический университет, кандидат технических наук; Мескин П.И. (pavel.meskin@gmail.com) - Центр научно-образовательных электронных ресурсов Тверского государственного технического университета (ведущий программист);
Аннотация: Качество документального тематического поиска, то есть поиска документов, содержащих координированную информацию в заданном тематическом сегменте, не всегда удовлетворительно. Несмотря на наличие мощных поисковых систем для информационных ресурсов Интернета или для специализированных БД, процесс поиска остается трудоемким и слабо поддерживается программно и методологически. В настоящей статье описывается программная реализация генетического алгоритма для выявления и отбора наиболее релевантных результатов, полученных в ходе последовательно выполняемых операций тематического поиска. При этом моделируется эволюционный процесс, который формирует устойчивую и эффективную популяцию поисковых запросов, образует поисковый образ документов или семантическое ядро, создает релевантные множества искомых документов, позволяет автоматически классифицировать результаты поиска. Обсуждаются особенности тематического поиска, обосновывается применение генетического алгоритма, описываются аргументы целевой функции, рассматриваются основные шаги и параметры алгоритма. Отмечается, что целевая функция, или критерий качества поиска, определяется позицией документа в списках результатов, построенных поисковой системой при выполнении максимального числа различных запросов, и семантической близостью к поисковому образу документов заданной тематики. Достаточно подробно описана программная реализация: основные объектные модели, пользовательский интерфейс, основная библиотека алгоритма, модули морфологического анализа, семантического анализа сходства текстов, поиска, управления БД, управления метаданными. Приводятся сведения о составе классов модулей и их компонентов. В заключение отмечается, что реализованный генетический алгоритм является одним из элементов ПО разрабатываемой интеллектуальной системы информационной поддержки инноваций в науке и образовании. Он играет важную роль в обеспечении адаптивности функционирования поисковых механизмов, а разработанное ПО алгоритма создает достаточно широкий базис для дальнейших исследований и разработок.

Abstract: The quality of documentary subject search or search for documents containing specifically coordinated information on a target subject is not always satisfactory. Despite the availability of powerful search engines for the Inter net information resources or special databases, the process remains time-consuming and poorly supported by software and methodologically. This paper describes the software implementation of a genetic algorithm for identifying and selecting most relevant results received during sequentially executed subject search operations. Simulated evolutionary process generates sustain able and effective population of search queries, forms search pattern of documents or semantic core, creates relevant sets of required documents, allows automatic classification of search results. The paper discusses the features of subject search, justifies the use of a genetic algorithm, describes arguments of the fitness function and describes basic steps and parameters of the algorithm. It also notes that the objective function or quality criteria is determined by the document position in search results built by the search engine for maximum number of different queries and semantic similarity of documents search pattern on a given subject. Software implementation is described in detail: general object models, user interface, the algorithm main library, morphological analysis modules, texts similarity analysis modules, search modules, database management modules, metadata management modules. The information on module classes composition and components is provided. The paper describes genetic algorithm software implementation that is one of the elements of Intelligent Distributed Information Management System for Innovations in Science and Education powered by the Russian Foundation of Basic Research. The algorithm plays an important role in functioning of the adaptive search engines. It is noted that developed algorithm software creates a sufficiently broad basis for further research and development.

Ключевые слова: генетический алгоритм, тематический поиск, скрещивание, релевантность, реализация по, ранжирование, приспособленность, популяция, поисковый запрос, мутация, объектная модель, документ, фильтрация
Keywords: generic algorithm, subject search, crossing over, relevancy, software implementation, rankings, adaptability, population, search query, mutation, object model, document, filtering
Просмотров: 15540

20. Система автоматического извлечения информативных признаков для распознавания эмоций человека в речевой коммуникации [№4 за 2014 год]
Авторы: Брестер K.Ю. (christina.bre@yandex.ru) - Сибирский государственный аэрокосмический университет им. академика М.Ф. Решетнева (младший научный сотрудник); Семенкин Е.С. (styugin@rambler.ru) - Сибирский государственный аэрокосмический университет им. академика М.Ф. Решетнева; Сидоров М.Ю. (maxim.sidorov@uni-ulm.de) - Ульмский университет, аллея им. Альберта Эйнштейна (научный сотрудник);
Аннотация: В процессе человеко-машинной коммуникации возникает ряд задач, связанных с обработкой голосовых сигналов. Помимо распознавания речи говорящего, актуальными остаются идентификация личности, пола, возраста пользователя диалоговой системы, а также его эмоционального состояния. При этом число акустических характеристик, которые могут быть извлечены в ходе анализа звуковой записи, достигает сотен или даже тысяч: атрибуты могут коррелировать друг с другом, содержать зашумленные данные или иметь низкий уровень вариации, что снижает точность работы привлекаемых классификаторов. Поэтому важной задачей является автоматический отбор информативных признаков, используемых алгоритмами распознавания. В рамках данной статьи рассматриваются два подхода, основанные на использовании адаптивного многокритериального генетического алгоритма, настройка пара-метров которого осуществляется автоматически в ходе решения задачи. Выбор данной эвристической процедуры для оптимизации критериев качества обусловлен простотой кодирования информативной подсистемы признаков, а также возможностью оптимизации как дискретных, так и непрерывных критериев. Вероятностная нейронная сеть используется в качестве классификационной модели. Исследование эффективности разрабатываемых подходов проводилось на множестве задач распознавания эмоций человека: БД содержали голосовые записи на английском и немецком языках. В ходе тестирования было установлено, что на указанном множестве задач применение описанной процедуры извлечения информативных признаков приводит к повышению точности результатов (относительное улучшение до 22,7 %), получаемых вероятностной нейронной сетью. Кроме того, становится возможным существенное снижение размерности вектора признаков, описывающих голосовой сигнал (в ряде случаев в среднем с 384 до 64,8 атрибута). Предложенные схемы демонстрируют высокую эффективность по сравнению с методом главных компонент. Описываемые процедуры могут быть применены для идентификации личности говорящего, распознавания его пола, возраста и других персональных характеристик, что также является предпосылкой их использования в качестве алгоритмического ядра интеллектуальных модулей диалоговых систем.

Abstract: During the human-machine communication a number of problems related to voice processing should be solved. In addition to the speech recognition problem, there are several important issues such as a speaker, gender or age identification and speech-based emotion recognition. The amount of acoustic characteristics extracted from the signal is tremendously high (hundreds or even thousands): features may correlate with each other, contain noisy data or have low variation level that decrease the accuracy of involved classifiers. Therefore it is vitally important to select informative features automatically during the recognition process. This paper considers two feature selection techniques. Both of them are based on using the self-adaptive multi-objective genetic algorithm that is adjusted while the problem is being solved. The main advantages of this heuristic optimization procedure are the simplicity of coding the informative feature subsystem and the opportunity to optimize both discrete and continuous criteria. The probabilistic neural network is used as a classifier. Effectiveness investigation of the developed approaches was conducted on the set of emotion recognition problems: data bases contained speech signals in English and German languages. During the experiments it was revealed that application of the described feature selection procedures might lead to increasing of the classification accuracy (relative improvement was by up to 22,7 %). Moreover, it became possible to reduce the dimension of the feature vector significantly (from 384 to 64,8 attributes at the average). The proposed schemes demonstrate higher effectiveness compared with Principal Component Analysis. The described methods might be applied for solving the speaker identification problem, recognizing speaker’s gender, age or other personal characteristics that also implies the opportunity to use them as the algorithmic core in the intellectual modules of dialogue systems.

Ключевые слова: распознавание эмоций по речи, извлечение информативных признаков, многокритериальный генетический алгоритм, самоадаптация
Keywords: speech-based emotion recognition, feature selection, multi-objective genetic algorithm, self-adaptation
Просмотров: 8894

◄ ← Предыдущая | 1 | 2 | 3 | 4 | 5 | Следующая → ►