Журнал "Программные продукты и системы" - научные статьи в области информационных технологий

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

В Национальном исследовательском университете «Московский энергетический институт» реализованы методы обучения с подкреплением на основе временных (темпоральных) различий и мультиагентной технологии.

19.04.2017

Методы обучения с подкреплением (reinforcement learning, RL), основанные на использовании большого количества информации для обучения в произвольной окружающей среде, являются одной из наиболее активно развиваемых областей искусственного интеллекта, связанных с разработкой перспективных интеллектуальных систем реального времени (ИС РВ), типичными примерами которых являются интеллектуальные системы поддержки принятия решений реального времени (ИСППР РВ).

Одним из наиболее перспективных в плане использования в ИС РВ, относящихся к классу динамических интеллектуальных систем, является обучение на основе темпоральных различий (temporal-difference, TD), когда процесс обучения основывается непосредственно на получаемом опыте без предварительных знаний о модели поведения окружающей среды. Ключевой особенностью TD-алгоритмов является обучение на основе различий во временных последовательных предсказаниях. TD-методы, предназначенные для многомерных временных рядов, способны обновлять расчетные оценки, основанные в том числе и на других полученных оценках, не дожидаясь окончательного результата, то есть являются самонастра-иваемыми. Последнее свойство весьма важно для ИС семиотического типа, способных адаптироваться (подстраиваться) к изменениям в управляемом объекте и/или окружающей среде.

Использование мультиагентного подхода в динамических ИС, в том числе ИС РВ (ИСППР РВ), системах распределенного управления и системах интеллектуального анализа данных, способного улучшить эффективность и надежность таких систем, является быстроразвивающимся и перспективным подходом.

Подробное описание дается в статье «Реализация методов обучения с подкреплением на основе темпоральных различий и мультиагентного подхода для интеллектуальных систем реального времени», авторы: Еремеев А.П., Кожухов А.А. (Национальный исследовательский университет «Московский энергетический институт», Москва).