Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В Национальном исследовательском университете «Московский энергетический институт» реализованы методы обучения с подкреплением на основе временных (темпоральных) различий и мультиагентной технологии.
19.04.2017Методы обучения с подкреплением (reinforcement learning, RL), основанные на использовании большого количества информации для обучения в произвольной окружающей среде, являются одной из наиболее активно развиваемых областей искусственного интеллекта, связанных с разработкой перспективных интеллектуальных систем реального времени (ИС РВ), типичными примерами которых являются интеллектуальные системы поддержки принятия решений реального времени (ИСППР РВ).
Одним из наиболее перспективных в плане использования в ИС РВ, относящихся к классу динамических интеллектуальных систем, является обучение на основе темпоральных различий (temporal-difference, TD), когда процесс обучения основывается непосредственно на получаемом опыте без предварительных знаний о модели поведения окружающей среды. Ключевой особенностью TD-алгоритмов является обучение на основе различий во временных последовательных предсказаниях. TD-методы, предназначенные для многомерных временных рядов, способны обновлять расчетные оценки, основанные в том числе и на других полученных оценках, не дожидаясь окончательного результата, то есть являются самонастра-иваемыми. Последнее свойство весьма важно для ИС семиотического типа, способных адаптироваться (подстраиваться) к изменениям в управляемом объекте и/или окружающей среде.
Использование мультиагентного подхода в динамических ИС, в том числе ИС РВ (ИСППР РВ), системах распределенного управления и системах интеллектуального анализа данных, способного улучшить эффективность и надежность таких систем, является быстроразвивающимся и перспективным подходом.
Подробное описание дается в статье «Реализация методов обучения с подкреплением на основе темпоральных различий и мультиагентного подхода для интеллектуальных систем реального времени», авторы: Еремеев А.П., Кожухов А.А. (Национальный исследовательский университет «Московский энергетический институт», Москва).