Моделирование принятия решений интеллектуальным агентом

№4

09 Сентября 2024

2024

2023

№4 2023

Моделирование принятия решений интеллектуальным агентом

Виноградов Г.П. (wgp272ng@mail.ru) - Тверской государственный технический университет (профессор), Тверь, Россия, доктор технических наук
Ключевые слова: многоагентная система, интеллектуальный агент, целеустремленное состояние, нейронные сети, нечеткие модели, нечеткие оценки, принятие решений
Keywords: multiagents systems, intelligent agent, goal sets, neural network, fuzzy model, fuzzy sets, decision making

В основу исследования функционирования организационных систем положена базовая модель [1], в которой центр осуществляет управление агентом, обладающим свойствами целенаправленного и активного поведения. Одной из основных проблем, возникающих при попытке формального моделирования поведения подобных систем, является разработка адекватных моделей принятия решений целеустремленным агентом (ЦА). Для описания процесса принятия решения используется либо классическая, либо поведенческая модель принятия решения. В обоих вариантах ЦА не сравнивает альтернативы, а оценивает возможные исходы. В первом случае это выполняется с помощью функции выигрыша, а во втором выбор связан с желаемым уровнем поведения или уровнем достигаемого конечного эффекта.

Классическая и поведенческая модели принятия решения

Принятие решения всегда связано с целеустремленным поведением и происходит в ситуации целеустремленного состояния, которое может быть определено с помощью следующих компонент [2].

· Субъект, осуществляющий выбор, то есть ЦА, kÎK.

· Окружение выбора (S), то есть множество элементов и их существенных свойств, не являющихся элементами системы, но изменение в любом из которых может стать причиной изменения состояния системы или продуцировать его. Эти элементы генерируют множество состояний sÎS, называемых состоянием природы.

· Доступные способы действий: k-го агента для достижения i-го результата.

· Возможные при окружении S результаты, существенные для ЦА: .

· Множество способов действий: , которые ЦА считает приемлемыми.

· Функция исхода W, которая выражает связь альтернативы c с любым состоянием природы s и любым исходом о. Другими словами, W:C´S®O. Это позволяет определить множество Oa исходов при альтернативе c, являющееся подмножеством О и . Данную функцию можно считать моделью объекта управления, которую ЦА использует при выборе способа действия.

Классическая и поведенческая модели принятия решения используют функцию выигрыша ν, которая выражает соответствие между любым исходом о и его выигрышем, оцениваемым величиной g, формируемой на основе предпочтений ЦА. Система предпочтений – это субъективное отражение цели ЛПР, или оценочное суждение. Таким образом, v:O®G, где G – множество оценок g выигрышей.

Определим функцию ω как композицию функции исхода w и функции выигрыша ν: w=v´w. Таким образом, множество Gc возможных выигрышей по альтернативе c определяется как подмножество G, такое, что .

Классическая модель строится на предположении, что функция выигрыша – действительно значная, линейно упорядочивающая все исходы, с помощью которой ЦА назначает каждой альтернативе действительное число. Затем ЦА выбирает альтернативу с наибольшим выигрышем. Это можно выразить следующим образом:

(1)

g(c)=.

Данная запись выражает правило выбора такой альтернативы, которая будет максимизировать по cÎC выигрыш из множества возможных выигрышей Gс.

Таким образом, при формализации поведения ЦА по классической схеме речь идет о принятии решения умным и рациональным агентом, всегда способным сформировать оценки выигрыша. В противоположность этому Саймон [3] предложил модель принятия решения, в которой ЛПР относительно любого исхода выдает оценку «хорошо» или «плохо» либо «удовлетворительно» или «неудовлетворительно» в зависимости от целей или системы предпочтений. Такая оценка отражает представление о желаемом уровне достижения цели или уровне удовлетворенности ЛПР.

Функция выигрыша, элементы которой принимают два значения, например, когда исход удовлетворяет желаемым условиям, ЛПР назначает этому исходу, допустим, значение выигрыша «единица», в противном случае будет назначено значение «ноль», может иметь вид

Исходы с выигрышем «единица» составляют множество О¢ удовлетворительных исходов (О¢ Î О).

В соответствии с этой процедурой ЦА должен сформировать понятие удовлетворительной альтернативы, определив свое представление о множестве (С¢) приемлемых альтернатив. Затем и в условиях определенности, риска и неопределенности Саймон рекомендует ЛПР выбирать ту альтернативу, любой исход которой удовлетворителен. Формально эту идею можно выразить следующим образом:

Oc Ì O¢ Þ выбрать c¢, (2)

где Оc – множество исходов, порожденных c; О¢ – множество удовлетворительных исходов.

Такой принцип принятия решения Саймон назвал принципом ограниченной рациональности, а модель (2) получила название поведенческой модели принятия решения.

Формулы (1) и (2), выражающие соответственно классическую и поведенческую модели принятия решений, показывают различие между ними, которое состоит в способе упорядочения. В классической модели альтернативы упорядочиваются по отношению неравенства (³) и выбирается альтернатива с наибольшим значением выигрыша. Напротив, поведенческая модель характеризуется отношением включения (Ì) и выбирается альтернатива, множество возможных исходов от реализации которой содержится во множестве удовлетворительных исходов.

Как показали исследования в области математической психологии, эти подходы не позволяют объяснить (или описывают слишком сложно) многие наблюдаемые на практике явления и процесс- сы [4].

Расширение классической модели рационального поведения возможно за счет включения в нее так называемых ненаблюдаемых переменных – оценок поведения человека, используемых в психологии, социологии и т.п. Для этого в описание базовой модели вводится параметр r, который будет характеризовать тип агента, причем rÎB (r иначе можно назвать характеристикой агента).

Согласно этому подходу функция выигрыша ЦА будет зависеть от состояния внешней среды sÎS, выбираемых стратегий , управления со стороны центра u(·)ÎU, которое зависит от результатов деятельности агента , учитываемых центром, и типа агента rÎB. Действие , выбираемое агентом, по гипотезе рационального поведения будет максимизировать его функцию выигрыша.

Возникает проблема оценки типа агента r на основании наблюдений . Решение этой задачи возможно при условии:

− определения функциональных свойств, характеризующих поведение ЦА, таких, чтобы они вытекали из наблюдаемого поведения и не зависели от точки зрения наблюдателя;

− введения понятий, характеризующих эти функциональные свойства;

− задания мер, позволяющих получать оценки проявления наблюдаемых функциональных свойств и гарантирующих возможность воспроизведения наблюдений различными наблюдателями.

Это предполагает интеграцию математических моделей, достижений наук, изучающих поведение человека, на базе теории нечетких множеств, позволяющей формализовать субъективные вербальные оценки, которые имеют многозначный и нечеткий характер.

Модель целеустремленного состояния

Введем для описанных компонент целеустремленного состояния меры для его оценки.

1. Будем считать, что ЦА способен выделять факторы – характеристики функционального окружения: . Влияние каждого фактора ЦА оценивает с помощью лингвистической переменной «степень влияния фактора» .

Предположим, что для описания влияния выделенных факторов на результаты , ЦА использует аппроксимацию в виде продукционных правил, которые имеют вид

если x1 есть и если x2 есть

и … и если xN есть ,

то (3)

где R – количество продукционных правил; r – номер текущего продукционного правила; – функция, отражающая представление ЦА о функциональной связи входных факторов с возможными результатами для r-го правила (r-я частная модель); – нечеткие переменные, определенные на . В качестве функции могут использоваться, например, полиномы нулевого порядка, авторегрессионные модели, модели, применяемые в теории детерминированного хаоса, а также словесное описание.

2. Известные (доступные) ЦА способы действия. Способ действия следует понимать функционально (морфологически). ЦА способен моделировать и прогнозировать ситуацию, если

− может воспринимать и распознавать внешние воздействия и формировать адекватный или неадекватный образ среды: , здесь u – градация состояния внутри класса, например, уровень состояния;

− обладает априорной информацией о среде (вложенной при создании и накопленной), хранимой в виде образов среды: , здесь v – индекс класса состояния; предполагается, что Æ;

− обладает информацией о самом себе, своих свойствах и возможностях. Эта информация хранится в виде двух типов:

а) морфологического: ;

б) функционального: ,

где .

В результате сопоставления, распознавания и преобразования информационных образов вырабатываются стратегии (способы действий), которые определяют поведение ЦА: воздействие на среду (функциональная деятельность) и воздействие на себя (функциональная морфологическая деятельность).

Теперь можно определить способ действия как реакцию системы на внешнее воздействие, которое формируется на основе :

, где U – фактор, изменяющий состояние ЦА и вызывающий акт поведения ЦА (его еще можно определить как мотивацию).

Поскольку является функцией параметров состояния внешней среды, принимаемых во внимание ЦА, функциональных и морфологических свойств системы, то набор предположений об их возможных значениях образует сценарий вероятного состояния внешней среды, функциональных возможностей системы и возможности ее морфологического изменения.

Реализация сценариев, например, с помощью правил (3), позволяет сформировать представление о возможных результатах , а значит, определяет неравнозначность при выборе способа действия, которую можно описать как степень уверенности в необходимости применения (или привычность, понимаемую как степень владения данным способом получения результата ) способа действия. Эту оценку можно описать лингвистической переменной , или . Подобная мера является индивидуальной характеристикой ЦА, которая может меняться в результате обучения и приобретения опыта. Более того, она будет меняться после коммуникационного взаимодействия ЦА между собой и с центром. Поэтому в , где – информация (знание), которой располагает ЦА на момент tk.

Если степень уверенности у ЦА в необходимости применения какого-либо возможного способа действий равна нулю, то этот способ для ЦА не является потенциальным выбором. Но каждый потенциальный способ является еще и возможным. Способ действий, являющийся потенциальным в одном окружении, может не быть таковым в другом.

3. Возможные результаты при данном окружении выбора. Предположим, что для ЦА определена функция вознаграждения. Второе предположение состоит в возможности ЦА оценить затраты труда. Кроме этих показателей, ЦА может принимать во внимание оценку его результатов коллегами, ЛПР и ряд других показателей, играющих роль морального стимулирования. В принципе можно считать, что они понижают его оценку требуемых трудовых издержек. К возможным результатам следует отнести поддержку его точки зрения другими экспертами, признание его авторитета, долю его предложений, принятую во внимание ЛПР, новизну полученных результатов и т.п.

Представим возможные результаты при заданном окружении выбора ЦА в виде , где – множество возможных результатов при выборе j-го способа действия, iÎI – множество результатов, принимаемых во внимание k-м ЦА. Очевидно, что .

4. Ценность результатов . Наличие этого показателя следует из качественного предполо- жения о том, что ЦА наделен способностью сравнивать блага, приобретаемые при получении различных видов стимулирования результатов, с затратами труда, которые он должен для этого приложить.

Каждый человек обладает личностными ценностями, под которыми понимаются осознанные и/или принятые им общие компоненты смысла его жизни. Они обеспечиваются смысловым, эмоционально переживаемым, задевающим ЦА отношением к жизни. Ценности могут быть уникальными, характерными только для данного индивида, и объединяющими его с определенной группой людей. Ценности – это глубокие убеждения, которые определяют действия и суждения ЦА в различных ситуациях. Например, социологи выделяют следующие ценности благосостояния: благополучие (здоровье и безопасность), богатство (обладание различными материальными благами), мастерство (профессионализм в определенных видах деятельности), образованность (знания, информационный потенциал, культурные связи), уважение (статус ЦА, престиж, слава, репутация).

Поскольку , а Si=Si(Ci), значимость j-го вида результата можно оценить лингвистической переменной .

5. Эффективность действия с точки зрения результата – это уверенность получения данного результата этим способом действия при известных (или предполагаемых) затратах на его реализацию. Степень уверенности в том, что некоторый способ действия будет приводить к результату в окружении S, если ЦА выберет именно его: , позволяет оценить эффективность способа действия, выбранного ЦА. Она является лингвистической переменной и выражает индивидуальную оценку ЦА последствий выбора затрат финансовых, материальных, труда, интенсивности труда.

Введенные лингвистические переменные , образуют модель представлений ЦА (знаний) о ситуации целеустремленного выбора.

6. Поскольку можно описать в терминах , то для ЦА существует база правил, которая связывает и ценность i-го результата . Это позволяет определить ценность целеустремленного состояния по i-му результату для k-го ЦА в соответствии с правилом

По аналогии можно оценить целеустремленное состояние для k-го ЦА по эффективности для i-го вида результата:

7. Оценка ЦА желательности целеустремленного состояния по i-му результату и эффективности его достижения в ситуации выбора. Она задается в виде лингвистической переменной

В основе процесса взаимодействия личности и организации находятся психологический и экономический контракты, которые определяют условия психологического и экономического вовлечения субъекта в совместную деятельность. Они отражают существенные ожидания личности (интересная работа, достойная оплата, хороший психологический климат, уважение личности, удовлетворенность работой, возможность использования своего творческого потенциала) и соответствующие ожидания организации (высокие результаты деятельности ЦА, преданность организации, добросовестный труд, организационная культура). Следовательно, можно определить следующие ограничения:

где – ожидания ЦА от организации, которые отражают баланс между затратами и вознаграждением за достигнутые результаты .

Так как si является функцией от информированности k-го ЦА, , и центр организует итерационную процедуру обмена представлениями между ЦА, то справедливо следующее предположение: , где t – номер итерации при интерактивном формировании согласованного прогноза (это предположение о росте информированности k-го ЦА в зависимости от номера итерации); ω – итерационное отображение (в общем случае точечно-множественное), такое, что при начальном уровне информированности любая последовательность, порождаемая включением , будет ограничена, а все ее предельные точки содержатся в M Ì Rn. Справедливость этого предположения следует из того, что ЦА в процессе общения и анализа формирует определенную устойчивую по убеждению точку зрения. Параметр sk – это характеристика способности ЦА к восприятию новых точек зрения и пересмотру структуры своей информированности. Введение этого параметра позволяет центру путем продуцирования изменения в одной или нескольких компонентах или параметров представлений в процессе общения или интерактивного взаимодействия вызвать трансформацию модели ситуации выбора эксперта как ЦА.

Вклад ЦА в ситуацию выбора проявляется в оценках степени значимости факторов ситуации и через них на представление о ситуации в форме (3); ценности результатов ; степени возможности применения j-го способа действия для достижения i-го результата ; эффективности достижения результата j-м способом действия , с помощью которых ЦА оценивает собственные затраты на получение результата.

Первая и последняя группы оценок отражают знание ЦА о предметной области, уровень его подготовки (умения, навыки и т.п.). Две средние группы позволяют описать систему ценностей ЦА и в принципе оценить степень конгруэнтности ценностей ЦА и организации, которые в значительной степени определяют качество работы ЦА.

Есть еще одна группа факторов, определяющих реализацию результата, – воля, склонность к рискам, самооценка, мотивированность. Эти факторы позволяют говорить о таком показателе, как уверенность в получении результата в ситуации выбора при использовании одного из возможных способов действия .

При фиксированной функции вознаграждения ЦА в соответствии с гипотезой о рациональном поведении формирует решение в соответствии с , где – оценка ЦА максимального выигрыша, который он мог бы получить, выполняя другую работу. Очевидно, что, если , то следует ожидать, что ЦА выберет Si=0 вследствие ее более высокой привлекательности. Если же , то поведение ЦА будет зависеть от его информированности о выигрыше центра. Рассмотрим ситуацию, когда ЦА не располагает такой информацией. Если ЦА принимает условия W, то его выигрыш . В противном случае он может потребовать от центра более выгодные условия. Здесь возможны два варианта: либо центр сделает такое предложение, либо нет. В последнем случае ЦА должен перейти на другую работу с желательностью c0.

Согласно предположению об отсутствии информации у ЦА о выигрыше центра, у ЦА нет уверенности, что в случае отказа от условий W он может рассчитывать на c0, причем только при переходе на другую работу. Следовательно, решение принять условие W при для него предпочтительнее.

Окончательно выбор ЦА при отсутствии у него информации о выигрыше центра будет описываться соотношениями .

Теперь можно определить целеустремленное состояние ЦА или системы, которое характеризуется тем, что

· ЦА находится в состоянии выбора: U(·)>0;

· существует по крайней мере один потенциальный результат ; если существуют другие потенциальные результаты, их ценности по целеустремленному состоянию по результату не равны;

· для ЦА существуют по крайней мере два потенциальных способа действий – , такие, что ;

· эффективности способов действий таковы, что сумма оценок ценностей целеустремленного состояния по эффективностям получения результатов этими двумя способами не равны: .

Существует по крайней мере один потенциальный результат , ценность которого для ЦА больше некоторой пороговой величины и степень уверенности получения которого у ЦА превышает некоторое пороговое значение .

Эти правила означают, что существует ЦА, который находится в состоянии, когда он хочет получить какой-либо результат. Он располагает для этого несколькими альтернативными способами достижения с разной эффективностью, которыми можно попытаться достичь желаемого результата, и его уверенность в получении желаемого результата значительна.

Определение личности ЦА

При анализе целеустремленного состояния использовались такие понятия, как ЦА (или субъект Аk), параметры, характеризующие с точки зрения ЦА состояние окружения (), возможные результаты {}, возможные способы действий {}, оценки степени влияния факторов ЦА {}, степени уверенности необходимости выбора способа действий {}, ценность i-го результата {} по j-му способу действия, ценность целеустремленного состояния по результату {}, желательность ценности целеустремленного состояния по результату {}, эффективность каждого способа действий по каждому возможному результату {}, значимость эффективности способа действия по каждому возможному результа- ту {}.

Способы действий и результаты зависят от окружения и от субъекта, а все остальные характеристики определяются субъектом в зависимости от ситуации (хотя субъект может и не учитывать свойства ситуации). Поэтому индивидуальность ЦА должна вытекать из того, как оставшиеся характеристики зависят от свойств выбора: окружения {Sk}, возможных результатов , возможных способов действий {}. Из перечисленных характеристик, в принципе, оценка степени влияния фактора, степень уверенности необходимости выбора способа действий, ценность результата, эффективность способа действия по каждому результату являются характеристиками личности (индивидуальности). Все остальные выводятся из них известными методами теории нечетких множеств. Ранее были определены ценность целеустремленного состояния по результату и по эффективности . Можно определить интегральный показатель ценности целеустремленного состояния для k-го индивида как , а, учитывая степень уверенности k-го ЦА в достижении результата , получить показатель ожидаемой удельной ценности :

(4)

Это означает, что если два субъекта находятся в одной и той же ситуации выбора, разница в их поведении должна проявляться в значениях оценок удельной ценности по результату и эффективности и в степени уверенности в достижении цели.

Поскольку входящие в (4) величины являются функциями компонент понимания ЦА ситуации выбора, ожидаемая удельная ценность будет функцией ситуации выбора:

Теперь можно определить ЦА как личность.

Личность (индивидуальность) ЦА: математическая функция p(·), связывающая ожидаемую удельную ценность в любой ситуации выбора со свойствами возможных способов действий, их возможными результатами и принимаемыми во внимание как существенные переменные окружения.

Смысл введенного определения состоит в том, что, наблюдая поведение ЦА в различных ситуациях выбора, можно построить некоторое приближение к функции p(·).

Используя перечисленные компоненты выбора в качестве зависимых переменных, можно получить представление о таких характеристиках психологической индивидуальности, как восприимчивость ситуации, привычность выбора, знания, стремления. Во всех четырех случаях необходимо вывести меру выбора действия на основе наблюдений выборов, реально производимых в управляемой ситуации выбора.

Мера восприимчивости выводится из того, какое влияние различия в принимаемых во внимание характеристиках окружения оказывают на оценку степени необходимости применения способов действия, когда выбранный способ действия приводит к одному и тому же результату (к разным результатам).

Мера привычности определяется через оценку выбора способа действия из множества способов действия с различными свойствами, приводящих к одним и тем же результатам с одной и той же эффективностью.

Мера знания выводится из того, какое влияние различия в эффективностях выбора оказывают на степень необходимости выбора при одних и тех же ценностях полученных результатов. Такие оценки являются мерами чувствительности к эффективностям.

Меры стремления выводятся из того, какое влияние различия в ценностях результатов оказывают на степень необходимости выбора действий, когда каждый возможный способ может продуцировать возможные результаты и каждый возможный результат может быть получен.

Поведение ЦА

Исход, соответствующий каждой альтернативе, зависит от переменных, описывающих внешние условия, и от переменных, характеризующих альтернативу. Описание этой зависимости образует модель рассматриваемого процесса (предметной области). С ростом сложности рассматриваемого объекта возрастает сложность построения адекватной исследуемому процессу модели, а значит, возрастает риск формирования неправильного представления о возможных исходах. В этих условиях ЛПР обычно абстрагирует проблему и строит простую модель. Полученный из анализа модели исход он считает оценкой фактического исхода, которая в этом случае определяется его представлениями о ситуации выбора.

Затем ЦА выполняет действия по формированию у себя определенного уровня убежденности в адекватности своих представлений. Степень адекватности представлений ЦА (а значит, знаний и моделей ситуации выбора) определяется его информированностью и его субъективными оценками (способами преобразования исходной информации в прогноз). Деятельность ЦА на устранение неопределенности описания предметной области направлена на получение и анализ всей доступной для него информации и является циклической.

Алгоритм индивидуального выбора

Описанная функция личности выражает ожидаемую удельную ценность результатов для ЦА в окружении выбора в зависимости от доступных способов действия, возможных результатов и существенных переменных окружения. Ожидаемая удельная ценность может быть выражена в виде функции .

Это позволяет разложить функцию личности на три составляющие:

· функцию привычности , связывающую ценность результата, эффективность способа действия с выбором способа действия;

· функцию знания, связывающую эффективность выбора с другими параметрами ситуации выбора;

· функцию стремления, связывающую удельную ценность результата с другими параметрами ситуации выбора.

На процесс поведения большое влияние оказывает ожидание ценности результата. Мерой его является критерий удовлетворенности: при получении результата со значением удельной ценности меньше этой величины ЦА возвращается к проблеме, иначе он считает ее решенной.

В принципе, минимально приемлемый результат – точка удовлетворенности – это функция от предполагаемых затрат ЦА, связанных с пересмотром проблемы, и от связанных с этим потенциальных доходов. Таким образом, точка удовлетворенности – это минимальная удельная ценность результата, причем превышение этого уровня, по мнению ЦА, не оправдывает затраты на то, чтобы начать все сначала.

Для удовлетворенности больше характерно стремление субъекта сохранить ситуацию, чем изменить ее. Если же появляются результаты ниже уровня удовлетворенности, ЦА стремится их изменить.

Литература

1. Новиков Д.А. Теория управления организационными системами: вводный курс. М.: МПСИ, 2005.

2. Акофф Р., Эмери Ф. О целеустремленных системах. М.: Сов. радио, 1974.

3. Саймон Г. Науки об искусственном. М.: УРСС, 2004.

4. Kahneman D., Tversky A. Judgment under uncertainty: heuristics and basis. Cambridge: Cambridge University Press, 1983.

http://swsys.ru/index.php?id=2557&lang=%29&page=article

Perhaps, you might be interested in the following articles of similar topics: