Бронфельд Г.Б. (stolem1985@gmail.com) - Нижегородский государственный технический университет им. Р.Е. Алексеева (доцент), Нижний Новгород, Россия, кандидат технических наук | |
Ключевые слова: интеграция знаний., база знаний, семантическая сеть, моделирование, текст, управление знаниями, молинга, модель знаний |
|
Keywords: knowledge integration, knowledge base, semantic network, modeling, text, knowledge management, molinga, knowledge model |
|
|
Существуют различные способы представления знаний, применяемые, в частности, для моделирования текстов [1]. Сами тексты на естественном языке, создаваемые человеком, например на русском языке, – довольно сложные образования [2]. Важность моделирования текстов обусловлена тем, что они, по выражению К. Поппера, являются ядром некоего самостоятельного третьего мира, который отражает окружающую нас действительность, хранит накопленные человеком знания об этой действительности и возможностях ее преобразования. К широко применяемым моделям знаний относятся, например, логические и продукционные модели, семантические сети, фреймы [1]. В числе наиболее используемых для текстов – САО-структуры, модели семантик предпочтения, модели «смысл–текст» Жолковского и Мельчука, модели грануляции знаний [3] и др. По сути основными сравнительными достоинствами каждой из них являются степень отражения и сохранения семантического смысла того, что написано человеком в исходном тексте, и возможность конструктивно создавать интеллектуальные системы (ИС) и близкие к ним на базе применения вычислительной техники для получения полезных для пользователя результатов. Процесс ввода знаний из некоего текстового источника Т в базу знаний (БЗ) некой ИС можно представить в виде схемы (рис. 1) [1]. Эксперт-редактор (назовем его так) читает текстовый источник Т и заносит его в виде неких моделей знаний в БЗ. Обычно при создании одной из разновидностей ИС – экспертных систем – различают эксперта, то есть высококвалифицированного специалиста в рассматриваемой предметной области знания, и инженера по знаниям, специалиста, который моделирует знания и вводит их в БЗ. В данном случае это специалист, который разбирается в достаточно широкой предметной области и обучен специальным методам моделирования знаний и ввода их в БЗ. На практике его работа достаточно близка к работе патентоведа или научного редактора при подготовке статей или книг к публикации. У эксперта-редактора по поводу Т возникает некое понимание в виде модельной структуры М1, которая отражает воспринимаемый им семантический смысл. Известно, что понимание текста зависит от читателя [2], однако в БЗ воспринимаемые знания могут заноситься на современном уровне только в формальном виде, то есть существует этап формализации, и сами модели знаний будут иметь некий вид М2, отличный от М1. При этом какая-то часть семантического смысла неизбежно будет теряться. Есть еще одна проблема – результат как некое решение должен выдаваться ИС пользователю в виде взаимосвязанного текста, иногда достаточно обширного. Очень редко это просто цифра или набор цифр. Такое на практике встречается или в учебных задачах, или при решении каких-то чисто информационных проблем. В данной ситуации использование уже упомянутых моделей знаний в виде продукционных моделей, семантических сетей, фреймов и многих других приводит к непростой итоговой проблеме – получению ответа в виде взаимосвязанного текста. Проблему осложняет то, что значительную часть человеческих знаний трудно, а иногда и невозможно описать, используя детерминированные или стохастические методы, что связано с нечеткостью, неполнотой или неопределенностью этих знаний. В то же время это весьма характерно для естественных языков и связано с их сложной структурой и многообразием понятий. Попробуем промоделировать знания в текстах другим способом, позволяющим сразу готовить блоки, которые потом можно использовать для вывода результатов, и, что не менее важно, значительно снизить объем создаваемой БЗ по сравнению с некоторыми другими подходами. Из лингвистики известно, что простое предложение было и остается основной единицей текста, так как именно в нем отражаются наиболее существенные функции языка и сформирована и выражена мысль. Этими факторами и обусловлен выбор простого предложения, построенного на грамматике естественного языка, в качестве основы моделей. Способ представления знаний моделью, названной молингой (сокращение от слов «модель для элинги» (электронной интеллектуальной книги) [4]), заключается в следующем. Каждое простое предложение текста Т (сложные предложения делятся на простые) экспертом-редактором представляется специальной маленькой семантический сетью с составлением словарей терминов (включая синонимы), отношений, качественных и количественных признаков и т.д. Из предложений убирается эмоциональная окраска, они упрощаются с сохранением основных риторических отношений. При необходимости производятся эквивалентные замещения выражений (как говорят в теории перевода). Молинги имеют близкий к продукционным моделям, но принципиально отличающийся ядром вид: {i} ; Р; Z; K; О; N. (1) Здесь i – множество идентификаторов, с помощью которых молинга выделяется из множества молинг. Идентификатором является составной номер, включающий номер ссылки на текст, номер главы, номер параграфа и номер абзаца (возможно иное). Приводятся все идентификаторы для этой молинги всех текстов Тi, где встречались одинаковые знания. Текстов может быть много, i=1, 2, …, n. Одинаковость предложений в семантическом смысле и получение одинаковых молинг определяет эксперт-редактор. Одинаковые молинги могут попадаться как в одном тексте, так и в разных. За счет идентификаторов при выдаче ответа может даже восстанавливаться (по желанию пользователя) близкий к исходному текст из первоисточника. Элемент Р – условие применимости ядра молинги. Обычно Р представляет собой логическое выражение. Когда Р принимает значение «истина», ядро молинги активизируется. Основным элементом молинги является ее ядро Z – моделируемое простое предложение. В К указывается кодовая последовательность номеров словарей, фиксирующих положение в ядре молинги – слов, которые выступают как термины, отношения, качественные признаки и т.д. В О указываются уровни достоверности молинг, например, в виде факторов уверенности, впервые примененных в ЭС MYCIN с указанием диапазона достоверности от –1 (абсолютная ложь) до +1 (абсолютная истина). Элемент N описывает постусловия молинги. Они актуализируются в случае, если ядро молинги реализовалось. Постусловия описывают действия и процедуры, которые выполняются после реализации ядра молинги. Фактически такое представление имеет вид закодированных маленьких семантических сетей специального вида. Эксперт-редактор последовательно по предложениям вручную (или полуавтоматически) просматривает весь текст Тi и преобразует предложения текста в молинги. При необходимости он может добавлять свои молинги. Предположим, исходное моделируемое предложение из Тi [1] следующее: «Неформальные методы выявления связей придумывает инженер по знаниям для того, чтобы вынудить эксперта указать явные и неявные связи между понятиями» После обработки конкретного исходного предложения экспертом-редактором вручную (или полуавтоматически) могут получиться два простых предложения, которые превращаются в две молинги. 1.4.4.33; ; Неформальные методы выявления связей придумывает инженер_по_знаниям; 3, 1, 2, 1, 2, 1;0,7; ; 1.4.4.33;; Инженер_по_знаниям подталкивает эксперта указывать явные_связи и неявные_связи между понятиями;1, 2, 1, 2, 1, 5, 1, 2, 1;0,4;; Составлющие идентификатора 1.4.4.33 означают: 1 – номер источника, 4 – номер главы, 4 – номер параграфа, 33 – порядковый номер абзаца в нем. В К приведены номера словарей, куда входят соответствующие слова (фразеологизмы): 1 – словарь терминов, 2 – словарь отношений, 3 – словарь качественных признаков, 4 – словарь количественных признаков, 5 – словарь лингвистических и логических связей. Некоторые фразеологизмы состоят из 2 (нескольких) слов: инженер_по_знаниям, явные_связи, неявные_связи. Занесение слов (фразеологизмов) в словари выполняет эксперт-редактор. В словари все слова (фразеологизмы) заносятся с учетом всех их (встречающихся в текстах) грамматических (лексических) инвариантов, синонимов и фразеологизмов с одинаковым семантическим смыслом в конкретном контексте. Далее будем использовать только термин «слова». В результате БЗ элинги можно представить огромным набором коротких семантических сетей специального вида (рис. 2), внешне читаемых как вполне ясные и достаточно короткие предложения. В вершинах этих специальных семантических сетей указаны термины из словаря терминов, по ним в дальнейшем будет происходить логический вывод – и только это важно в описываемом способе представления [4]. В данной статье особенности логического вывода для такого вида моделей не рассматриваются. В качестве ребер могут выступать слова из словаря отношений и словаря лингвистических и логических связей. Получаемый вид молинг и даже их количество определяются экспертом-редактором. Как уже отмечалось, при преобразовании текста в модели знаний, удобные для хранения в памяти компьютера и их обработки, часть смысла теряется. Однако при накоплении знаний в БЗ из разных текстовых источников происходят постепенное уточнение семантического смысла введенных молинг с помощью новых из других источников и их дополнение [4]. Молинги относятся к модельным представлениям знаний ярко выраженного декларативного типа и могут находиться в любом месте БЗ, в принципе не влияя на результаты вывода. Тем не менее особенность процедуры создания БЗ подобного типа такова, что абсолютное большинство молинг из вводимых текстов будут находиться в БЗ последовательно относительно вводимых текстовых источников и их содержания. Эта особенность БЗ [4] при логическом выводе в дальнейшем приводит к резкому ускорению поиска результатов и новым возможностям, которые для большинства ИС на более традиционных БЗ или сложны, или недоступны. В общем виде процесс моделирования текста экспертом-редактором с применением молинг с учетом предварительной обработки текста включает следующие шаги. Шаг 1. Берется текст Ti или в электронном (машиночитаемом формате), или в печатном виде. Шаг 2. Приведение текста к формату, используемому в БЗ; печатный текст может вводиться вручную или считываться. Шаг 3. Предварительная обработка текста: – убираются стоп-слова, которые являются вспомогательными и несут мало информации о содержании текста, но только если они не нарушают семантику предложений; – выполняются (при необходимости) функции стэмминга – преобразование слов к нормальной форме, например, удаляются склонение слова, множественная форма, особенности устной речи и т.п.; – слова приводятся к одному регистру; – вместо местоимений (при необходимости) вставляются слова, которые они заменяют; – устанавливаются термины, состоящие из двух (или нескольких) слов – ввод подчеркивания пробела между составными словами. Шаг 4. Разбиение текста на простые предложения (по необходимости). Шаг 5. Создание молинг поэтапно по предложениям с указанием их идентификаторов, всей остальной структуры с указанием кодовой последовательности ядра молинги, факторов уверенности и отсылки к постусловиям. Шаг 6. Попытка ввода молинги в БЗ. Если таковой там нет (полностью соответствующей семантическому смыслу), она вводится и происходит возврат к шагу 5 для создания новой молинги, пока текст не будет исчерпан (это шаг 8). Если такая молинга в БЗ есть, осуществляется переход к шагу 7. Шаг 7. Если ядро молинги из БЗ семантически одинаково и совпадает постусловие (или в новой молинге его нет), то просто добавляется идентификатор новой молинги к множеству идентификаторов данной молинги, которые в БЗ уже были. Если фактор уверенности у новой молинги тот же, что в БЗ, или другой, то он может – не меняться; – изменяться по решению эксперта-редактора; – рассчитываться по формуле расчета экспоненциальной скользящей средней: ok=(fk–ok-1)S+ok-1, k=1, 2, …, m, (2) где S=2/(m+1); k=1, 2, …, m – номер текущего идентификатора; m – количество всех идентификаторов на текущий момент; ok – рассчитываемый фактор уверенности молинги, заносимый в БЗ; fk – фактор уверенности молинги, который хотел бы придать на текущий момент эксперт-редактор; ok-1 – фактор уверенности молинги, который уже был ранее занесен в БЗ. Если постусловие другое, данная молинга может вводиться в БЗ самостоятельно со своим постусловием (в БЗ будут две молинги с семантически одинаковым ядром, но разными идентификаторами и постусловиями). Шаг 8. Окончание ввода Ti текста. Переход к шагу 1 для ввода i+1-текста. Этот процесс чисто индивидуальный, у разных экспертов-редакторов могут получаться разные молинги, но квалификация эксперта-редактора позволяет предполагать, что качество работы будет на необходимом уровне. Если же произошла ошибка при моделировании, она может выявиться или в процессе отладки системы, или во время практического получения выводов. При рассматриваемом подходе отдельные ошибки в моделировании практически никак не могут повлиять на результативность работы в системе, равно как отдельные опечатки в книге не влияют, как правило, на понимание ее смысла, тем более что опечатки постепенно выявляются. Попутно молинги решают проблемы синонимов, омонимов, диалектных слов, фразеологизмов и т.п. за счет предварительного моделирования знаний экспертом-редактором при создании БЗ элинги. Это позволяет точно задавать в БЗ понимание и значение знаний, содержащихся в исходных текстах. Приведем пример моделирования, например, конкретного абзаца [2] как части текста: «Интертекстуальность, понимаемая как наличие в тексте элементов (частей) других текстов, присуща любому тексту. Однако если это свойство становится для данного текста доминирующим, то он теряет цельность, что и можно наблюдать на примере "Утра" – текста с тематической недостаточностью. Чтобы восстановить цельность, нужно найти и собрать воедино все интертекстуальные связи такого текста с другими текстами А. Белого. Вся coвокупность таких связей будет представлять не что иное, как модель "обычного" текста – цельного и семантически автономного. В этом и наша задача: проделать интертекстуальный анализ "Утра", с тем чтобы дополнить его семантику "до цельности"». Часть БЗ с молингами будет иметь, например, такой вид: 3.2.3.3;;Интертекстуальность, понимаемая как наличие в тексте частей других текстов, присуща любому тексту;1, 2, 5, 2, 5, 1, 2, 3, 1;0,8;; 3.2.3.3;;Если свойство становится для данного текста доминирующим, то он теряет цельность, что наблюдается на примере «Утра» Белого А.;5, 1, 2, 5, 3, 1, 1, 5, 5, 2, 1, 5, 2, 5, 1, 1, 1;0,5;; 3.2.3.3;;«Утро» А. Белого – текст с тематической_недостаточностью;1, 1, 1, 5, 1;0,6;; 3.2.3.3;;Чтобы восстановить цельность «Утра» Белого А., нужно найти и собрать воедино интертекстуальные связи текста с другими текстами Белого А.;5, 2, 1, 1, 1, 5, 2,5, 2, 3, 1, 1, 1, 5, 3, 1, 1;0,6;; 3.2.3.3;;Сoвокупность связей представляется моделью "обычного"_текста – цельного и семантически автономного;1, 1, 2, 1, 1, 1, 5, 1, 1;0,6;; 3.2.3.3;;Задача: проделать интертекстуальный анализ «Утра» Белого А., чтобы дополнить его семантику "до_цельности";1, 2, 1, 1, 1, 1, 5, 2, 5, 1, 1;0,8;; Приведем состав словаря терминов для данного абзаца и ранее рассмотренного сложного предложения. Словарь терминов (1): автономного анализ Белого А. доминирующим задача интертекстуальность, интертекстуальные, интертекстуальный инженер_по_знаниям методы моделью неявные_связи понятиями примере "обычного"_текста свойство связи, связей, явные_связи, неявные_связи семантически, семантику coвокупность текстов, тексту, текста, текстами тематической_недостаточностью «Утра», «Утро» цельность, цельного, "до_цельности" эксперта явные_связи Молинги использованы для создания БЗ прототипов элинг и аналитических систем управления знаниями [4], защищенных патентом на полезную модель (№ 104348, 2011 г., автор Бронфельд Г.Б.). Данный способ моделирования знаний может использоваться для создания различных новых ИС и модернизации существующих, в частности, систем управления знаниями. По сути именно он позволяет реализовать идеи интеграции знаний, развитые когда-то в 80-х профессором Э. Тыугу, реального создания объединенных БЗ на основе наложения знаний, опробованных в конце 90-х Д. Греем, и реализации идеи А. Ворожцова [3] в начале 21 века о грануляции знаний, но естественным путем. Литература 1. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб: Питер, 2001. 384 с. 2. Лукин В.А. Художественный текст: Основы лингвистической теории. Аналитический минимум. М.: Изд-во «Ось-89», 2009. 560 с. 3. Ворожцов А.В. Индустрия знаний // Информационные технологии и вычислительные системы. 2003. № 4. C. 145–148. 4. Бронфельд Г.Б. Подход к интеграции знаний с помощью элинг // Системы обработки информации и управления: тр. НГТУ им. Р.Е. Алексеева. 2009. Т. 74. Вып. 15. С. 5–11. |
http://swsys.ru/index.php?id=3234&lang=%E2%8C%A9%3Den&like=1&page=article |
|