Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В поисках новых когнитивных моделей: структура энциклопедического знания и энциклопедической деятельности
Аннотация:
Abstract:
Автор: Штерн И. () - | |
Ключевое слово: |
|
Ключевое слово: |
|
Количество просмотров: 8693 |
Версия для печати |
Что общего у энциклопедий с искусственным интеллектом? Цель данной статьи — привлечь внимание к проблемам исследования и использования энциклопедических (Энц) знаний (Зн) в искусственном интеллекте (ИИ) . Обратимся к интеллектуальным системам, основанным иа Зн, и проанализируем различные канонические Зн либо уже используемые в этих системах, либо ориентированные на это по своей природе. Среди них оказывается возможным выделить три следующие группы, которые мы назовем соответственно Зн-импера-тивы; Зн-суггестшы {предлагающие пищу для размышлений); Зн-констативы. Зн-императивы (сценарии, директивы, юридические законы, правила социального поведения и др.) представляют собой "горячие импликации" и рассчитаны на ситуации, требующие незамедлительной реакции. Зн-суггестивы аппелируют к прецедентам и выражаются в аллегорической или игровой форме. Это - басни, афоризмы, притчи и другие типы житейской мудрости, которые влияют на ход событий силой примера и убеждения, но отнюдь не являются прямым руководством к принятию решений. Зн-констативы запечетлевают законы природы, научную и обыденную картины мира и др. Именно к этой группе принадлежат Энц-описания. Оки предельно инвариантны относительно ситуаций, в которых могут быть использованы. В известном смысле это Зн "замедленного действия", заготавливаемые впрок и ждущие своего часа. Зн-констативы, в свою очередь, также распадаются на две полярные группы. Первую об- разуют Зн, организованные по логическому принципу (типа естественных классификаций по Любищеву, например периодическая таблица Менделеева), а вторую - дескриптивные Зн, основанные не на логике, а на памяти; к последним и откосятся Энц. Теперь перейдем к конкретным факторам, определяющим актуальность Энц-проблемати-ки для ИИ. Первый фактор связан с интеллектуализацией баз Зн. Энц прежде всего открывается исследователю как большая картотека разнообразных видов Зн — оболочек и сущностей, которые можно было бы использовать в качестве естественных образцов для конструирования баз Зн типа Энц-памяти. И если локальные базы Зн, на которых сегодня строятся экспертные системы, воплощают профессиональную компетенцию специалиста или группы специалистов, то Энц-базы Зн можно охарактеризовать как глобальные объекты и, кроме того, как внешние информационные аналоги человеческой эрудиции. Следующей сферой пересечения Энц с ИИ является потребление Зн и его совершенствование за счет преимуществ компьютерных Энц над традиционными. Основную функцию или, точнее говоря, миссию Энц мы назовем интеллектуальным информированием. Зн, транслируемые Энц, можно объединить в крупные информационные блоки по содержательным критериям — в зависимости от того, о чем они информируют читателя. Таким образом, выделяются: • ядерное Зн (непосредственная дефиниция и ее ближайшее семантическое расширение, со держащееся в Энц-статье); • пара-Зн (дополнительная Энц-информа- ция - свойства, отношения, факты, воссоздаю щие полный Энц-портрет понятия и содержа щиеся как в Энц-статье, так и рассеянные по всему Энц-пространству); • предметное мета-Зн (Зн о том, каким путем получены два предыдущих типа Зн: обоснование, генезис, эволюция понятия, его роль в парадигме и др.). Здесь уместно небольшое терминологическое отступление. В данном тексте термин мета-Зн употребляется в двух смыслах: • предметное мета-Зн - как категория со держательного рефлектирования специалистов- предметников над определяемым понятием (см. выше); • репрезентационное мета-Зн - как кате гория, относящаяся к представлению содер жания и структуры Зн в модели, т.е. к еди ницам, интерпретирующим Энц-текст. Мы надеемся, что это различие достаточно очевидно из контекста, поэтому в дальнейшем, во избежание громоздкости, будем опускать квалифицирующий эпитет. Содержательно-информационный уровень разбиения Зн можно было бы дополнить их типологией по четырем пространственно-процедурным критериям: характеру экспликации понятия; способу распределения в Энц-простран-стве; способу извлечения; способу компоновки. С этой точки зрения мы будем различать Зн двух типов: • прямые - Зн, заключенные в Энц-ста- тьях; • косвенные - Зн, рассеянные по всему Энц-пространству. Косвенные Зн возникают в результате сопряжения ассоциированных Энц- статей или их фрагментов, а естественной кан вой для их формирования служит ссылочная сеть. Именно способность генерировать косвенные Зн, то есть создавать Энц-портрет понятия в интерьере Зн об ассоциированных понятиях является, на наш взгляд, прерогативой Энц. Родственные лексикографические источники (толковые словари, справочники и др.), в отличие от Энц, предназначены для решения более простой задачи, а именно выдачи локальной информации о понятии, или прямого Зн. Связи между Энц-статьями, формирующие косвенные Зн, могут оказаться запутанными, а цепочки ассоциированных статей слишком длинными. Использование компьютерной технологии для извлечения косвенного Зн снимает эти и некоторые другие проблемы и делает основную функцию Энц значительно более эффективной. Наконец, компьютерно-ориентированные модели Энц могут оказаться перспективными для нетрадиционных приложений. Так, например, Энц-информация широко используется для разрешения омонимии фраз в системах понимания естественного языка в современных проектах ИИ. В дальнейшем компьютерные Энц можно было бы применять для автоматизации составления Энц-комментариев к текстам и др. Но что же известно о самой структуре Энц Зн? Существуют ли какие-нибудь опоры в теории? Трудно ответить на этот вопрос односложно, так как Энц-феномен пока еще изучен недостаточно. В силу своей природы это, несомненно, объект междисциплинарного исследования, затрагивающий интересы таких гуманитарных областей, как лексикография, методология Зн, "классическая" документалистика, библиотековедение н др. Отсутствие в них Энц-проб-лематики в целом дает редкую возможность строить "непредвзятую" концепцию Энц Зн, о которой априори известно лишь то, что она должна включать, по крайней мере, два измерения - представление и обработку Зн. "Базовый треугольник" энциклопедической модели: текст, пространство знаний и энциклопедическая деятельность Рассмотрим в самых общих чертах основные проблемы, возникающие при построении Энц-модели, и наметим некоторые способы их решения. Таких "горячих точек" будет, по крайней мере, три: собственно Энц-текст и мета-текст; организация Энц-пространства; типы и механизмы Энц-деятельности. Текстовая начинка для компьютерных Энц может быть изготовлена по разным рецептам. В простейшем случае, вообще говоря, компьютерными Энц считают обыкновенные машиночитаемые копии традиционных изданий. Кроме того, Энц-текст для компьютерной Энц можно просто скомпилировать из различных печатных источников. Наконец, его можно- создавать заново на пустом месте. В последних двух случаях естественно и целесообразно использовать компьютерный инструментарий; в идеале -специализированный Энц-АРМ, который бы не только помогал в подготовке текста, но и поддерживал некоторые традиционные Энц-функции (чтение, просмотр и др), а также мета-функции (анализ предметной области и терми-н<3полей и др.). Такой АРМ будет сочетать возможности нескольких типов АРМов, в частности такие функции, как извлечение и накопление Зн, поддержка полнотекстовых баз Зн, фактографический информационный поиск и др. В отличие от традиционных Энц текст, создаваемый с помощью компьютера и рассчитанный на компьютерное использование, интерпретируется и маркируется в терминах мета-Зн, которые потребуются для дальнейших операций с Энц. Если рассматривать Энц-модель как многофункциональный источник Зн И Зн о Зн, то нецелесообразно строить мета-уровень ad hoc. Скорее всего, это вообще невозможно сделать, не имея полной, сквозной концепции структуры Энц Зн, которая бы включала, с одной стороны, Зн о" структуре Энц-пространства, а с другой -Зн о компонентах Энц Зн, операндах Энц-дея-тельности. Задача, таким образом, состоит в том, чтобы реконструировать целостный скелет Энц и свести разнообразие Энц-форм к ограниченному набору единиц и структур. В основу такого подхода кладется гипотеза о том, что Энц-про-странство устроено как двухъярусная конструкция, где первый ярус образуют крупные фрагменты знаний - макросы Зн, имеющие регулярную структуру, а второй - их компоненты -микросы, организующие эти фрагменты и участвующие в операциях над Зн. И те, и другие выделяются по функциональным критериям в рамках рассматриваемых типов Энц-деятель-ности и процедур. Теперь следует уточнить, что понимается здесь под Энц-деятельностью, какие ее типы, а также процедуры избраны для моделирования. Это - третья и последняя и5 проблем, образующих базовый треугольник. Здесь рассматриваются два типа Энц-дея-тельности: составление и чтение. (Аналитическая сфера пока остается в стороне). Составление Энц включает три интеллектуальных процедуры: • формирование содержательной субстан ции Зн (чистого Зн) для Энц-статей; • упаковку содержательных субстанций в текстовые и словарные оболочки по опреде ленным лексикографическим стандартам; • аранжировку Зн в Энц-пространстве пу тем установления кросс-референций между понятиями, то есть Энц-статьями. Чтение Энц здесь рассматривается как интеллектуальный акт, включающий* по крайней мере, две следующие операции: • извлечение локальной Энц-информации (прямого Зн) из отдельно взятых Энц-статей; • генерацию больших фрагментов Зн (кос венного Зн), состоящих из ассоциированных Энц-статей или их фрагментов. Такие фрагменты Зн мы назовем Энц-дис-курсами. Энц-дискурс формируется самим читателем в ходе целенаправленного или спонтанного просмотра Энц. Характер процедур, их механика существенно определяют архитектуру Энц-пространства в модели. В то же время механизмы конкретных процедур зависят от того, насколько "прозрачным" окажется его строение, и какие структурные элементы удается вычленить в нем. В дальнейшем мы уточним соотношение между структурами и процедурами. От архитектуры энциклопедического пространства к стратегиям обработки знаний Строение Энц-пространства можно исследовать в двух ракурсах: "извне и сверху", "изнутри и снизу", что определяет два различных направления и стиля анализа. Первый основывается на метафорах, и его цель - получить некоторую достаточно полную картину Энц-пространства, выписанную "крупными мазками", где были бы представлены макросы Зн в их взаимодействии. Анализ второго типа предполагает проникновение в глубины Энц-пространства с тем, чтобы извлечь и систематизировать базовые элементы, или микросы Зн. Таким образом, как мы уже говорили, Энц-пространство предстанет в виде двухъярусной конструкции, причем единицы первого яруса мы будем называть концептами, а второго -конституэнтами. В данном разделе мы рассмотрим строение первого яруса, или яруса концептов, а в следующем - обратимся к анализу конституэнтов. Необходимо пояснить прежде всего, что подразумевается здесь под концептом, поскольку этот термин многозначен. Идея концепта как Зн о понятии используется нами для того, чтобы достичь достаточно абстрактного уровня рассуждений об архитектуре Энц-пространства; при этом его архитектура трактуется как ансамбль концептов. Сами же Энц-концеп-ты рассматриваются как крупные, "самодостаточные" отрезки или, точнее говоря, оболочки Зн двух типов {в основе типологии лежат уже известные пространственно-процедурные критерии), а именно: интра-концепты, или локальные концепты (прямое Зн); транс-концепты, или пространственные концепты (косвенное Зн, Энц-дискурсы). Если интра-концепты суть стабильные фиксированные единицы Зн, то транс-концепты существуют только потенциально. Они актуализируются самим читателем в ходе просмотра Энц-пространства, то есть движения по ссылкам. Развивая архитектурную метафору, мы прибегнем к еще одной фигуре - образу миров - и будем рассматривать концепты как носители двух миров понятий, толкуемых в Энц. Соответственно мы назовем их внутренними и внешними. Внутренние миры понятий заключены в Энц-статьях и замыкаются в их рамках. Внешние миры рассеяны в открытом Энц-простран-стве и строятся на связях между понятиями (статьями). Оба мира одного и того же понятия, а также миры разных понятий постоянно взаимодействуют, проникают друг а друга, наконец, вступают в коллизии. Это происходит, например, при распределении Зн между Энц-статьями и открытым Энц-пространством, а также вызывается необходимостью оперировать одновременно концептами обоих типов. Основные коллизии разыгрываются между следующими Энц-сущностями: • дискретными единицами Энц-пространст ва (статьями) и континуальностью его содер жания; • Жесткими оболочками Энц-статей и их мягким текстовым наполнением; • хорошо структурированным телом Энц- статьи и размытой фактурой Энц-пространства. По-видимому, данные эффекты восходят к некоторому более общему принципу, который мы здесь назовем глобальным Энц-парадоксом. Он заключается в антиномии между целостностью Зн и дробностью его представления, которая программируется самим лексикографическим стандартом для Энц. Чтобы сгладить эти противоречия, в модели необходимо прибегнуть к гибридным средствам представления Зн и к гибридным стратегиям обработки конфликтующих сущностей. Очевидно, что манипуляции С интра-концепта-ми или содержимым Энц-статеЙ, потребуют жестких форм и процедур (семантическая сеть, обход дерева и др.). Напротив, генерация транс-концептов (Энц-дискурсов) в ходе свободной навигации в открытом Энц-пространстве достигается мягкими средствами, одним из которых может стать гипертекст. Образно говоря, сама по себе Энц-оболочка, буквально насквозь пронизываемая кросс-референциями, являет собой прекрасный образец естественной гипертекстовой сети, впроче'м, как и Библия. При составлении Энц эти стратегии комбинируются: формирование Энц-статей сопровождается расстановкой ссылок и др. Энциклопедический базис: энциклопедические примитивы и глубинные конституэнты Второй ярус Энц-пространства включает непосредственно составляющие Энц-концептов (в дальнейшем, для краткости — конституэнты), которые в совокупности образуют Энц-базис. В Энц-базисе, в свою очередь, можно выделить два слоя компонентов: поверхностный и глубинный. К поверхностному слою относятся элементарные конституэнты, которые мы назовем Энц-примитивами. Это - традиционные лексикографические единицы, регулярно используемые в Энц, например заглавные понятия Энц-статей, дефиниции, содержательные блоки, представляющие собой семантическое расширение дефиниции, ссылки, иллюстрации и др. Следующий, глубинный слой составляют вторичные конституэнты, выводимые из примитивов. Мы назовем их интерпретирующими, или глубинными конституэнтами. Глубинные конституэнты будут здесь представлены в виде структур и категорий. С их помощью мы надеемся произвести наиболее тонкое, скрупулезное анатомирование Зн, заключенного в Энц-ста-тье; замысел состоит в том, .чтобы отделить лексикографическую оболочку от текстового наполнения, а само это наполнение расщепить на две составляющие: собственно текстовую упаковку и содержательную субстанцию (чистое Зн). В рамках данной модели глубинной интерпретации подвергаются всего три примитива, которые являются основными опорными точками избранных здесь процедур. Таковы: • заглавное понятие, или имя Энц-статьи; • ссылки; • тело Энц-статьи (текстовая оболочка и содержательная субстанция). Какими же глубинными конституэнтами интерпретируются эти примитивы? Для заглавных понятий Энц-статей такими конституэнтами являются таксономические категории, поскольку они определяют, как правило, содержательную структуру статьи. Эти регулярные зависимости используются в информационно-лексикографических стандартах, необходимых для подготовки Энц-статей. Ссылочная сеть является инструментом организации Энц-пространства; она делает его обозримым и управляемым, прокладывая маршруты просмотра текста, или траектории Энц-дискурсов. Для того, чтобы облегчить ориентацию в Энц-пространстве, ссылки определенным образом упорядочиваются и локализуются. Поскольку Энц-оболочка имеет сферическую конфигурацию, способ локализации, предлагаемый здесь, не может претендовать на особую точность. Вместе с тем вводятся три пространственные (эекторные) категории, которые условно фиксируют их направления и делят ссылки на вертикальные, горизонтальные, диагональные. Наиболее интересные результаты, не только с точки зрения моделирования, но и лексикографической теории, дает глубинная интерпретация третьего примитива - тела Энц-статьи. Здесь обнажаются два следующих пласта: • структура субстанции Зг или структура чистого Зн; • структура текстовой упаковки Зн. Им соответствуют два направления в интерпретации Энц-статьи: • знаниеориентированное; • текстоориентированное. Знаниеориентированный подход включает че тыре уровня анализа: • уровень информационных зон; • уровень информационных сегментов; • уровень топихов; • уровень фрейм-схем, по которым стро ятся сегменты и топики. Текстовая упаковка основывается на трех типах логико-лингвистических конституэнтов, формирующих наиболее важные прагматические особенности текста Энц-статьи, и может быть описана с помощью трех уровней интерпретации. К ним относятся: • уровень квазилогических схем предика ции и обоснования Зн; • уровень риторических фигур; • уровень фабулы и композиции. Итак, для представления Зн, заключенных в Энц-статьях, потребовалось семь типов конституэнтов. Всегда ли все они присутствуют в структуре Энц-статьи? Как правило, это зависит от двух факторов - типа Энц и специфики предметной области. Здесь же мы приведем лишь некоторые закономерности для знание-ориентированного представления Энц-статьи. Полный набор конституэнтов (зоны - сегменты - топики - фреймы) реализуется лишь в немногих случаях, а именно, в многопрофильных, общеобразовательных, популярных Энц из области естественных наук с относительно жесткой композицией и вне зависимости от объема материала. Уровень информационных сегментов доминирует в статьях как популярных, так и некоторых специализированных Энц по искусству, религии и гуманитарным дисциплинам, выдержанных в классической парадигме с присущим ей развернутым и мягким стилем. Наконец, по топиковому принципу строятся статьи технических Энц, особенно их усеченные версии, приближающиеся к справочникам и толковым словарям. Концепция Энц Зн, представленная в данной статье, должна пролить свет на такие до сих пор не изученные когнитивные структуры, как эрудиция и Энц-памятъ. Представляется, что она могла бы стать основой дальнейших теоретических поисков, а также развития "инженерии" Энц, в том числе создания Энц-АРМа, который упоминался ранее. Наши усилия по апробации данной концепции пока ограничились разработкой отдельных принципов компьютерной поддержки для составления Энц-статей, а также написанием фрагмента некоторой специализированной энциклопедии для готовой компьютерной оболочки. Расширение сферы приложения Энц-модели, например создание Энц-АРМов для мета-специалистов широкого профиля, будет стимулировать развитие предложенной концепции в разных направлениях. Функции глубинных конституэнтов и примитивов можно систематизировать с помощью следующей таблицы:
Примечание. Значения конституэнтов: 1 - таксономическая категория 2 - уровень информационных зон 3 - уровень информационных сегментов 4 — уровень топиков 5 - уровень фрейм-структур 6 - квазилогическая структура текста Энц-статьи 7 — риторические фигуры 8 - фабульно-композиционная структура 9 - векторные категории ссылок |
Постоянный адрес статьи: http://swsys.ru/index.php?id=1191&page=article |
Версия для печати |
Статья опубликована в выпуске журнала № 2 за 1993 год. |
Возможно, Вас заинтересуют следующие статьи схожих тематик:
- Расчет нечеткого сбалансированного показателя в задачах взвешивания терминов электронных документов
- Эволюционная модель формирования структур виртуальных предприятий
- Учебный банк: технологии изучения банковских систем и телекоммуникаций
- Использование графических постпроцессоров VVG и LEONARDO в вычислительной гидродинамике
- Сопряжение пакетов программ общего назначения с задачами жесткого реального времени
Назад, к списку статей