ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Публикационная активность

(сведения по итогам 2017 г.)
2-летний импакт-фактор РИНЦ: 0,500
2-летний импакт-фактор РИНЦ без самоцитирования: 0,405
Двухлетний импакт-фактор РИНЦ с учетом цитирования из всех
источников: 0,817
5-летний импакт-фактор РИНЦ: 0,319
5-летний импакт-фактор РИНЦ без самоцитирования: 0,264
Суммарное число цитирований журнала в РИНЦ: 6012
Пятилетний индекс Херфиндаля по цитирующим журналам: 404
Индекс Херфиндаля по организациям авторов: 338
Десятилетний индекс Хирша: 17
Место в общем рейтинге SCIENCE INDEX за 2017 год: 527
Место в рейтинге SCIENCE INDEX за 2017 год по тематике "Автоматика. Вычислительная техника": 16

Больше данных по публикационной активности нашего журнале за 2008-2017 гг. на сайте РИНЦ

Вход


Забыли пароль? / Регистрация

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
16 Декабря 2018

В поисках новых когнитивных моделей: структура энциклопедического знания и энциклопедической деятельности

Статья опубликована в выпуске журнала № 2 за 1993 год.[ 20.06.1993 ]
Аннотация:
Abstract:
Авторы: Штерн И. () - , ,
Ключевое слово:
Ключевое слово:
Количество просмотров: 5150
Версия для печати

Размер шрифта:       Шрифт:

Что общего у энциклопедий с искусственным интеллектом?

Цель данной статьи — привлечь внимание к проблемам исследования и использования энциклопедических (Энц) знаний (Зн) в искусственном интеллекте (ИИ) .

Обратимся к интеллектуальным системам, основанным иа Зн, и проанализируем различные канонические Зн либо уже используемые в этих системах, либо ориентированные на это по своей природе. Среди них оказывается возможным выделить три следующие группы, которые мы назовем соответственно Зн-импера-тивы; Зн-суггестшы {предлагающие пищу для размышлений); Зн-констативы.

Зн-императивы (сценарии, директивы, юридические законы, правила социального поведения и др.) представляют собой "горячие импликации" и рассчитаны на ситуации, требующие незамедлительной реакции.

Зн-суггестивы аппелируют к прецедентам и выражаются в аллегорической или игровой форме. Это - басни, афоризмы, притчи и другие типы житейской мудрости, которые влияют на ход событий силой примера и убеждения, но отнюдь не являются прямым руководством к принятию решений.

Зн-констативы запечетлевают законы природы, научную и обыденную картины мира и др. Именно к этой группе принадлежат Энц-описания. Оки предельно инвариантны относительно ситуаций, в которых могут быть использованы. В известном смысле это Зн "замедленного действия", заготавливаемые впрок и ждущие своего часа.

Зн-констативы, в свою очередь, также распадаются на две полярные группы. Первую об-

разуют Зн, организованные по логическому принципу (типа естественных классификаций по Любищеву, например периодическая таблица Менделеева), а вторую - дескриптивные Зн, основанные не на логике, а на памяти; к последним и откосятся Энц.

Теперь перейдем к конкретным факторам, определяющим актуальность Энц-проблемати-ки для ИИ. Первый фактор связан с интеллектуализацией баз Зн.

Энц прежде всего открывается исследователю как большая картотека разнообразных видов Зн — оболочек и сущностей, которые можно было бы использовать в качестве естественных образцов для конструирования баз Зн типа Энц-памяти. И если локальные базы Зн, на которых сегодня строятся экспертные системы, воплощают профессиональную компетенцию специалиста или группы специалистов, то Энц-базы Зн можно охарактеризовать как глобальные объекты и, кроме того, как внешние информационные аналоги человеческой эрудиции.

Следующей сферой пересечения Энц с ИИ является потребление Зн и его совершенствование за счет преимуществ компьютерных Энц над традиционными.

Основную функцию или, точнее говоря, миссию Энц мы назовем интеллектуальным информированием. Зн, транслируемые Энц, можно объединить в крупные информационные блоки по содержательным критериям — в зависимости от того, о чем они информируют читателя. Таким образом, выделяются:

•      ядерное Зн (непосредственная дефиниция и ее ближайшее семантическое расширение, со держащееся в Энц-статье);

•      пара-Зн (дополнительная Энц-информа- ция - свойства, отношения, факты, воссоздаю щие полный Энц-портрет понятия и содержа щиеся как в Энц-статье, так и рассеянные по всему Энц-пространству);

•      предметное мета-Зн (Зн о том, каким путем получены два предыдущих типа Зн: обоснование, генезис, эволюция понятия, его роль в парадигме и др.).

Здесь уместно небольшое терминологическое отступление. В данном тексте термин мета-Зн употребляется в двух смыслах:

•      предметное мета-Зн - как категория со держательного рефлектирования специалистов- предметников над определяемым понятием (см. выше);

•      репрезентационное мета-Зн - как кате гория, относящаяся к представлению содер жания и структуры Зн в модели, т.е. к еди ницам, интерпретирующим Энц-текст.

Мы надеемся, что это различие достаточно очевидно из контекста, поэтому в дальнейшем, во избежание громоздкости, будем опускать квалифицирующий эпитет.

Содержательно-информационный уровень разбиения Зн можно было бы дополнить их типологией по четырем пространственно-процедурным критериям: характеру экспликации понятия; способу распределения в Энц-простран-стве; способу извлечения; способу компоновки.

С этой точки зрения мы будем различать Зн двух типов:

•      прямые - Зн, заключенные в Энц-ста- тьях;

•      косвенные - Зн, рассеянные по всему Энц-пространству. Косвенные Зн возникают в результате сопряжения ассоциированных Энц- статей или их фрагментов, а естественной кан вой для их формирования служит ссылочная сеть.

Именно способность генерировать косвенные Зн, то есть создавать Энц-портрет понятия в интерьере Зн об ассоциированных понятиях является, на наш взгляд, прерогативой Энц. Родственные лексикографические источники (толковые словари, справочники и др.), в отличие от Энц, предназначены для решения более простой задачи, а именно выдачи локальной информации о понятии, или прямого Зн.

Связи между Энц-статьями, формирующие косвенные Зн, могут оказаться запутанными, а цепочки ассоциированных статей слишком длинными. Использование компьютерной технологии для извлечения косвенного Зн снимает эти и некоторые другие проблемы и делает основную функцию Энц значительно более эффективной.

Наконец, компьютерно-ориентированные модели Энц могут оказаться перспективными для нетрадиционных приложений. Так, например, Энц-информация широко используется для разрешения омонимии фраз в системах понимания естественного языка в современных проектах ИИ. В дальнейшем компьютерные Энц можно было бы применять для автоматизации составления Энц-комментариев к текстам и др.

Но что же известно о самой структуре Энц Зн? Существуют ли какие-нибудь опоры в теории? Трудно ответить на этот вопрос односложно, так как Энц-феномен пока еще изучен недостаточно. В силу своей природы это, несомненно, объект междисциплинарного исследования, затрагивающий интересы таких гуманитарных областей, как лексикография, методология Зн, "классическая" документалистика, библиотековедение н др. Отсутствие в них Энц-проб-лематики в целом дает редкую возможность строить "непредвзятую" концепцию Энц Зн, о которой априори известно лишь то, что она должна включать, по крайней мере, два измерения - представление и обработку Зн.

"Базовый треугольник" энциклопедической модели: текст, пространство знаний и энциклопедическая деятельность

Рассмотрим в самых общих чертах основные проблемы, возникающие при построении Энц-модели, и наметим некоторые способы их решения.

Таких "горячих точек" будет, по крайней мере, три: собственно Энц-текст и мета-текст; организация Энц-пространства; типы и механизмы Энц-деятельности.

Текстовая начинка для компьютерных Энц может быть изготовлена по разным рецептам.

В простейшем случае, вообще говоря, компьютерными Энц считают обыкновенные машиночитаемые копии традиционных изданий. Кроме того, Энц-текст для компьютерной Энц можно просто скомпилировать из различных печатных источников. Наконец, его можно- создавать заново на пустом месте. В последних двух случаях естественно и целесообразно использовать компьютерный инструментарий; в идеале -специализированный Энц-АРМ, который бы не только помогал в подготовке текста, но и поддерживал некоторые традиционные Энц-функции (чтение, просмотр и др), а также мета-функции (анализ предметной области и терми-н<3полей и др.). Такой АРМ будет сочетать возможности нескольких типов АРМов, в частности такие функции, как извлечение и накопление Зн, поддержка полнотекстовых баз Зн, фактографический информационный поиск и др.

В отличие от традиционных Энц текст, создаваемый с помощью компьютера и рассчитанный на компьютерное использование, интерпретируется и маркируется в терминах мета-Зн, которые потребуются для дальнейших операций с Энц.

Если рассматривать Энц-модель как многофункциональный источник Зн И Зн о Зн, то нецелесообразно строить мета-уровень ad hoc. Скорее всего, это вообще невозможно сделать, не имея полной, сквозной концепции структуры Энц Зн, которая бы включала, с одной стороны, Зн о" структуре Энц-пространства, а с другой -Зн о компонентах Энц Зн, операндах Энц-дея-тельности.

Задача, таким образом, состоит в том, чтобы реконструировать целостный скелет Энц и свести разнообразие Энц-форм к ограниченному набору единиц и структур. В основу такого подхода кладется гипотеза о том, что Энц-про-странство устроено как двухъярусная конструкция, где первый ярус образуют крупные фрагменты знаний - макросы Зн, имеющие регулярную структуру, а второй - их компоненты -микросы, организующие эти фрагменты и участвующие в операциях над Зн. И те, и другие выделяются по функциональным критериям в рамках рассматриваемых типов Энц-деятель-ности и процедур.

Теперь следует уточнить, что понимается здесь под Энц-деятельностью, какие ее типы, а также процедуры избраны для моделирования. Это - третья и последняя и5 проблем, образующих базовый треугольник.

Здесь рассматриваются два типа Энц-дея-тельности: составление и чтение. (Аналитическая сфера пока остается в стороне).

Составление Энц включает три интеллектуальных процедуры:

•      формирование содержательной субстан ции Зн (чистого Зн) для Энц-статей;

•      упаковку содержательных субстанций в текстовые и словарные оболочки по опреде ленным лексикографическим стандартам;

•      аранжировку Зн в Энц-пространстве пу тем установления кросс-референций между понятиями, то есть Энц-статьями.

Чтение Энц здесь рассматривается как интеллектуальный акт, включающий* по крайней мере, две следующие операции:

•      извлечение локальной Энц-информации (прямого Зн) из отдельно взятых Энц-статей;

•      генерацию больших фрагментов Зн (кос венного Зн), состоящих из ассоциированных Энц-статей или их фрагментов.

Такие фрагменты Зн мы назовем Энц-дис-курсами.

Энц-дискурс формируется самим читателем в ходе целенаправленного или спонтанного просмотра Энц.

Характер процедур, их механика существенно определяют архитектуру Энц-пространства в модели. В то же время механизмы конкретных процедур зависят от того, насколько "прозрачным" окажется его строение, и какие структурные элементы удается вычленить в нем. В дальнейшем мы уточним соотношение между структурами и процедурами.

От архитектуры энциклопедического пространства к стратегиям обработки знаний

Строение Энц-пространства можно исследовать в двух ракурсах: "извне и сверху", "изнутри и снизу", что определяет два различных направления и стиля анализа.

Первый основывается на метафорах, и его цель - получить некоторую достаточно полную картину Энц-пространства, выписанную "крупными мазками", где были бы представлены макросы Зн в их взаимодействии.

Анализ второго типа предполагает проникновение в глубины Энц-пространства с тем, чтобы извлечь и систематизировать базовые элементы, или микросы Зн.

Таким образом, как мы уже говорили, Энц-пространство предстанет в виде двухъярусной конструкции, причем единицы первого яруса мы будем называть концептами, а второго -конституэнтами.

В данном разделе мы рассмотрим строение первого яруса, или яруса концептов, а в следующем - обратимся к анализу конституэнтов.

Необходимо пояснить прежде всего, что подразумевается здесь под концептом, поскольку этот термин многозначен. Идея концепта как Зн о понятии используется нами для того, чтобы достичь достаточно абстрактного уровня рассуждений об архитектуре Энц-пространства; при этом его архитектура трактуется как ансамбль концептов. Сами же Энц-концеп-ты рассматриваются как крупные, "самодостаточные" отрезки или, точнее говоря, оболочки Зн двух типов {в основе типологии лежат уже известные пространственно-процедурные критерии), а именно: интра-концепты, или локальные концепты (прямое Зн); транс-концепты, или пространственные концепты (косвенное Зн, Энц-дискурсы).

Если интра-концепты суть стабильные фиксированные единицы Зн, то транс-концепты существуют только потенциально. Они актуализируются самим читателем в ходе просмотра

Энц-пространства, то есть движения по ссылкам.

Развивая архитектурную метафору, мы прибегнем к еще одной фигуре - образу миров - и будем рассматривать концепты как носители двух миров понятий, толкуемых в Энц. Соответственно мы назовем их внутренними и внешними.

Внутренние миры понятий заключены в Энц-статьях и замыкаются в их рамках. Внешние миры рассеяны в открытом Энц-простран-стве и строятся на связях между понятиями (статьями). Оба мира одного и того же понятия, а также миры разных понятий постоянно взаимодействуют, проникают друг а друга, наконец, вступают в коллизии. Это происходит, например, при распределении Зн между Энц-статьями и открытым Энц-пространством, а также вызывается необходимостью оперировать одновременно концептами обоих типов. Основные коллизии разыгрываются между следующими Энц-сущностями:

•      дискретными единицами Энц-пространст ва (статьями) и континуальностью его содер жания;

•      Жесткими оболочками Энц-статей и их мягким текстовым наполнением;

•      хорошо структурированным телом Энц- статьи и размытой фактурой Энц-пространства.

По-видимому, данные эффекты восходят к некоторому более общему принципу, который мы здесь назовем глобальным Энц-парадоксом. Он заключается в антиномии между целостностью Зн и дробностью его представления, которая программируется самим лексикографическим стандартом для Энц.

Чтобы сгладить эти противоречия, в модели необходимо прибегнуть к гибридным средствам представления Зн и к гибридным стратегиям обработки конфликтующих сущностей. Очевидно, что манипуляции С интра-концепта-ми или содержимым Энц-статеЙ, потребуют жестких форм и процедур (семантическая сеть, обход дерева и др.). Напротив, генерация транс-концептов (Энц-дискурсов) в ходе свободной навигации в открытом Энц-пространстве достигается мягкими средствами, одним из которых может стать гипертекст. Образно говоря, сама по себе Энц-оболочка, буквально насквозь пронизываемая кросс-референциями, являет собой прекрасный образец естественной гипертекстовой сети, впроче'м, как и Библия.

При составлении Энц эти стратегии комбинируются: формирование Энц-статей сопровождается расстановкой ссылок и др.

Энциклопедический базис: энциклопедические примитивы и глубинные конституэнты

Второй ярус Энц-пространства включает непосредственно составляющие Энц-концептов (в дальнейшем, для краткости — конституэнты), которые в совокупности образуют Энц-базис. В Энц-базисе, в свою очередь, можно выделить два слоя компонентов: поверхностный и глубинный.

К поверхностному слою относятся элементарные конституэнты, которые мы назовем Энц-примитивами. Это - традиционные лексикографические единицы, регулярно используемые в Энц, например заглавные понятия Энц-статей, дефиниции, содержательные блоки, представляющие собой семантическое расширение дефиниции, ссылки, иллюстрации и др.

Следующий, глубинный слой составляют вторичные конституэнты, выводимые из примитивов. Мы назовем их интерпретирующими, или глубинными конституэнтами. Глубинные конституэнты будут здесь представлены в виде структур и категорий. С их помощью мы надеемся произвести наиболее тонкое, скрупулезное анатомирование Зн, заключенного в Энц-ста-тье; замысел состоит в том, .чтобы отделить лексикографическую оболочку от текстового наполнения, а само это наполнение расщепить на две составляющие: собственно текстовую упаковку и содержательную субстанцию (чистое Зн).

В рамках данной модели глубинной интерпретации подвергаются всего три примитива, которые являются основными опорными точками избранных здесь процедур. Таковы:

•      заглавное понятие, или имя Энц-статьи;

•      ссылки;

•      тело Энц-статьи (текстовая оболочка и содержательная субстанция).

Какими же глубинными конституэнтами интерпретируются эти примитивы?

Для заглавных понятий Энц-статей такими конституэнтами являются таксономические категории, поскольку они определяют, как правило, содержательную структуру статьи. Эти регулярные зависимости используются в информационно-лексикографических стандартах, необходимых для подготовки Энц-статей.

Ссылочная сеть является инструментом организации Энц-пространства; она делает его обозримым и управляемым, прокладывая маршруты просмотра текста, или траектории Энц-дискурсов.

Для того, чтобы облегчить ориентацию в Энц-пространстве, ссылки определенным образом упорядочиваются и локализуются. Поскольку Энц-оболочка имеет сферическую конфигурацию, способ локализации, предлагаемый здесь, не может претендовать на особую точность. Вместе с тем вводятся три пространственные (эекторные) категории, которые условно фиксируют их направления и делят ссылки на вертикальные, горизонтальные, диагональные.

Наиболее интересные результаты, не только с точки зрения моделирования, но и лексикографической теории, дает глубинная интерпретация третьего примитива - тела Энц-статьи.

Здесь обнажаются два следующих пласта:

•      структура субстанции Зг или структура чистого Зн;

•      структура текстовой упаковки Зн.

Им соответствуют два направления в интерпретации Энц-статьи:

•   знаниеориентированное;

•          текстоориентированное. Знаниеориентированный подход включает че тыре уровня анализа:

•      уровень информационных зон;

•      уровень информационных сегментов;

•      уровень топихов;

•      уровень фрейм-схем, по которым стро ятся сегменты и топики.

Текстовая упаковка основывается на трех типах логико-лингвистических конституэнтов, формирующих наиболее важные прагматические особенности текста Энц-статьи, и может быть описана с помощью трех уровней интерпретации. К ним относятся:

•      уровень квазилогических схем предика ции и обоснования Зн;

•      уровень риторических фигур;

•      уровень фабулы и композиции.

Итак, для представления Зн, заключенных в Энц-статьях, потребовалось семь типов конституэнтов. Всегда ли все они присутствуют в структуре Энц-статьи? Как правило, это зависит от двух факторов - типа Энц и специфики предметной области. Здесь же мы приведем лишь некоторые закономерности для знание-ориентированного представления Энц-статьи.

Полный набор конституэнтов (зоны - сегменты - топики - фреймы) реализуется лишь в немногих случаях, а именно, в многопрофильных, общеобразовательных, популярных Энц из области естественных наук с относительно жесткой композицией и вне зависимости от объема материала.

Уровень информационных сегментов доминирует в статьях как популярных, так и некоторых специализированных Энц по искусству, религии и гуманитарным дисциплинам, выдержанных в классической парадигме с присущим ей развернутым и мягким стилем.

Наконец, по топиковому принципу строятся статьи технических Энц, особенно их усеченные версии, приближающиеся к справочникам и толковым словарям.

Концепция Энц Зн, представленная в данной статье, должна пролить свет на такие до сих пор не изученные когнитивные структуры, как эрудиция и Энц-памятъ.

Представляется, что она могла бы стать основой дальнейших теоретических поисков, а также развития "инженерии" Энц, в том числе создания Энц-АРМа, который упоминался ранее.

Наши усилия по апробации данной концепции пока ограничились разработкой отдельных принципов компьютерной поддержки для составления Энц-статей, а также написанием фрагмента некоторой специализированной энциклопедии для готовой компьютерной оболочки.

Расширение сферы приложения Энц-модели, например создание Энц-АРМов для мета-специалистов широкого профиля, будет стимулировать развитие предложенной концепции в разных направлениях.

Функции глубинных конституэнтов и примитивов можно систематизировать с помощью следующей таблицы:

Типы Энц-

Процедуры

Конституэнты

деятельности

   

I. Составление Энц

1. Формирование Энц-статьи

 
 

1.1. Конструирование субстанции Зн

1,2,3,4,5

 

(чистого Зн)

 
 

1.2. Упаковка субстанции Зн в текстовую

6,7,8

 

оболочку

 
 

2. Организация Энц-пространства.

1,9

 

Расстановка ссылок

 

II. Обработка Энц Зн

,

 

1. Чтение

1. Поиск локальной информации в пределах

Энц-статьи

2,3,4,5,

2. Просмотр

2. Навигация по Энц-прост ран ста у

1,9

Примечание. Значения конституэнтов:

1  - таксономическая категория

2  - уровень информационных зон

3  - уровень информационных сегментов

4  — уровень топиков

5  - уровень фрейм-структур

6  - квазилогическая структура текста Энц-статьи

7  — риторические фигуры

8  - фабульно-композиционная структура

9  - векторные категории ссылок


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=1191
Версия для печати
Статья опубликована в выпуске журнала № 2 за 1993 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик: