Юридические документы: семантический анализ без использования лингвистических моделей

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№4

Ожидается:

09 Декабря 2024

Выпуски

2024

2023

№4 2023

все выпуски

все статьи

Подписаться на RSS

Юридические документы: семантический анализ без использования лингвистических моделей

Статья опубликована в выпуске журнала № 1 за 2006 год.
Аннотация:
Abstract:

Авторы: Кафтанников И.Л. () - , Коровин С.Е. () -
Ключевое слово:
Ключевое слово:
Количество просмотров: 13627	Версия для печати Выпуск в формате PDF (1.26Мб)

Автоматический смысловой анализ юридических документов чрезвычайно затруднен, несмотря на то, что большинство из них имеют электронные копии. На наш взгляд, это объясняется следующим.

Первая причина заключается в том, что юридические документы представляют собой естественно-языковые тексты, то есть фактически неформализованную информацию.

Существует два основных подхода к реализации семантического анализа естественно-языковой информации.

Первый подход (назовем его лингвистическим) концентрирует внимание исследователей на поиске методов интерпретации синтаксических и поверхностно-семантических конструкций естественного языка – ассоциации лексем и словокомплексов текста с некоторой соответствующей им системой понятий. Такая постановка проблемы позволяет эффективно решать задачи, связанные со знаковой системой языка (задачи смыслового поиска, автоматического реферирования и т.п.). Однако поверхностно-семантические модели (словари понятий, на которые отображаются лексемы и правила этого отображения) сложны, объемны и существенно изменяются от одной предметной области к другой, что снижает эффективность их практического использования.

Второй подход заключается в создании искусственных семантических моделей (глубинно-семантических моделей) как универсальных, так и для определенных предметных областей. Семантическая модель – это необъемная система однозначных и строго структурированных понятий, полученных путем обобщения концептов (понятий) естественного языка или его некоторого подмножества. С семантической моделью ассоциируется формализованная нотация, еще более упрощающая автоматический анализ. В последние десять лет подобный подход получил довольно большое распространение (наиболее ярким примером является язык web-онтологий OWL). Однако и у него есть существенный недостаток: семантическая модель представляет собой лишь каркас. Для реализации семантического анализа этот каркас должен быть заполнен конкретной информацией, в нашем случае – содержащейся в естественно-языковом документе. Сделать это под силу пока лишь человеку.

Таким образом, оба указанных подхода оказываются малопригодными в контексте анализа юридических документов: первый подход позволяет создавать лишь относительно простые алгоритмы анализа, а второй требует предварительной ручной формализации документа.

Второй причиной, препятствующей автоматизации смыслового анализа юридических документов, является – как это не парадоксально звучит – низкий спрос на данную технологию со стороны самих ²производителей информации² (в частности, нотариальных контор). Дело в том, что юридические документы как база знаний интересны, главным образом, аналитическим организациям. Нотариальные же конторы к таковым не относятся. То есть в юридическом документообороте имеет место разграничение производства и потребления информации.

Итак, отсутствие прямого спроса, с одной стороны, и слабая развитость технологий семантического анализа, с другой стороны, делают чрезвычайно затруднительным использование большого пласта юридических документов (в частности, в области гражданских правоотношений) как базы знаний. За последние десять лет было предпринято несколько попыток кардинально решить эту проблему, однако широкого распространения они не получили.

Со стороны производителей информации нет спроса на аналитические программные средства, зато они чрезвычайно заинтересованы в программах, ускоряющих собственно процесс создания документов – синтезаторах документов шаблонного типа. Подобные синтезаторы представляют собой гибкие, легко настраиваемые, шаблоны, позволяющие учитывать всевозможные особые ситуации (в этом их принципиальное отличие от механизма форм в Microsoft Word). Кроме того, они интегрированы с базами данных, содержат возможности ускорения ввода текста (расшифровка прописью чисел, склонение ФИО и т.п.). Очевидно, что именно в таких инструментах прежде всего и нуждаются нотариальные конторы. Что мешает нам объединить гибкий шаблон, являющийся, по сути дела, формализованным представлением документа с глубинной семантической моделью документов данного класса? Тогда в процессе синтеза документа возможно автоматическое наполнение модели соответствующей информацией и последующий ее анализ.

При этом эксперт, разбирающийся в данном классе документов, создает шаблон этого класса, его семантическую модель и устанавливает связи между полями шаблона и элементами модели. Следует учесть, что семантическая модель создается не с нуля, а на базе типовой модели. Далее за дело принимается оператор, который заполняет поля шаблона, даже и не подозревая, что автоматически создает смысловое представление документа (наполняет конкретной информацией семантическую модель). Смысловые представления используются аналитиками для реализации семантического анализа (в роли аналитиков могут выступать как сами нотариальные конторы, так и сторонние организации). Поскольку смысловые представления документов хранятся в формальном виде, то не представляет особого труда создать достаточно сложные алгоритмы их анализа с использованием специальных инструментальных средств (XML-анализаторов).

Таким образом, данная технология позволяет избежать использования лингвистического подхода в процессе смыслового анализа документов и задействует второй подход – применение глубинных семантических моделей. Платой за это становится использование труда эксперта, правда, использование достаточно эффективное, так как шаблоны и семантические модели создаются сразу для целых классов документов и не требуют каждодневного изменения. Кроме того, эксперту предлагается в качестве инструмента типовая семантическая модель.

В качестве типовой семантической модели могут выступать далеко не все известные языки представления знаний. В частности, модель RDF, лежащая в основе упомянутого языка web-онтологий OWL, является по своей сути хорошо известной в теории искусственного интеллекта семантической сетью, серьезный недостаток которой – статичность смыслового представления. В юридических же документах любого аналитика прежде всего заинтересует ретроспектива некоторых изменений (движение объектов собственности, изменение отношений между людьми и т.п.). Поэтому была предложена смысловая модель документа, нацеленная на моделирование динамической семантики.

В основе семантической модели (Коровин С.Е. Семантико-прагматическая модель документа в нотации XML. http://zhurnal.ape.relarn.ru/articles/2002/ 123.pdf) лежит достаточно очевидная идея: человек представляет окружающий мир в виде объектов, характеризуемых свойствами и отношениями между собой, или, другими словами, своими состояниями. Состояния объектов постоянно изменяются. Существует два способа рассмотрения этих изменений: временной (изменения состояний рассматриваются относительно некоторого эталонного изменения – времени) и причинно-следственный (изменения состояний одних объектов рассматриваются относительно состояний других объектов, с которыми они взаимодействуют). Таким образом, динамическая семантическая модель должна представлять собой описание временной и причинно-следственной составляющих изменения свойств и отношений взаимодействующих между собой объектов.

В модели предложено два способа для описания движения объектов. Первый способ заключается в разбиении процесса изменения свойств и отношений объекта на статические состояния (мгновенные снимки). Ему, например, соответствует математическая модель абстрактный автомат. Второй способ заключается в формировании последовательности переходов (то есть единичных изменений) объекта. Он позволяет более точно и компактно описывать каждое конкретное изменение и по своей сущности напоминает табличное представление функции. Модель в определенной степени напоминает по своей структуре сети Петри, хотя в понятие перехода здесь вкладывается совершенно иной смысл.

Элементами верхнего уровня семантической модели являются временная шкала и объект. При моделировании явления, описываемого в документе, в нем выделяются взаимодействующие объекты, после чего движение каждого объекта описывается отдельно.

Временная шкала разбивает моделируемое явление на несколько последовательных интервалов путем введения ключевых моментов. Описание осуществляется либо посредством указания абсолютного времени момента, либо путем его ассоциации с некоторым ключевым событием. Заданные таким образом моменты используются далее при описании временных промежутков конкретных переходов и состояний объектов.

Объект характеризуются своими свойствами, отношениями, и если он является системой – структурными связями (парами вида ²объект1–объект2², множество которых позволяет задать структуру системы).

При описании объекта прежде всего задаются статические свойства, отношения и структурные связи (те, которые не изменяются на всем протяжении моделируемого явления; например, наименование объекта). Они размещаются внутри элемента ²объект² и не входят в элементы ²переход² и ²состояние².

Далее осуществляется описание движения объекта. Для этого вводится последовательность переходов (они группируются друг за другом в порядке их возникновения). Каждый переход содержит в себе следующие элементы: ²характер², ²время², ²условие², ²причина², ²следствие² и набор элементов, которые, собственно подвергаются изменению (²свойство², ²отношение², ²структурная связь²).

Характер описывает сущность изменения: появление, прекращение, изменение, совершение (появление или исчезновение свойства, отношения; изменения значения свойства или роли отношения, совершение действия).

Время ассоциирует данный переход с одним из интервалов временной шкалы. Для этого в него входят такие элементы, как ²В_МОМЕНТ², ²ДО² и ²ПОСЛЕ², значения которых – моменты абсолютного времени или ключевые события. Множество таких элементов определяет конкретный временной интервал данного перехода.

Условие, причина и следствие характеризуют данный переход как элемент некоторой причинно-следственной связи. Эти элементы указывают на переходы, отношения, конкретные элементы переходов (свойства, отношения, структурные связи), которые являются соответственно условиями, причинами и следствиями данного перехода.

Помимо описания движения в виде переходов, модель также поддерживает описание движения в виде совокупности состояний, расположенных в порядке их смены. Этот уровень описания является более абстрактным, чем основной способ, и дополняет его. Он присутствует в модели как минимум в виде пары начальное и конечное состояния. Однако эксперт, формирующий модель, может ввести в нее любое число промежуточных состояний. Каждое состояние содержит описание временного промежутка, в течение которого оно имеет смысл, и всех свойств, отношений и всех структурных связей объекта, которыми он обладает в данном временном промежутке.

Рассмотрим небольшой отчет, полученный в результате выполнения поискового запроса по тестовой базе знаний (анализировалась история купли-продажи конкретной квартиры; все адреса и фамилии заменены на латинские буквы).

Поисковый запрос:

ВЫБРАТЬ ОБЪЕКТ.ИСТОРИЯ (ИМЯ=’Квартира’ И СВОЙСТВО (ИМЯ=’Адрес’, ЗНАЧЕНИЕ=’*A*B*C-D’))

Результат выполнения запроса показан в таблице.

Таблица

ИСТОРИЯ ИЗМЕНЕНИЙ ОБЪЕКТА "Квартира":

Всего просмотрено моделей: 50;

Из них в анализ включено: 2

Дата самого раннего документа: 20.09.2001;

Дата самого позднего документа: 23.09.2001

Дата	Период	Изменение	Участники	Причина изменения
20.09.2001	В_МОМЕНТ (заключение договора)	Объект (объект_действия) подвергся действию "Купля-продажа"	Участник X; участник Y; нотариус N
	ПОСЛЕ (заключение договора); ДО (регистрация договора)	Объект (объект_действия) подвергся действию "Передача квартиры"	Участник X; участник Y	Совершение действия "Купля-продажа"
	ПОСЛЕ (передача квартиры); ДО (регистрация договора)	Объект (объект собственности) изменил характер отношения "Владение квартирой"	Участник Y	Совершение действия "Передача квартиры"
23.09.2001	В_МОМЕНТ (заключение договора)	Объект (объект_действия) подвергся действию "Купля-продажа"	Участник Y; участник Z; нотариус N
	ПОСЛЕ (заключение договора); ДО (регистрация договора)	Объект (объект_действия) подвергся действию "Передача квартиры"	Участник Y; участник Z	Совершение действия "Купля-продажа"
	ПОСЛЕ (передача квартиры); ДО (регистрация договора)	Объект (объект собственности) изменил характер отношения "Владение квартирой"	Участник Z	Совершение действия "Передача квартиры"

Аналитика-практика в этой таблице заинтересуют 3 и 4 колонки, они показывают цепочку движения объекта собственности из рук в руки, зарегистрированную в данной нотариальной конторе. Если же аналитик имеет доступ к базам знаний нескольких нотариальных контор, а еще лучше, всех нотариальных контор, то ему будет доступен автоматический анализ полного движения данного объекта собственности, а также множество иной ценной информации.

В статье мы кратко описали подход, позволяющий реализовывать полноценный семантический анализ документов без использования лингвистических инструментов. Данный подход был апробирован в нескольких нотариальных конторах г. Челябинска и показал свою принципиальную работоспособность. Однако авторам пришлось столкнуться с рядом неожиданных проблем, для решения которых пришлось ввести в язык описания шаблонов конструкции, близкие к операторам структурных языков программирования (конструкции условия и цикла). Также выяснилось, что правильнее создавать не шаблоны документов, а шаблоны стандартных ситуаций, описываемых в них, например: шаблон описания физического или юридического лица, шаблон описания определенного правоотношения и т.д. С одной стороны, это усложняет исходную задачу семантического анализа. Однако, с другой стороны, идя таким путем, мы фактически формализуем ику предметной области нотариальных документов, выделяем базовые конструкции юридического языка как подмножества естсемантественного языка. Все это сближает глубинную семантическую модель с лингвистическими моделями, что в перспективе позволит существенно повысить эффективность семантического анализа. Возможно, даже удастся анализировать юридические документы в их непосредственном, неформализованном виде.

Постоянный адрес статьи: http://swsys.ru/index.php?id=476&page=article	Версия для печати Выпуск в формате PDF (1.26Мб)
Статья опубликована в выпуске журнала № 1 за 2006 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей

Программные продукты и системы

Авторитетность издания

Добавить в закладки

Следующий номер на сайте

Выпуски

Юридические документы: семантический анализ без использования лингвистических моделей