Технология извлечения информации из текстов, основанная на знаниях

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Технология извлечения информации из текстов, основанная на знаниях

Статья опубликована в выпуске журнала № 2 за 2009 год.
Аннотация:
Abstract:

Авторы: Трофимов И.В. () - , Кормалев Д.А. () - , Куршев Е.П. () - , Сулейманова Е.А. () -
Ключевые слова: представление знаний, анализ естественного языка, извлечение информации
Keywords: representation of knowledge, , data mining
Количество просмотров: 24397	Версия для печати Выпуск в формате PDF (4.72Мб)

Значительная доля информации, доступной в электронном виде, представлена текстами на естественном языке. Заключенная в них полезная информация не структурирована, а значит, ее невозможно обработать и проанализировать классическими вычислительными методами и средствами.

Технология извлечения информации (ТИИ) из текстов на естественном языке позволяет автоматически просматривать относительно большой объем текстов, содержащих сравнительно небольшое количество искомой информации. Обнаруженная в тексте информация преобразуется в структурированный формат: выявляются целевые факты, объекты, отношения в виде, пригодном для дальнейшей автоматической обработки (статистической обработки, визуализации, поиска закономерностей в данных и др.).

Иногда ТИИ рассматривают как специфическую разновидность информационного поиска. Отличия ТИИ от информационного поиска заключаются в том, что запросы должны быть известны заранее, результатом же является не набор ссылок на документы, а построенные структуры данных, описывающие релевантные факты из набора документов.

Приведем некоторые области применения ТИИ:

· расширение возможностей информационного поиска (поиск не по ключевым словам, а по фактам, ситуациям, объектам, отношениям);

· построение досье на персон или организации из открытых текстовых источников;

· мониторинг сообщений СМИ (примеры событий, которые могут представлять интерес: слияние и поглощение компаний, появление новых игроков на рынке, выпуск новой продукции, теракты);

· извлечение специфической метаинформации из коллекций документов большого объема (например, построение реляционной БД с информацией о типах событий, объектах и субъектах по текстовой базе муниципальных нормативно-правовых актов, связанных с недвижимостью).

Первоначально задача ТИИ формулировалась как выделение фрагментов текста, содержащих релевантную информацию, и, возможно, преобразование их в реляционную форму. Для решения задачи в такой постановке часто достаточно анализировать локальный контекст, используя ограниченный набор знаний предметной области. Назовем такую технологию извлечением информации в слабом смысле. Результаты извлечения информации в слабом смысле и характер их представления несколько ограничивают возможности дальнейшего использования добытых из текста данных. Извлечением информации в сильном смысле назовем переход от базы текстовых фактов к такому их представлению, которое можно было бы использовать как интеллектуальный информационный ресурс, своего рода базу текстовых знаний.

Исследования авторов были направлены на усовершенствование методов и расширение возможностей ТИИ, что позволило бы вплотную подойти к решению задачи извлечения информации в сильном смысле. Полигоном для экспериментальной проверки идей и практического воплощения разработанных подходов стала система ИСИДА-Т (интеллектуальная система извлечения данных и их анализа (для обработки текстов)), над которой ведется работа в течение нескольких лет.

Чтобы получить информацию из прочитанного фрагмента текста (понять текст), человек должен знать язык, на котором написан текст, и располагать некоторым объемом «фоновых» знаний. Аналогично система извлечения информации из текста должна располагать средствами анализа естественного языка и некоторым объемом знаний предметной области.

Общая организация системы

Краеугольным камнем системы ИСИДА-Т является точная настройка на предметную область и конкретную задачу извлечения. Это достигается за счет редактирования лингвистических ресурсов, ресурсов знаний, правил извлечения и правил трансформации. Настройка может потребовать также включение в процесс обработки дополнительных специализированных методов обработки текста. Кроме того, для каждой задачи необходимо подобрать наиболее подходящие алгоритмические средства анализа из набора имеющихся. Эти аспекты требуют создания такой архитектуры, при которой легко могут добавляться и замещаться алгоритмические компоненты процесса извлечения.

Конфигурирование на алгоритмическом уровне потребовало создания модульной архитектуры и декларативного подхода к определению процесса извлечения. Модули получили название обрабатывающих ресурсов в противовес лингвистическим ресурсам и ресурсам знаний. В конфигурации декларируются порядок обработки документа аналитическими модулями, потоки данных между ними, а также параметры их работы.

Обрабатывающие ресурсы можно разделить на следующие группы.

· Ресурсы предобработки. К ним относятся средства определения кодировки документа, извлечения текста и стилевой разметки из документа, предварительной фильтрации.

· Ресурсы лингвистического анализа. Осуществляют разбор текста на отдельные слова, морфологический анализ (в том числе специализированные варианты для различных категорий имен собственных), поверхностный синтаксический анализ и определение границ предложений.

· Ресурсы извлечения. Осуществляют поиск в документе целевой лексики и синтаксических конструкций, а также первичное структурирование информации.

· Ресурсы унификации знаний и вывода. Осуществляют унификацию и отождествление элементов знаний, вывод производных знаний.

· Ресурсы подготовки результата. Осуществляют приведение извлеченной информации к определенному формату и передачу за пределы последовательности обработки (в БД, глобальный ресурс знаний, файл, приложение).

Средства анализа естественного языка

Используемые в ТИИ средства для анализа естественного языка можно разделить на две большие категории: средства общего лингвистического анализа и предметно-ориентированные методы распознавания текстовых ситуаций.

Средства общего лингвистического анализа включают графематический, морфологический и синтаксический анализ. Эти средства применимы практически во всех предметных областях, существует ряд реализаций с довольно высокими показателями качества, поэтому останавливаться на них подробно нет необходимости.

Распознавание текстовых ситуаций состоит в выделении фрагментов текста, описывающих объекты, и содержательных связей между этими фрагментами, в той или иной мере основанных на синтаксисе естественного языка. Можно рассматривать распознавание ситуаций как ориентированный на предметную область частичный, но точный синтактико-семантический анализ.

Распознавание основывается на сопоставлении с образцом, заданным при помощи правил на специализированном формальном языке. Правила определяют не только образец, но и действия, которые должны быть выполнены при успешном сопоставлении. Правила работают не с текстом как последовательностью символов, а со структурами, построенными над текстом и выражающими лингвистическую и предметную информацию о нем.

Для упрощения конфигурирования системы желательно, чтобы все модули использовали одинаковый способ представления информации о тексте (разметки текста). Рассмотрим структуры данных, которые используются всеми модулями системы ИСИДА-Т, в том числе средствами общего лингвистического анализа.

Разметка текста и структуры данных

В различных системах обработки текста на естественном языке используется широкий спектр средств для представления лингвистической и предметно-ориентированной информации о тексте в целом или его фрагментах. Единого подхода к представлению разметки текста и информации о нем не существует.

В последнее десятилетие довольно широко используется способ представления информации о тексте, основанный на так называемых аннотациях, отличающийся простотой и высокой степенью универсальности [1]. Сегодня многие системы обработки текста в той или иной степени используют идеи модели аннотаций.

Аннотация – объект, который приписывается фрагменту текста (например, слову, словосочетанию, предложению, ссылке на сущность предметной области и т.д.) и описывает свойства этого фрагмента. Аннотации разбиты на конечное множество классов. Каждый класс аннотаций описывает текст в определенном аспекте. Информация о фрагменте представлена значениями именованных атрибутов аннотации. Наборы классов и атрибутов аннотаций намеренно не специфицированы, чтобы можно было использовать произвольный набор обрабатывающих модулей и представлять необходимую лингвистическую и предметную информацию. Обмен данными между модулями тоже идет в терминах аннотаций: новые аннотации могут строиться на основании полученных на предыдущих этапах анализа.

Представление информации с помощью аннотаций дает возможность разрабатывать средства анализа текста, компоненты которых слабо связаны между собой. Не отражающееся на функциональных характеристиках сложной системы уменьшение числа зависимостей между ее составляющими облегчает ее понимание, разработку и поддержку. Слабая связность – это существенное преимущество, так как она повышает возможность повторного использования компонентов и снижает риск критических сбоев, вызванных неправильным взаимодействием компонентов (например, из-за того, что в цепочке обработки какой-то компонент ошибочно не был зарегистрирован или же частично нарушился порядок обработки).

Впрочем, базовая модель аннотаций не лишена недостатков. В частности, в ней не предусмотрены средства проверки соответствия атрибутов и их значений. Атрибуты могут быть только атомарными. Отсутствует возможность установления связей между отдельными аннотациями. Нет средств для контроля расположения границ ан- нотаций разных классов, в то время как для большинства классов аннотаций можно задать условия, описывающие их взаимное расположение. Например, аннотации, описывающие синтаксис предложения в терминах системы составляющих, не могут пересекаться – для них возможно только отношение строгого вхождения или совпадения.

В реализации системы ИСИДА-Т модель аннотаций дополнена некоторыми полезными средствами. В частности, было снято ограничение на атомарность атрибутов и добавлена возможность устанавливать ссылки между аннотациями.

Язык правил распознавания текстовых ситуаций

Для распознавания текстовых ситуаций используется набор правил, описывающих характерные для конкретной задачи способы выражения ситуации в тексте. Эти правила задают образец для сопоставления и действия, которые должны быть выполнены после успешного сопоставления. Качество работы (полнота и точность) ТИИ тесно связано с возможностями языка правил. Ряд современных систем извлечения информации (в том числе система ИСИДА-Т) берут за основу различные диалекты языка CPSL [2]. Использование этого языка подразумевает разметку текста при помощи аннотаций.

Единицей трансляции языка правил является фаза. Правила, входящие в одну фазу, применяются в недетерминированном порядке. Результаты фазы – изменения, внесенные в набор аннотаций после работы правил, – фиксируются после применения всех правил и становятся доступными в последующих фазах. Поэтому правило не может использовать результаты работы другого правила из этой же фазы. Можно рассматривать фазу как модуль для специфического анализа текста. Работа фаз может перемежаться применением произвольных обрабатывающих ресурсов.

Правило – основная единица языка. Правила представляются в виде «образец®действие». Здесь «образец» – образец для поиска в терминах высказываний о взаимном расположении и значениях атрибутов аннотаций разных классов (левая часть правила); «действие» – набор действий, выполняемых при успешном сопоставлении (правая часть правила). По структуре левая часть правила во многом схожа с регулярным выражением, но существенное отличие состоит в том, что роль символов в правиле играют тесты. Тест представляет собой конъюнкцию высказываний (элементарных тестов) о значениях атрибутов аннотаций разных классов. Из тестов могут образовываться сложные конструкции с использованием следования, альтернативы, квантификаторов и скобок. Чтобы обозначить границы фрагментов текста, сопоставленных подвыражениям, используются метки. Метка – это идентификатор, которым помечается образец. В дальнейшем (при выполнении действий в правой части правила) можно использовать метку для ссылки на фрагмент текста, сопоставленный подвыражению.

Язык правил, используемый в системе ИСИДА-Т, является расширением CPSL. Предлагаемые нами расширения преследуют две цели: обеспечить возможность описывать более сложные контексты, в которых встречается целевая информация, и снизить объем рутинной работы при создании системы правил за счет более компактного описания контекста. Расширения включают в себя поддержку дополнительных типов данных, большего числа квантификаторов и метасимволов. Помимо этого, реализована поддержка переменных и списков значений, существуют гибкие возможности проверки взаимного расположения аннотаций.

Общая проблема средств распознавания текстовых ситуаций – резкое снижение производительности. Для решения проблемы использовались два основных способа оптимизации интерпретатора правил: предобработка правил путем анализа потоков управления и сокращение перебора кандидатов при выполнении тестов [3]. Внедрение этих модификаций позволило ускорить интерпретацию правил в среднем в 6 раз в зависимости от конфигурации системы и качества входных данных (в отдельных случаях наблюдался прирост производительности до двух порядков). В большинстве случаев повышение производительности сопровождалось снижением расхода памяти на 20–40 %.

Ресурс знаний

Практически в любой предметной области для точного извлечения требуются априорные знания о ней – знания о понятиях, объектах и отношениях, связанных с целями извлечения или являющихся целями. В свою очередь, извлеченная из текстов информация может содержать новые знания о предметной области и быть полезной для дальнейшей автоматической обработки текста. Тесная связь между априорной и извлеченной информацией, а также между предметными и лингвистическими знаниями сформировала потребность в унификации средств представления.

Представление знаний. Интегрированный ресурс знаний (РЗ) системы ИСИДА-Т объединяет в себе базу априорных предметных знаний, хранилище фактографической информации и словарь. Предметные знания хранятся в РЗ в структурах, называемых элементами знаний. Элементы знаний делятся на 4 категории: концепты (CT), экземпляры концептов (CI), типы предметных отношений (RT), экземпляры отношений (RI). В данной работе в подходе к представлению знаний используются элементы семантических сетей и систем фреймов.

Концепты и типы отношений служат для представления онтологической информации о предметной области и задаются априорно. Экземпляры концептов и отношений составляют базу фактов предметной области и могут быть как априорными, так и извлеченными из текстов.

Для каждого элемента знаний задается набор атрибутов. В списках атрибутов CT и RT хранятся пары «имя–ограничения на значение», в списках атрибутов CI и RI – пары «имя–значение». В терминах системы фреймов CT и RT выражались бы прототипами фреймов, а CI и RI – экзофреймами. Неявно определены два специальных (служебных) типа отношений: ISA и AKO. Их интерпретация такая же, как в системах фреймов.

Лингвистическая составляющая ресурса знаний – словарь. Словарь связан с базой предметных знаний посредством ссылок от дескрипторов к элементам знаний: дескрипторы словаря базовой лексики ссылаются на концепты, а дескрипторы словаря собственных имен – на априори известные экземпляры концептов из базы фактов. В отличие от тезауруса дескрипторы в словаре базовой предметной лексики не связаны друг с другом никакими парадигматическими отношениями (последние выражаются с помощью отношений между соответствующими элементами базы предметных знаний).

Словарь предоставляет возможность указывать дополнительные ограничения на все словоформы, входящие в состав дескриптора и синонимов, чтобы увеличить точность распознавания словарных единиц в тексте. Унификация априорных и извлеченных из текстов знаний удобна тем, что позволяет использовать одни и те же средства для работы с обоими типами знаний. Объединение лингвистических и предметных знаний в одном ресурсе, во-первых, облегчает первичное наполнение и последующую поддержку, а во-вторых, дает возможность использовать предметные знания уже на этапе первичной обработки текста правилами извлечения информации. Благодаря специально разработанному языку запросов к РЗ правила могут не ограничиваться словарной информацией, а обращаться в онтологию и базу фактов для проверки различных условий, требующих навигации по отношениям.

Трансформации. После извлечения информации из текста и помещения ее в хранилище фактографической информации часто требуется дополнительная обработка для ее унификации и уточнения. На основе такой обработки может решаться целый спектр задач:

· навигация по связанным объектам, фактам и ситуациям;

· определение и объединение тождественных элементов;

· кластеризация сходных сюжетов;

· вывод имплицитной фактографической информации;

· генерация текстовых описаний фрагментов фактографической базы.

Для проведения экспериментов по преобразованию извлеченной фактографической информации был разработан язык трансформаций и выполнена экспериментальная программная реализация интерпретатора этого языка.

Трансформацию элементов ресурса знаний можно рассматривать как особый вид немонотонного вывода на знаниях. При трансформации происходят поиск образца ситуации в ресурсе знаний и выполнение указанных действий. Для описания ситуации можно задавать ограничения на типы элементов знаний, их атрибуты, наличие или отсутствие отношений того или иного типа между ними. Попытка выполнить действия производится для каждого набора элементов знаний, для которых выполняются условия, указанные в посылке правила трансформации. Набор действий включает создание, удаление, модификацию элементов знаний, манипулирование их атрибутами.

Особенностью языка правил трансформации является сочетание декларативных и императивных элементов.

Для эффективного выполнения трансформаций были разработаны оригинальные алгоритмы предобработки правил трансформации и подготовки вспомогательных структур в ресурсе знаний, с которым будет идти работа.

Глобальный РЗ (ГРЗ). Информация, извлеченная из одного документа, помещается в РЗ, ассоциированный с рабочим процессом, – так называемый локальный РЗ. Если требуется выполнять параллельную, асинхронную обработку большой коллекции документов, извлеченная информация помещается в специальное хранилище – ГРЗ. ГРЗ обеспечивает целостность извлеченной информации. Он не содержит промежуточных результатов извлечения, появление которых допустимо в локальных РЗ. Помимо этого, ГРЗ по специальным правилам устанавливает тождественность сущностей и отношений, извлеченных из разных документов.

Структурными элементами ГРЗ являются все те же элементы знаний. Однако архитектурное устройство ГРЗ кардинально отличается от локального варианта. Во-первых, ГРЗ рассчитан на хранение больших объемов информации и использует дисковые накопители. Во-вторых, объем информационных потоков не должен быть ограничен как со стороны параллельно работающих систем извлечения, так и со стороны пользователей извлеченной информации. Поэтому архитектура ГРЗ допускает масштабирование по модулям обслуживания запросов со стороны внешних систем. Масштабироваться также должен процесс отождествления сущностей, извлеченных из разных документов. В противном случае ГРЗ будет иметь ограничение по объему входных данных, причем с их ростом в самом ГРЗ это ограничение будет становиться все более жестким.

В заключение отметим, что описанные в статье методы и подходы могут найти применение в технологических цепочках хранилищ знаний, для построения и наполнения ресурсов знаний разного рода, для повышения точности и обогащения результатов работы поисковых машин. Методы обработки текста и работы со знаниями, реализованные в системе ИСИДА-Т, создают основу для средств извлечения информации в сильном смысле. Такие средства не ограничиваются разметкой текста, они подразумевают переход от корпуса текстов к такому представлению фактографической информации, которое можно было бы использовать как интеллектуальный информационный ресурс – своего рода базу текстовых знаний.

Литература

1. Grishman R. TIPSTER Text Architecture Design. Version 3.1. New York: NYU, 1998.

2. Appelt D.E. The Common Pattern Specification Language: Technical report / SRI International, Artificial Intelligence Center. 1996.

3. Кормалев Д.А. Повышение производительности при распознавании текстовых ситуаций // КИИ-2008: тр. Одиннадцатой нац. конф. по искусствен. интел. с междунар. участием (Дубна 28 сентября–3 октября 2008 г.). М.: ЛЕНАНД, 2008. Т. 2. С. 192–200.

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=2249	Версия для печати Выпуск в формате PDF (4.72Мб)
Статья опубликована в выпуске журнала № 2 за 2009 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей

Программные продукты и системы

Авторитетность издания

Добавить в закладки

Следующий номер на сайте

Выпуски

Технология извлечения информации из текстов, основанная на знаниях