Многопользовательский подход к созданию систем автоматической обработки текстов

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Многопользовательский подход к созданию систем автоматической обработки текстов

Статья опубликована в выпуске журнала № 3 за 2007 год.
Аннотация:
Abstract:

Автор: Чередниченко А.В. (A.Cherednichenko@mail.ru) - Московский государственный университет леса
Ключевое слово:
Ключевое слово:
Количество просмотров: 8541	Версия для печати Выпуск в формате PDF (2.31Мб)

Активное распространение однопользовательских систем для обработки текстов в настоящее время постепенно приводит к тому, что совместная работа нескольких пользователей над одним текстом в один момент времени практически невозможна. Многопользовательские же системы автоматической обработки текстов носят коммерческий характер. Соответственно, при создании коммерческих систем разработчики закладывают в архитектуру системы использование конкретной реализации лингвистических процессоров и анализаторов. При таком подходе все сложности по использованию и сопровождению подобных систем являются непреодолимым препятствием как на пути реального развития компьютерной лингвистики в целом, так и при полноценной функциональной автоматизации бизнес-процессов, связанных с автоматической обработкой текстов.

Одним из главных принципов работы системы является независимость ядра от конкретных задач. Механизмы анализа текстов реализованы при помощи динамического подключения внешних анализаторов. Конкретным решением является подключение произвольного анализатора к динамически подключаемой библиотеке, входящей в состав системы. Объекты, с которыми необходимо работать для решения конкретных лингвистических задач, определяются при разработке структуры базы данных. При обработке текстов предлагается использовать последовательность действий (далее шаблон анализатора, или шаблон), объединенных общей идеей обработки. Шаблоны могут объединяться в цепочки, могут быть применены циклически к одному и тому же множеству предложений, могут осуществлять вызовы друг друга с передачей параметров в любой момент выполнения. Подобная схема позволяет обработать различные участки текста с применением различных шаблонов. Например, при обработке текста из интернет-источников (статьи с новостных сайтов, результаты поисковых запросов, результаты голосований) требуется общий предварительный морфологический анализ и конкретный синтаксический. Анализ подобных текстов требует различных подходов, однако должен предваряться одинаковым морфологическим анализом, соответственно, после выполнения работы одного общего анализатора по результатам его работы могут быть вызваны различные синтаксические шаблоны. Поскольку под шаблоном понимается лишь последовательность действий, а не конкретная реализация какой-либо модели анализа, то он является независимым от этой реализации.

При обработке текстов последовательно выполняются шаги различных шаблонов с различными типами действий (по сути, в результате выполнения шага будет изменяться текущее состояние исходного текста или базы данных). Параметры этих действий создаются и редактируются администратором системы. В момент выполнения шаблона возможно обращение к результатам выполнения предыдущих шагов (возможна относительная или абсолютная адресация). Также при выполнении шага шаблона можно указать условия выполнения данного шага, что позволяет создать схему, в которой задействованные шаблоны или их части будут выполняться в зависимости от некоторых определенных условий (статических или динамически изменяющихся).

После окончания работы всех шаблонов исходный текст может быть представлен в виде семантически связанных объектов с некоторыми свойствами, связями и характеристиками этих связей либо в виде реферата, либо в виде преобразованного текста по типу репрезентативной системы конкретного пользователя. Способы преобразования и анализа исходного текста зависят лишь от администратора системы, который настраивает цепочку шаблонов. Шаблоны не являются жестко закодированными, могут требовать ввода текста или принятия решения пользователем, могут целиком выполняться автономно, сохраняя результаты своей работы либо в базу данных, либо во внутренние переменные сервера анализа для работы других шаблонов над этим же текстом. Реализованная схема позволяет комбинировать виды анализа в необходимой последовательности. Рассмотрим схему, в которой использование каждого из шагов анализа (синтаксис, морфология и семантика) представлено отдельным шаблоном анализа. Аналогичная схема описана в работе С.А. Крылова и С.А. Старостина «Интегрированная информационная среда STARLING и ее использование в сфере корпусной лингвистики» (М. РГГУ. 2006). В такой схеме возможно использование одинаковых схем морфологического и синтаксического анализа, в то время как шаблон семантического анализа будет реализовываться для каждой из поставленных задач отдельно. Например, анализ новостей с целью поиска и выделения информации о новых процессорах и анализ текущей ситуации на дорогах будут представлены двумя различными шаблонами семантического анализа.

Выполнение шаблонов может осуществляться параллельно сразу несколькими пользователями. Максимальное число пользователей, которое может обслуживать один сервер, может быть ограничено физическими параметрами сервера приложений либо сервера базы данных. Синхронизация доступа к базе данных должна быть предусмотрена при создании шаблонов. Выполнение различных шаблонов может быть разделено между несколькими группами пользователей. Таким образом, возможно выполнять анализ однородных данных одной постоянной группой пользователей.

1. Необходимо отметить, что многопользовательский подход в контексте системы, работающей с текстами, может быть реализован с точки зрения индивидуального интерфейса, а также представления результатов работы. Данная идея получила воплощение в виде реализации специального теста и программного интерфейса к компьютерной версии словаря, позволяющего подбирать синонимы к используемым словам с учетом психологических особенностей пользователей (Л. Алекторова, С. Баженова, Г. Галаванова. Словарь синонимов русского языка. Л. 1971). При вводе информации в систему и при проведении анализа сохраненных данных возможно применение словаря синонимов, с помощью которого анализируются психологические характеристики обрабатываемых текстов (http://www.vaal.ru/proekt/ vaal2000. php). Эти характеристики имеет смысл использовать при анализе предметных областей, имеющих неформальное описание объектов, а также при описании объектов, характеристики которых могут быть интерпретированы несколькими аналитиками различными способами. Использование данного словаря допускается не только при анализе текстов, но и при построении интерфейсов пользователей и выводе результатов.

В заключение отметим тот факт, что описываемая система реализована как платформа, которая позволяет создавать различные анализаторы текстов. Система содержит все механизмы по администрированию ресурсов, что позволяет использовать ее как средство интеграции различных анализаторов с минимальными доработками.

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=358	Версия для печати Выпуск в формате PDF (2.31Мб)
Статья опубликована в выпуске журнала № 3 за 2007 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей

Программные продукты и системы

Авторитетность издания

Добавить в закладки

Следующий номер на сайте

Выпуски

Многопользовательский подход к созданию систем автоматической обработки текстов