На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
09 Декабря 2024

Применение лексического анализа для решения задач автоматической классификации электронной документации

Статья опубликована в выпуске журнала № 4 за 2008 год.
Аннотация:
Abstract:
Авторы: Селяев А.Г. () - , Радионова Ю.А. () -
Ключевые слова: лексический анализ, классификация, архив документов
Keywords: , classification,
Количество просмотров: 13876
Версия для печати
Выпуск в формате PDF (8.40Мб)

Размер шрифта:       Шрифт:

Организации, имеющие в своей структуре архивные подразделения, сталкиваются с многочисленными проблемами управления документами: дублирование, утеря, временные затраты на обработку входящей документации. Автоматизация задач управления архивами позволяет уменьшить риск возникновения указанных инцидентов, повысить оперативность предоставления услуг архивными службами и уменьшить экономические затраты на сопровождение документации. В статье предлагается решение задач подбора комплектов документации с помощью предварительной классификации принимаемых в архив документов на основе анализа обозначения или децимального номера электронных документов.

 

В рамках совершенствования деятельности архивной службы в НПО «МАРС» (г. Ульяновск) была поставлена задача автоматизации процесса классификации документов, атрибуты которых хранятся в электронной базе данных.

Требовалось автоматизировать процесс классификации по следующим основаниям: изделия или тематика работ, виды документации, классы документации (ЕСКД, ЕСПД и др.), разделы документации. Процесс классификации должен проходить автоматически, но с участием оператора (эксперта для корректировки и управления классификацией).

По схеме документооборота на предприятии документы можно разделить на конструкторские, программные, технологические и организационно-нормативные. Таким образом, в таблице Классы документации получаем четыре заранее заданных класса документов: ЕСКД, ЕСПД, ЕСТД, ОНД.

Виды документации определяются по ГОСТам 2.601, 2.602, 2.102, 2.701, виды организационно-нормативной документации – по внутренним стандартам предприятия. Пример заполнения строки для таблицы Виды документации.

Наименование документа

Аббревиатура

Руководство по эксплуатации

РЭ

Габаритный чертеж

ГЧ

Ведомость покупных изделий

ВП

Текст программы на исходном языке

01 12 01

Руководство системного программиста

01 33 01

Стандарт предприятия

СТП NNNN

Внутренняя инструкция

ИУ NNNN

Карта процесса

КР NNNN

При анализе следует учитывать, что для конструкторской и программной документации аббревиатура обычно содержится в конце обозначения, а для организационно-нормативной – в на- чале.

Разделы документации определяем в соответствии с ГОСТом 2.106 и со сложившейся на предприятии системой присвоения децимальных номеров документов. В таблицу Разделы документации заносим следующие строки (цифра в скобках определяет, с какого символа должна начинаться цифровая часть обозначения документа для отнесения документа к данному разделу):

-     прибор, модуль (4);

-     сборочная единица (3);

-     сборочная единица (6);

-     деталь (7);

-     программный комплекс (1);

-     программный компонент (2).

Признак «Изделие» будет определяться в процессе классификации.

Сущности базы данных:

-     картотеки электронной и бумажной документации;

-     изделия (темы работ);

-     виды документации;

-     классы документации;

-     разделы документации;

-     классификатор.

Атрибуты сущностей базы данных.

·     Список документов:

-     уникальный код (ключевое поле);

-     обозначение документа (децимальный номер).

·     Изделия:

-     уникальный код (ключевое поле);

-     наименование изделия (темы работы);

-     обозначение головной спецификации.

·     Виды документации:

-     уникальный код (ключевое поле);

-     наименование;

-     аббревиатура (сокращенное обозначение вида документа).

·     Классы документации:

-     уникальный код (ключевое поле);

-     наименование.

·     Разделы документации:

-     уникальный код (ключевое поле);

-     наименование;

-     цифра, по которой будет определяться раздел.

·     Классификатор:

-     код документа;

-     вид классификации;

-     код класса.

Алгоритм анализа обозначения документа

Задача алгоритма заключается в приведении произвольной строки символов, содержащей децимальный номер, к нормализованному виду и в выделении четырех частей, по которым будет проводиться классификация документа. Алгоритм включает 5 шагов.

1. Анализ расширения файла (поскольку обозначение документа может быть записано в наименовании файла). Расширение файла также может быть признаком и для классификации документа (например, если необходимо выбрать все документы, созданные в различных форматах: Microsoft Word, OpenOffice.org, Adobe PDF). Для этого в базу данных включается справочник расширений с соотнесенными названиями программных продуктов. Эта утилита позже применяется при подготовке комплекта документации для классификации методами индексации текстов.

2. Выделение первой (буквенной) части обозначения. Удаляются все ведущие пробелы и неопознанные символы (не буквы, не цифры, не знаки препинания). Выбираются все символы-буквы до первой встреченной цифры. Далее все знаки препинания (обычно это подчеркивания или тире) заменяются на пробелы, латинские буквы заменяются русскими, строчные – прописными, за исключением определенного набора аббревиатур, которые заранее заданы в латинском, а вернее, английском варианте. Затем строка разбивается на части из списка заранее заданных аббревиатур, чтобы исключить вариант, когда строка составлена более чем из одного слова и пропущены пробелы.

3. Выделение второй (числовой) части. Выделяются все цифры до первого знака препинания, при этом ведется подсчет цифр, и, если их 5, делается вывод о принадлежности документа к ЕСПД, если 6 – к ЕСКД, иначе делается предположение, что документ организационно-нормативный.

4. Выделение третьей части. Используется вывод о принадлежности документа к определенному классу. Для ЕСКД и нормативных документов – все цифры и знаки препинания, для ЕСПД – если идут подряд три цифры, все цифры и знаки препинания, иначе – 6 значимых символов (цифры или буквы). Если длина остатка меньше – просто весь остаток.

5. Выделение четвертой части. Производится выделение текста с первого символа после третьей части и до конца строки с исключением неопознанных символов.

В дальнейшем для классификации получаем четыре части децимального номера документа: Т1, Т2, Т3, Т4. Раздел документации получаем, сравнив первый символ Т2 со справочником Разделы документации. Вид документа определяется исходя из Т1 – для нормативных документов, Т4 – для ЕСКД, Т3 – для ЕСПД. Наименование изделия определяется только для документов, которые относятся к разделам Прибор, модуль и Программные комплексы. Сборочные единицы, изделия, комплекты и детали могут относиться к различным изделиям или вообще быть автономными. Изделие для ЕСКД определяется как Т1+Т2+Т3, для ЕСПД – как Т1+Т2. Если анализируемый децимальный номер отсутствует в справочнике изделий, оператору предлагается ввести новое наименование изделия. Для любого признака классифицирования в случае отсутствия соответствующего обозначения в справочнике оператору предлагается ввести необходимое обозначение и наименование признака. Таким образом, получается классификатор с базой знаний, накапливаемой в процессе классификации.

Разработка приложения

Для проведения процесса классификации и просмотра результатов в удобном для оператора виде создана программа «Классификатор». Для создания использовались среда Borland Delphi 7.0 и СУБД MS SQL Server 2000.

Главное окно программы содержит меню и панель с вкладками, на каждой из которых размещен элемент, позволяющий просматривать и редактировать ту или иную таблицу классификатора.

Строка меню содержит следующие пункты.

·          Заполнение списка децимальных номеров. Список документов заполняется либо из картотеки архива, либо из произвольного каталога с файлами, предполагая, что каждый файл содержит только один документ. Путь к файлам указывается в поле ввода в правом нижнем углу вкладки Список документов.

·     Настройки классификатора. Настройка признака, по которому будет проводиться классификация документов.

·          Запуск процесса классификации. Процесс может быть начат как с документа, который является текущим в списке документов, так и с начала списка – в этом случае необходимо поставить галочку в поле Запуск с начала списка.

·          Список файлов классификатора. Предоставляет возможность сформировать комплект файлов исходя из картотеки с указанными путями к файлам документов либо из произвольного каталога, при этом выбираются файлы в формате Microsoft Word (для совместимости с программами, использующими индексирование текстов документов), и из развернутой иерархии каталогов файлы копируются в один для упрощения процесса классификации.

Просмотреть результаты классификации можно в окне списка документов – для одного документа. Для этого необходимо нажать на кнопку Показать классификацию.

Таким образом, разработан и реализован алгоритм, позволяющий на основе обозначения документа классифицировать его по нескольким заранее заданным признакам. Данное приложение значительно упрощает работы по классификации принимаемых в архив документов и по подбору комплектов документации согласно запросам абонентов архива.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=1620
Версия для печати
Выпуск в формате PDF (8.40Мб)
Статья опубликована в выпуске журнала № 4 за 2008 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик: