Авторитетность издания
Добавить в закладки
Следующий номер на сайте
Применение лексического анализа для решения задач автоматической классификации электронной документации
Аннотация:
Abstract:
Авторы: Селяев А.Г. () - , Радионова Ю.А. () - | |
Ключевые слова: лексический анализ, классификация, архив документов |
|
Keywords: , classification, |
|
Количество просмотров: 13876 |
Версия для печати Выпуск в формате PDF (8.40Мб) |
Организации, имеющие в своей структуре архивные подразделения, сталкиваются с многочисленными проблемами управления документами: дублирование, утеря, временные затраты на обработку входящей документации. Автоматизация задач управления архивами позволяет уменьшить риск возникновения указанных инцидентов, повысить оперативность предоставления услуг архивными службами и уменьшить экономические затраты на сопровождение документации. В статье предлагается решение задач подбора комплектов документации с помощью предварительной классификации принимаемых в архив документов на основе анализа обозначения или децимального номера электронных документов.
В рамках совершенствования деятельности архивной службы в НПО «МАРС» (г. Ульяновск) была поставлена задача автоматизации процесса классификации документов, атрибуты которых хранятся в электронной базе данных. Требовалось автоматизировать процесс классификации по следующим основаниям: изделия или тематика работ, виды документации, классы документации (ЕСКД, ЕСПД и др.), разделы документации. Процесс классификации должен проходить автоматически, но с участием оператора (эксперта для корректировки и управления классификацией). По схеме документооборота на предприятии документы можно разделить на конструкторские, программные, технологические и организационно-нормативные. Таким образом, в таблице Классы документации получаем четыре заранее заданных класса документов: ЕСКД, ЕСПД, ЕСТД, ОНД. Виды документации определяются по ГОСТам 2.601, 2.602, 2.102, 2.701, виды организационно-нормативной документации – по внутренним стандартам предприятия. Пример заполнения строки для таблицы Виды документации.
При анализе следует учитывать, что для конструкторской и программной документации аббревиатура обычно содержится в конце обозначения, а для организационно-нормативной – в на- чале. Разделы документации определяем в соответствии с ГОСТом 2.106 и со сложившейся на предприятии системой присвоения децимальных номеров документов. В таблицу Разделы документации заносим следующие строки (цифра в скобках определяет, с какого символа должна начинаться цифровая часть обозначения документа для отнесения документа к данному разделу): - прибор, модуль (4); - сборочная единица (3); - сборочная единица (6); - деталь (7); - программный комплекс (1); - программный компонент (2). Признак «Изделие» будет определяться в процессе классификации. Сущности базы данных: - картотеки электронной и бумажной документации; - изделия (темы работ); - виды документации; - классы документации; - разделы документации; - классификатор. Атрибуты сущностей базы данных. · Список документов: - уникальный код (ключевое поле); - обозначение документа (децимальный номер). · Изделия: - уникальный код (ключевое поле); - наименование изделия (темы работы); - обозначение головной спецификации. · Виды документации: - уникальный код (ключевое поле); - наименование; - аббревиатура (сокращенное обозначение вида документа). · Классы документации: - уникальный код (ключевое поле); - наименование. · Разделы документации: - уникальный код (ключевое поле); - наименование; - цифра, по которой будет определяться раздел. · Классификатор: - код документа; - вид классификации; - код класса. Алгоритм анализа обозначения документа Задача алгоритма заключается в приведении произвольной строки символов, содержащей децимальный номер, к нормализованному виду и в выделении четырех частей, по которым будет проводиться классификация документа. Алгоритм включает 5 шагов. 1. Анализ расширения файла (поскольку обозначение документа может быть записано в наименовании файла). Расширение файла также может быть признаком и для классификации документа (например, если необходимо выбрать все документы, созданные в различных форматах: Microsoft Word, OpenOffice.org, Adobe PDF). Для этого в базу данных включается справочник расширений с соотнесенными названиями программных продуктов. Эта утилита позже применяется при подготовке комплекта документации для классификации методами индексации текстов. 2. Выделение первой (буквенной) части обозначения. Удаляются все ведущие пробелы и неопознанные символы (не буквы, не цифры, не знаки препинания). Выбираются все символы-буквы до первой встреченной цифры. Далее все знаки препинания (обычно это подчеркивания или тире) заменяются на пробелы, латинские буквы заменяются русскими, строчные – прописными, за исключением определенного набора аббревиатур, которые заранее заданы в латинском, а вернее, английском варианте. Затем строка разбивается на части из списка заранее заданных аббревиатур, чтобы исключить вариант, когда строка составлена более чем из одного слова и пропущены пробелы. 3. Выделение второй (числовой) части. Выделяются все цифры до первого знака препинания, при этом ведется подсчет цифр, и, если их 5, делается вывод о принадлежности документа к ЕСПД, если 6 – к ЕСКД, иначе делается предположение, что документ организационно-нормативный. 4. Выделение третьей части. Используется вывод о принадлежности документа к определенному классу. Для ЕСКД и нормативных документов – все цифры и знаки препинания, для ЕСПД – если идут подряд три цифры, все цифры и знаки препинания, иначе – 6 значимых символов (цифры или буквы). Если длина остатка меньше – просто весь остаток. 5. Выделение четвертой части. Производится выделение текста с первого символа после третьей части и до конца строки с исключением неопознанных символов. В дальнейшем для классификации получаем четыре части децимального номера документа: Т1, Т2, Т3, Т4. Раздел документации получаем, сравнив первый символ Т2 со справочником Разделы документации. Вид документа определяется исходя из Т1 – для нормативных документов, Т4 – для ЕСКД, Т3 – для ЕСПД. Наименование изделия определяется только для документов, которые относятся к разделам Прибор, модуль и Программные комплексы. Сборочные единицы, изделия, комплекты и детали могут относиться к различным изделиям или вообще быть автономными. Изделие для ЕСКД определяется как Т1+Т2+Т3, для ЕСПД – как Т1+Т2. Если анализируемый децимальный номер отсутствует в справочнике изделий, оператору предлагается ввести новое наименование изделия. Для любого признака классифицирования в случае отсутствия соответствующего обозначения в справочнике оператору предлагается ввести необходимое обозначение и наименование признака. Таким образом, получается классификатор с базой знаний, накапливаемой в процессе классификации. Разработка приложения Для проведения процесса классификации и просмотра результатов в удобном для оператора виде создана программа «Классификатор». Для создания использовались среда Borland Delphi 7.0 и СУБД MS SQL Server 2000. Главное окно программы содержит меню и панель с вкладками, на каждой из которых размещен элемент, позволяющий просматривать и редактировать ту или иную таблицу классификатора. Строка меню содержит следующие пункты. · Заполнение списка децимальных номеров. Список документов заполняется либо из картотеки архива, либо из произвольного каталога с файлами, предполагая, что каждый файл содержит только один документ. Путь к файлам указывается в поле ввода в правом нижнем углу вкладки Список документов. · Настройки классификатора. Настройка признака, по которому будет проводиться классификация документов. · Запуск процесса классификации. Процесс может быть начат как с документа, который является текущим в списке документов, так и с начала списка – в этом случае необходимо поставить галочку в поле Запуск с начала списка. · Список файлов классификатора. Предоставляет возможность сформировать комплект файлов исходя из картотеки с указанными путями к файлам документов либо из произвольного каталога, при этом выбираются файлы в формате Microsoft Word (для совместимости с программами, использующими индексирование текстов документов), и из развернутой иерархии каталогов файлы копируются в один для упрощения процесса классификации. Просмотреть результаты классификации можно в окне списка документов – для одного документа. Для этого необходимо нажать на кнопку Показать классификацию. Таким образом, разработан и реализован алгоритм, позволяющий на основе обозначения документа классифицировать его по нескольким заранее заданным признакам. Данное приложение значительно упрощает работы по классификации принимаемых в архив документов и по подбору комплектов документации согласно запросам абонентов архива. |
Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=1620 |
Версия для печати Выпуск в формате PDF (8.40Мб) |
Статья опубликована в выпуске журнала № 4 за 2008 год. |
Возможно, Вас заинтересуют следующие статьи схожих тематик:
- Кластеризация документов интеллектуального проектного репозитария на основе FCM-метода
- Разработка теоретических основ классификации и кластеризации нечетких признаков на основе теории категорий
- Комбинирование классификаторов на основе теории нечетких множеств
- Задачи информационного поиска в рамках интеллектуальной распределенной программной системы информационной поддержки инноваций
- Реализация программных средств для классификации данных на основе аппарата сверточных нейронных сетей и прецедентного подхода
Назад, к списку статей