Авторитетность издания
ВАК - К1
RSCI, ядро РИНЦ
Добавить в закладки
Следующий номер на сайте
№2
Ожидается:
16 Июня 2024
Извлечение метаданных из полнотекстовых электронных русскоязычных изданий при помощи Томита-парсера
Extraction of metadata from the full-text electronic materials written in russian using Tomita-parser
Дата подачи статьи: 08.08.2016
УДК: 004.912
Статья опубликована в выпуске журнала № 4 за 2016 год. [ на стр. 58-62 ]Аннотация:При публикации материалов в электронных библиотеках возникает необходимость извлечения метаданных после перевода печатного текста в электронный, что при обработке текста вручную является трудозатратным процессом. В данной работе рассматривается возможность извлечения метаданных с помощью Томита-парсера, предназначенного для извлечения фактов из текста на естественном языке. Для обеспечения наиболее точного извлечения были разработаны грамматики для анализа полнотекстовых изданий на русском языке, сформирован список метаданных, являющихся обязательными при публикации издания. Разработанные грамматики были апробированы на 100 изданиях, после чего на основании анализа сформулирован ряд закономерностей. С учетом выведенных закономерностей алгоритм был оптимизирован, что позволило повысить эффективность автоматического извлечения данных. Определена необходимость программной обработки полученных данных, например, удаления повторяющейся информации и приведения данных к общему виду перед их публикацией. С помощью оптимизированного алгоритма проведен масштабный эксперимент по автоматизированному извлечению метаданных из 10 000 изданий, выполнено сравнение его результатов с множеством метаданных, полученных вручную. Предложенный метод автоматического извлечения данных позволил корректно извлечь 86,7 % метаданных, и еще 4 % могут быть использованы после корректировки. Наибольшие проблемы (21 % данных извлечен неверно) возникли с наименованиями материалов вследствие отсутствия четкой структуры. Для четко структурированной информации, такой как ISBN и коды рубрикаторов, процент извлечения приближается к 100 %. Однако было установлено, что, несмотря на увеличение скорости и простоту нахождения метаданных, полностью исключить человека из процесса невозможно.
Abstract:Publishing information in digital libraries requires metadata extraction after transforming initial material into e-text. This procedure is time-consuming in case of performing it manually. This paper considers metadata extraction using Tomita-parser method, which is software designed to extract facts from a natural language text. To ensure the most accurate extraction there were formulated spatial grammars for analyzing full-text books in Russian and a list of metadata for publication was made. Designed spatial grammars were tested on 100 editions, the analysis served as a base for observing a number of consistent patterns. The algorithm has been optimized with regard of derived patterns. This allowed improving the efficiency of automatic data extraction. The authors determined a need for manual data processing, such as removing repetitive information and data reduction to general view before publishing. The optimized algorithm helped to conduct a large-scale experiment of metadata automated extraction from 10,000 publications. Its results were compared to manually extracted data. The proposed method allows extracting correctly up to 86,7 % of meta-data with further 4% which can be used after adjustment. The biggest problem (21 % of data were extracted incorrectly) has been discovered in the names of the materials due to the lack of a clear structure. As for clearly structured information (such as ISBN and rubricator codes) the percentage of correct extraction approaches 100 %. However, despite the speed increase and easiness of metadata extracting, it was proved that it is impossible to completely eliminate a human from the process.
Авторы: Сулейманов Р.С. ( mail@ruslan.cc) - Московский педагогический государственный университет (преподаватель), Москва, Россия | |
Ключевые слова: извлечение метаданных из полнотекстовых изданий, извлечение метаданных из электронных библиотек, метаданные |
|
Keywords: metadata extraction from full-text materials, metadata extraction from electronic libraries, metadata |
|
Количество просмотров: 13372 |
Статья в формате PDF Выпуск в формате PDF (16.17Мб) Скачать обложку в формате PDF (0.62Мб) |
Извлечение метаданных из полнотекстовых электронных русскоязычных изданий при помощи Томита-парсера
DOI: 10.15827/0236-235X.116.058-062
Дата подачи статьи: 08.08.2016
УДК: 004.912
Статья опубликована в выпуске журнала № 4 за 2016 год. [ на стр. 58-62 ]
При публикации материалов в электронных библиотеках возникает необходимость извлечения метаданных
после перевода печатного текста в электронный, что при обработке текста вручную является трудозатратным процессом.
В данной работе рассматривается возможность извлечения метаданных с помощью Томита-парсера, предназначенного для извлечения фактов из текста на естественном языке. Для обеспечения наиболее точного извлечения были разработаны грамматики для анализа полнотекстовых изданий на русском языке, сформирован список метаданных, являющихся обязательными при публикации издания. Разработанные грамматики были апробированы на 100 изданиях, после чего на основании анализа сформулирован ряд закономерностей. С учетом выведенных закономерностей алгоритм был оптимизирован, что позволило повысить эффективность автоматического извлечения данных. Определена необходимость программной обработки полученных данных, например, удаления повторяющейся информации и приведения данных к общему виду перед их публикацией.
С помощью оптимизированного алгоритма проведен масштабный эксперимент по автоматизированному извлечению метаданных из 10 000 изданий, выполнено сравнение его результатов с множеством метаданных, полученных вручную. Предложенный метод автоматического извлечения данных позволил корректно извлечь 86,7 % метаданных, и еще 4 % могут быть использованы после корректировки. Наибольшие проблемы (21 % данных извлечен неверно) возникли с наименованиями материалов вследствие отсутствия четкой структуры. Для четко структурированной информации, такой как ISBN и коды рубрикаторов, процент извлечения приближается к 100 %. Однако было установлено, что, несмотря на увеличение скорости и простоту нахождения метаданных, полностью исключить человека из процесса невозможно.
Сулейманов Р.С. ( mail@ruslan.cc) - Московский педагогический государственный университет (преподаватель), Москва, Россия
Ссылка скопирована!
Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=4216 |
Статья в формате PDF Выпуск в формате PDF (16.17Мб) Скачать обложку в формате PDF (0.62Мб) |
Статья опубликована в выпуске журнала № 4 за 2016 год. [ на стр. 58-62 ] |
Статья опубликована в выпуске журнала № 4 за 2016 год. [ на стр. 58-62 ]
Возможно, Вас заинтересуют следующие статьи схожих тематик:Возможно, Вас заинтересуют следующие статьи схожих тематик:
- Метаданные мультимедийных ресурсов и онтологии
- Управление энергозатратами процесса хранения данных при выборе размера физического блока данных
- Метод обмена информацией между программными системами автоматизации технологических и производственных процессов
- Модели как основные артефакты архитектуры информации
- Метаописания и каталогизация научно-информационных ресурсов РАН
Назад, к списку статей