На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

В Санкт-Петербургском федеральном исследовательском центре РАН предложено решение проблемы создания программной инфраструктуры для систематизации, хранения рукописей и иных материалов, представленных в цифровом виде

09.04.2025

Существует большое количество коммерческих и открытых программных средств, позволяющих производить OCR для документов и книг. При этом большинство таких систем хорошо справляются с переводом языковых токенов (отдельных слов и фрагментов предложений) в редактируемый текст, но имеют большое количество ошибок при распознавании и воспроизведении структуры (таблиц, абзацев, колонок), связанных с особенностями типографской верстки. Причем большинство исследователей в качестве основного инструмента распознавания используют нейросетевые модели, применяемые с различной степенью качества. Например, в одной из работ приведена одна из возможных реализаций решения задачи автоматизированного распознавания сущностей, основанная на дообучении языковой модели на архитектуре BERT, подключенной к библиотеке Spacy с использованием Spacy Transformers. Подобные нейросетевые инструменты ограниченно применимы в ситуациях, когда требуется точное соответствие извлекаемых данных структуре документа, поскольку разрабатываемый портал должен отвечать требованиям энциклопедичности и академичности.

Подробное описание дается в статье "Гибридный подход к выделению структурированных данных из «Летописи жизни и творчества А.С. Пушкина»", авторы Кокорин П.П.,  Котов А.А., Кулешов С.В.,  Зайцева А.А. (Санкт-Петербургский федеральный исследовательский центр РАН, г. Санкт-Петербург).