ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

4
Publication date:
09 December 2024

The article was published in issue no. № 1, 2004
Abstract:
Аннотация:
Authors: () - , () - , () -
Ключевое слово:
Page views: 9677
Print version
Full issue in PDF (1.96Mb)

Font size:       Font:

Современное положение дел в сфере образования, активное использование компьютерной техники в образовательном процессе и процессе управления, возрастание роли компьютерного способа доступа к информационным источникам однозначно определяют вопрос о формировании электронных библиотек (ЭБ) в образовательных учреждениях для повышения интенсивности обучения и, в конечном итоге, повышения качества образования.

Деятельность ЭБ должна быть регламентирована соответствующими нормативно-правовыми документами. Для организации управления информационными ресурсами необходимо определить состав и правомочия владельцев информационных ресурсов, а также сформировать необходимые финансово-экономические и организационные ресурсы и механизмы.

С точки зрения обеспечения необходимой функциональности должно быть обеспечено следующее:

1)   реализован оперативный авторизованный доступ к информации через Интернет;

2)   разработаны поисковые механизмы, результат работы которых обладает высокой степенью релевантности с учетом определенной степени неточности информации в полнотекстовой базе данных;

3)   созданы механизмы взаимодействия и информационного обмена с другими библиотечными системами посредством протокола Z39.50;

4)   предоставлена возможность пользователям гибко настраивать параметры системы с учетом индивидуальных требований;

5)   реализована система защиты конфиденциальной регистрационной информации;

6)   построены подсистемы интерактивного вспомогательного контекстно-зависимого взаимодействия с пользователем в процессе эксплуатации системы;

7)   реализована подсистема каталогизации в MARC-подобном формате;

8)   разработаны средства администрирования системы (для установки и настройки, регистрация пользователей, управление доступом к ресурсам ЭБ, обеспечение информационной безопасности, учет и сбор статистики о пользователях и их потребностях в зависимости от различных параметров).

Кроме того, разработка и внедрение ЭБ не должны нарушать, а только дополнять и расширять функционирование и возможности уже используемых в традиционной библиотеке средств автоматизации. Более того, существующие автоматизированные информационные библиотечные системы (АИБС) обладают, как правило, развитыми средствами управления библиотечными ресурсами как таковыми и обеспечивают вполне удовлетворительное функционирование библиотеки для обслуживания читателей. Таким образом, в качестве отправной точки разработки следует принять интеграцию с АИБС.

ЭБ можно определить как информационную систему, позволяющую надежно сохранять и эффективно использовать разнообразные коллекции электронных документов (текстовых, изобразительных, звуковых, видео и др.), локализованных в самой системе, а также доступных ей через телекоммуникационные сети.

ЭБ должна сохранить привычные формы представления информации пользователю, в противном случае это привело бы к явному отходу от сложившихся традиций и потере спроса на такую информацию. Отсюда решение проблемы электронного документа требует разрешения следующего противоречия. Электронный документ должен максимально точно воспроизводить исходное печатное издание, что, в принципе, легко выполнимо, если это издание представлять в виде графического образа, факсимильно. С другой стороны, графическое представление является самым плохим с точки зрения поисковых процедур и потребных информационных ресурсов. В этом смысле более удобным является представление информации в алфавитно-цифровой форме, допускающей посимвольную обработку. Это также легко достижимо путем представления исходной информации в виде простых текстовых файлов. Однако совместное выполнение этих условий представляет собой серьезную проблему, в решении которой можно выделить три подхода.

Первый подход заключается в представлении электронных документов как совокупности графических файлов и информации, полученной с помощью OCR-программ, связанной средствами гипертекстовой разметки.

Второй подход подразумевает наличие базы данных в составе СУБД, одно из полей в которой отводится для графической информации, упакованной стандартными методами.

Для третьего подхода, набирающего в последнее время популярность в Интернете, характерно использование нестандартных графических форматов, построенных по многослойному принципу, один слой из которых включает текстовую информацию, сопровождающую графическую.

Во всех трех подходах начальный этап работы с документами идентичен, а сама разница заключается в принципах хранения и механизмах доступа к электронным документам.

Использование полнотекстовых документов для построения ЭБ потенциально ограничивает содержимое базы данных библиотеки теми документами, которые изначально сформированы в электронном виде либо обработаны с помощью системы оптического распознавания (OCR-системы) и верифицированы. Заметим, что источники, полученные вторым способом, весьма дороги из-за того, что при верификации оператор вручную исправляет ошибки распознавания, а также потому, что таких источников не может быть много за счет исключительно высокой трудоемкости верификации.

Сама по себе задача доступа к электронным документам достаточно сложна, а если учитывать тот факт, что электронный документ должен как можно точнее соответствовать своему бумажному оригиналу, то эта задача значительно усложняется.

Основная проблема, с которой приходится сталкиваться при организации виртуальных хранилищ документов в Интернете, состоит в компромиссе между качеством воспроизведения документа и временем, необходимым для передачи и загрузки большого объема информации, содержащейся в файле изображения.

Одним, а возможно, и единственным в настоящее время решением этой проблемы является компрессия изображения [4, 5]. Различают методы сжатия изображений без потери качества и с потерей качества.

К наиболее популярным методам сжатия без потери качества относятся стандарты для передачи изображений в формате GIF (Graphics Interchange Format) и в факсовых форматах.

Формат GIF обычно используется для сжатия изображений, содержащих небольшую цветовую гамму.

С помощью формата JPEG, разработанного Joint Pictures Expert Group, можно получить значительно лучшие результаты. Дискретное преобразование Фурье, лежащее в основе JPEG, позволяет сжимать исходное изображение с коэффициентом компрессии порядка 40:1 при небольшой потере качества. Перед разработчиками ЭБ опять встает дилемма: как сохранить качество документов и уменьшить объем передаваемой информации.

Относительно недавно были разработаны быстрые алгоритмы упаковки с использованием вейвлетов для сжатия графической информации.

Одной из первых фирм, предложивших свой формат, была Summus Technologies (www.summus.com). Используя так называемый динамический вейвлет (Dynamic Wavelet™), этой компании удалось добиться коэффициента сжатия порядка 300:1. В качестве положительного фактора разработанного формата следует отметить эффект проявления изображения, когда детали изображения уточняются по ходу передачи данных, что позволяет охватить изображение уже на первых этапах передачи и при необходимости остановить ее. В качестве недостатка, как и для JPEG, остается размытие изображения при больших коэффициентах компрессии и, как следствие, потеря читабельности текстовой информации.

Фирма LizardTech™ inc. (www.lizardtech.com) предложила свой формат MrSID®Photo – формат для кодирования больших изображений высокого разрешения, уменьшающий первоначальные размеры файла при сохранении высокого качества изображения. MrSID был разработан на основе технологии от Los Alamos National Laboratory (LANL) специально для сжатия огромных файлов сканированных документов, старых книг, газет, больших географических карт.

MrSID дает хороший коэффициент сжатия без заметной потери качества. Единственный недостаток – это ограниченность области применения формата для больших карт, а не для документов, содержащих преимущественно текстовую информацию.

Алгоритм вейвлет-преобразования позволяет просматривать и распечатывать одно и то же изображение при различных (заданных пользователем) значениях разрешения и с требуемой степенью детализации. Еще одно значимое преимущество JPEG2000 – возможность управлять 256 цветовыми каналами, что позволяет получать качественные цветные изображения.

Одной из фирм, активно участвовавшей в разработке нового формата JPEG2000, является LuraTech inc. (www.luratech.com). В результате исследований были созданы форматы LuraWave® и LuraDocument®.

Формат LuraWave® (LWF – LuraTech-Wavelet-Format) по своей сути – то же самое, что и формат JPEG2000. Об этом говорит их последняя версия формата LuraWave.jp2 – реализация JPEG2000 от LuraTech. Единственным существенным отличием от стандарта является возможность создавать в одном файле по принципу TIFF (Tag Image File Format) многостраничные документы.

Напротив, формат LuraDocument® (LDF – LuraTech-Document-Format) в значительной степени отличается от JPEG2000. Основное достижение LuraTech, реализованное в формате LDF, – это сохранение четкости текста вместе с высокими визуальными и цветовыми качествами при высоких показателях уровня компрессии.

Концепция процедуры кодирования LuraDocument® основывается на анализе и сегментировании документов. Смешанные документы сегментируются для выделения следующих слоев изображений:

·    бинарное изображение, содержащее текст;

·    изображение переднего плана, отражающее цвет текста;

·    фоновое изображение после удаления текста.

Эти три изображения упаковываются по отдельности наиболее эффективными методами.

Декодирование документов из LuraDocument® производится в обратном порядке. Три изображения декодируются отдельно друг от друга, а затем объединяются до исходного изображения документа.

Как и LuraWave®, формат LuraDocument® поддерживает многостраничный режим. Имеется также опциональная поддержка слоя текстовой информации в формате ASCII, ассоциированной с изображением.

Независимо от LuraTech еще одна компания разработала свой формат, по функциональности ничем не уступающий, а в чем-то даже превосходящий формат LuraDocument®. В основе формата DjVu™ (произносится «дежа вю» – «déjà vu») лежат несколько технологий, разработанных в AT&T Labs. Это:

·    алгоритм отделения текста от фона на отсканированном изображении;

·    вейвлетный алгоритм сжатия фона IW44;

·    мощный алгоритм сжатия черно-белых изображений JB2;

·    эффективный универсальный алгоритм сжатия ZP;

·    алгоритм распаковки «по запросу»;

·    алгоритм «маскировки» изображений.

Первые четыре алгоритма обеспечивают чрезвычайно высокую степень сжатия. Алгоритмы распаковки позволяют показать часть изображения, не разворачивая всю картинку в оперативной памяти, а также легко масштабировать изображение.

От тех, кто сталкивался с проблемой сканирования и распознавания, не ускользнет очевидный и весьма важный для ЭБ вопрос, связанный с организацией поисковых процедур в таких библиотеках. Здесь следует отметить некоторые особенности перевода печатных изданий в компьютерный вид с помощью цепочки сканирование ® распознавание. Как правило, для таких документов приоритетным вопросом является текстовое содержание, которое принимается во внимание с точки зрения реализации поисковых методов. При этом непосредственно макет документа теряется, форматирование полученного документа может быть так же далеко от оригинала, как наскальные рисунки от экспонатов Третьяковской галереи. Кроме того, доступ читателей (абонентов) ЭБ к полнотекстовым источникам не представляется удовлетворительным решением с точки зрения недобросовестного использования материалов, а также создает предпосылки для использования, противоречащего действующему законодательству об авторских правах.

Альтернативный способ, основанный на скантехнологиях, лишен указанных недостатков, однако при его использовании необходимо дополнительно решать проблему полнотекстового поиска. А это означает, что так или иначе, но текстовое содержание литературных источников должно быть получено, однако использовано только для реализации полнотекстового поиска. Таким образом, задача о сохранении макета (оформления) оригинального литературного источника снимается с повестки дня – достаточно только распознать и сохранить текст. При этом скорость распознавания может быть весьма высокой при использовании методов организации систем массового ввода [1], а этап верификации может быть вообще пропущен.

Этот подход неизбежно приведет к тому, что в получившемся текстовом документе могут быть ошибочно распознанные символы, что влечет постановку задачи об обеспечении релевантности при реализации поисковых механизмов [2].

Таким образом, приходим к заключению о том, что хранение литературных источников в ЭБ должно осуществляться в виде отсканированных изображений печатных литературных источников. Для организации функции полнотекстового поиска и обеспечения различных видов релевант- ности [2] ответов поисковых механизмов каждый отсканированный источник должен быть снабжен текстовым отображением (возможно, содержащим ошибочно распознанные символы). Такая постановка задачи влечет за собой необходимость исследований критериев релевантности в условиях неполной или частично определенной исходной информации.

В заключение отметим следующее. При построении ЭБ процесс перевода литературных источников из бумажной формы в электронную реализуется на базе специализированных подразделений или учреждений, называемых сканцентрами, функциями которых является массовый потоковый ввод бумажных документов. Массовость обработки достигается за счет применения инновационных технологий автоматической обработки, основанных на решении научно-технических задач, связанных с разработкой специализированной операционной среды, в которой организуется параллельно-конвейерная обработка документов. В результате на выходе получается электронный документ с практически полной информационно-функциональной эквивалентностью оригиналу, необходимой для организации высокотехнологичной, доступной и удобной ЭБ.

Другой отличительной особенностью использования именно такой схемы реализации ЭБ является обеспечение доступа к литературному источнику через Интернет при использовании поисковых механизмов различного уровня, начиная от стандартных поисковых средств, используемых в АИБС, и заканчивая общепризнанным протоколом Z3950. Вне зависимости от того, каким именно образом пользователь получает доступ к электронному каталогу ЭБ учебного заведения, он имеет возможность получить доступ непосредственно к хранилищу электронных изданий и воспользоваться ими без непосредственного посещения библиотеки.

Разработка и внедрение ЭБ на основе описанного подхода позволяет в короткие сроки обеспечить значительное наполнение не только электронных каталогов, но и непосредственно полнографической базы литературных источников, а также достичь максимальной экономии времени и средств при создании, наполнении и эксплуата- ции ЭБ.

Список литературы

1.  Хашковский В.В. Оптимизация параллельно-конвейерного вычислительного процесса в сканцентре // Программные продукты и системы. - 2002. -№2. -С.30-33.

2.  Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска. - СПбГУ. - http://meta.math.spbu.ru/~igor/papers/exp-survey.

3.  Вишняков Ю.М., Цур А., Хашковский В.В. Скантехнологии. Параллельная обработка заданий в интрасети. - Изв. ТРТУ. Темат. выпуск: Матер. Всеросс. науч.-техн. конф. с междунар. участием: Компьютерные технологии в управленческой и инженерной деятельности. - Таганрог: Изд-во ТРТУ, 2001. - №3 (21) – С. 216-217.

4.  Вишняков Ю.М., Цур А., Толкачев А.Н. Предобработка изображений в сканцентре. - Там же. - С. 54.

5.  Толкачев А.Н. (Рук. Вишняков Ю.М.) Обработка изображений в процессе сканирования и методы их сжатия. // Седьмая Междунар. науч.-техн. конф. студентов и аспирантов: Радиоэлектроника, электротехника и энергетика. (Тез. докл.) - М.: Изд-во МЭИ, 2001. - Т. 1. - С. 316.


Permanent link:
http://swsys.ru/index.php?page=article&id=606&lang=&lang=en
Print version
Full issue in PDF (1.96Mb)
The article was published in issue no. № 1, 2004

Perhaps, you might be interested in the following articles of similar topics: