Организация электронных хранилищ документов

Подать статью

Авторитетность издания

ВАК - К1

RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

№2

Ожидается:

16 Июня 2024

Выпуски

2024

№1 2024

2023

все выпуски

все статьи

Подписаться на RSS

Организация электронных хранилищ документов

Статья опубликована в выпуске журнала № 1 за 2002 год.
Аннотация:
Abstract:

Авторы: Вишняков Ю.М. () - , Толкачев А.Н. () -
Ключевое слово:
Ключевое слово:
Количество просмотров: 8939	Версия для печати Выпуск в формате PDF (1.30Мб)

С развитием компьютерных технологий способ хранения информации в печатном или рукописном виде перестал отвечать требованиям сохранности и оперативности доступа в науке, бизнесе и искусстве. Очевиден переход к электронным формам хранения документов. На этом пути должны быть решены две кардинальные проблемы: проблема электронного документа и средств манипулирования им и проблема перевода информации из традиционной формы в электронную.

В ближайшем будущем печатная информация будет являться основным источником формирования электронных библиотек (ЭБ) и архивов, поэтому созданию средств и методов перевода информации больших объемов в электронную форму придается первостепенное значение. Эта проблема решается на основе так называемых скантехнологий, которые интенсивно развиваются.

ЭБ можно определить как информационную систему, позволяющую надежно сохранять и эффективно использовать разнообразные коллекции электронных документов (ЭД) (текстовых, изобразительных, звуковых, видео и др.), локализованных в самой системе, а также доступных ей через телекоммуникационные сети. Интенсивное развитие и внедрение Internet/Intranet-технологий дают возможность использования единого информационного пространства как универсальной платформы интеграции и обмена информацией.

При этом объединение ресурсов не обязательно осуществляется физически – оно может быть виртуальным и должно обеспечивать целостность информационного пространства для пользователя. Так, ЭБ должны обеспечивать работу с гетерогенными БД или системами БД, обеспечивая пользователя эффективным информационным поиском независимо от особенностей конкретных информационных систем, к которым осуществляется доступ.

В ЭБ должны быть предусмотрены возможности ввода или удаления объектов, интеграции, реструктуризации и прочие операции. Необходимо подчеркнуть, что эти возможности должны распространяться в основном (а возможно, и только) на информационные объекты, например, на ЭД, а не на содержащуюся в них информацию.

ЭБ должна сохранить привычные формы представления информации пользователю, в противном случае это приведет к явному отходу от сложившихся традиций и к потере спроса на такую информацию. Отсюда решение проблемы ЭД требует разрешения следующего противоречия. ЭД должен максимально точно воспроизводить исходное печатное издание, что легко выполнимо, если это издание представлять в виде графического образа, факсимильно. С другой стороны, графическое представление является самым плохим с точки зрения поисковых процедур и потребных информационных ресурсов. В этом смысле более удобным является представление информации в алфавитно-цифровой форме, допускающей посимвольную обработку. Это легко достижимо путем представления исходной информации в виде простых текстовых файлов. Однако совместное выполнение этих условий представляет собой серьезную проблему, в решении которой наметилось три подхода:

1) на уровне файловой системы на основе гипертекста;

2) укладка графики в привычные БД;

3) использование модифицированных графических форматов.

Сама по себе задача доступа к ЭД достаточно сложна, а если учитывать тот факт, что ЭД должен как можно точнее соответствовать своему бумажному оригиналу, то эта задача значительно усложняется. Бумажные документы в большинстве случаев содержат текст и иллюстрации. К отсканированному (оцифрованному) документу иногда можно применить технологии OCR/ICR (optical/intelligent character recognition – оптическое/интеллектуальное распознавание текста) для вычленения текстовой информации и представления ее в пригодном для редактирования виде. Однако современные программы распознавания не дают качества распознавания в 100%, а если приходится иметь дело со старыми документами, становятся совершенно неэффективными и не позволяют добиться представления документа, близкого к оригиналу.

Очень часто цвет, текстура бумаги, стиль почерка или техника печати более важны, чем информационное содержание документа. В таком случае документ требует интегрированного представления текстовой информации в визуальном контексте. Для этого документы оцифровываются и представляются как изображения. Виртуальные библиотеки, которые становятся все более популярны в Internet, дают возможность просматривать такие документы, делать их электронные копии и выводить на печать для получения твердых копий.

Основная проблема, с которой приходится сталкиваться при организации виртуальных хранилищ документов в Internet, состоит в компромиссе между качеством воспроизведения документа и временем, необходимым для передачи и загрузки большого объема информации, содержащейся в файле изображения.

Одним, а может быть, и единственно возможным решением этой проблемы является компрессия изображения. Различают методы сжатия изображений без потери и с потерей качества.

К наиболее популярным методам сжатия без потери качества относятся стандарты для передачи изображений в формате GIF (Graphics Interchange Format) и в факсовых форматах.

Формат GIF обычно используется для сжатия изображений, содержащих небольшую цветовую гамму. Если же используется реальное цветное изображение с большим количеством полутонов, то этот формат становится неэффективен для хранения и передачи информации из-за больших объемов получаемых файлов.

При переводе документов в электронный вид обычно принимается решение о бинаризации изображения, то есть о представлении документа в черно-белом виде. К такому представлению применяется компрессия стандартом для передачи изображений по каналам цифровой связи CCITT Fax Group 4. Данный подход обеспечивает большой коэффициент сжатия, но при этом полностью теряется информация о цвете.

С помощью формата JPEG, разработанного Joint Pictures Expert Group, можно получить улучшенные результаты. Дискретное преобразование Фурье, лежащее в основе JPEG, позволяет сжимать исходное изображение с коэффициентом компрессии порядка 40:1 при небольшой потере качества. Недостатком этого формата можно назвать размытие контуров и проявление блочности в изображении при повышении коэффициента. Это ведет к существенным искажениям и потере качества при воспроизведении документа. Перед разработчиками Internet-библиотек опять встает дилемма, как сохранить качество документов и уменьшить объем передаваемой информации.

JPEG, GIF и факсовые форматы, используемые для распространения документов в Internet, в последнее время заменяются новыми форматами, основанными на волновом принципе. Вейвлет-анализ (wavelet analysis), получивший сильное распространение за последние десять лет, позволил ряду фирм разработать собственные форматы файлов, в той или иной степени учитывающие недостатки уже имеющихся форматов и направленные на передачу документов по сетям при сохранении приемлемого качества воспроизводимого документа.

Исследования в области применения вейвлет-анализа для сжатия графической информации велись фактически со времен его появления, но только относительно недавно были разработаны быстрые алгоритмы упаковки с использованием вейвлетов.

Одной из первых фирм, предложивших свой формат, была Summus Technologies. Используя так называемый динамический вейвлет (Dynamic Wavelet™), этой компании удалось добиться коэффициента сжатия порядка 300:1. В качестве положительного фактора разработанного формата следует отметить эффект проявления изображения, когда детали изображения уточняются по ходу передачи данных, что позволяет охватить изображение уже на первых этапах передачи и при необходимости остановить ее. В качестве недостатка, как и для JPEG, остается размытие изображения при больших коэффициентах компрессии и, как следствие, потеря читабельности текстовой информации.

Фирма LizardTech™ inc. предложила свой формат MrSID®Photo для кодирования больших изображений высокого разрешения, уменьшающий первоначальные размеры файла при сохранении высокого качества изображения. Изображения легко просматривать, уменьшать или увеличивать размеры, печатать без больших потерь качества. MrSID был разработан на основе технологии от Los Alamos National Laboratory (LANL) специально для сжатия огромных файлов сканированных документов, старых книг, газет, особенно больших географических карт. Интересно, что для работы с этим форматом, помимо плагинов (plug-in) и клиентских приложений, предлагается использовать серверную часть программного обеспечения, которая позволяет накладывать ограничения при работе с документами, как-то: просмотр при определенном масштабе выделенного участка изображения, запрещение копирования и печати на принтер. Такие ограничения могут быть полезны для организаторов виртуальных библиотек с коммерческой точки зрения.

Одно из преимуществ формата MrSID – простота использования. MrSID дает хороший коэффициент сжатия без заметной потери качества. Этот формат позволяет быстро пересылать через Internet изображение документа, готовое для печати, трансформация файла требует нескольких секунд. Единственный недостаток – ограниченность области применения формата для больших карт, а не для документов, содержащих преимущественно текстовую информацию.

Исследования различных фирм в области применения вейвлетов для упаковки графической информации привели к разработке нового стандарта JPEG2000, в основе которого лежит вейвлет-преобразование. Новый стандарт позволяет сжимать изображения в 200 раз без заметной для глаза человека потери качества. Основным отличием JPEG2000 от предыдущей версии этого формата является сжатие с использованием алгоритма вейвлет-преобразования вместо преобразования Фурье, что и позволяет предотвратить появление характерных блоков при больших коэффициентах компрессии.

Алгоритм вейвлет-преобразования позволяет просматривать и распечатывать одно и то же изображение при различных заданных пользователем значениях разрешения и с требуемой степенью детализации. Благодаря этой особенности JPEG2000, очевидно, быстро найдет свое место в Internet, поскольку обеспечит возможность загружать картинку с разными значениями разрешения в зависимости от пропускной способности конкретного канала связи. Да и тот факт, что пользователи Internet смогут получать изображения высокого качества, немаловажен. Еще одно значимое преимущество JPEG2000 – возможность управлять 256 цветовыми каналами для получения качественных цветных изображений.

Одной из фирм, активно участвовавшей в разработке нового формата JPEG2000, является LuraTech inc. Ее участие в этом проекте было вызвано собственными разработками в этой области еще до разработок JPEG2000. В результате исследований фирмой были созданы форматы LuraWave® и LuraDocument®.

Формат LuraWave® (LWF – LuraTech-Wavelet-Format) по своей сути – то же самое, что и формат JPEG2000. Об этом говорит их последняя версия формата LuraWave.jp2 – реализация JPEG2000 от LuraTech. Единственным существенным отличием от стандарта является возможность создавать в одном файле по принципу TIFF (Tag Image File Format) многостраничные документы.

Напротив, формат LuraDocument® (LDF – LuraTech-Document-Format) в значительной степени отличается от JPEG2000 и является в некоторой степени новшеством в области упаковки графических документов. LuraDocument® был разработан на основе улучшенной версии техники компрессии LuraWave® и изначально ориентирован на компрессию и архивирование отсканированных документов, содержащих текст и иллюстрации. Основное достижение LuraTech, реализованное в формате LDF, – это сохранение четкости текста вместе с высокими визуальными и цветовыми качествами при высоких показателях уровня компрессии.

Концепция процедуры кодирования LuraDocument® основывается на анализе и сегментировании документов. Смешанные документы сегментируются для выделения следующих слоев изображений:

- бинарное изображение, содержащее текст;

- изображение переднего плана, отражающее цвет текста;

- фоновое изображение после удаления текста.

Эти три изображения упаковываются по отдельности наиболее эффективными методами.

Для фонового изображения используется специально адаптированная версия LuraWave®. Предварительное удаление информации о тексте из оригинала позволяет получить изображение, не содержащее резких контрастных перепадов, и тем самым значительно повысить степень компрессии.

Бинарное изображение, содержащее текст, упаковывается кодером, специально разработанным LuraTech, без потери информации, позволяющим добиться упаковки на 10%–40% лучшей по сравнению со стандартом Fax Group 4. При этом формат LuraDocument® дает возможность наряду с собственным кодером использовать для слоя бинарного изображения упаковку по Fax Group 4. В таком случае программное обеспечение сторонних фирм, совместимое с Fax Group 4, способно отобразить слой бинарного текстового изображения LuraDocument®.

Третье изображение, отражающее цвет текстовых областей, упаковывается кодером LuraWave®. Так как текст в документах, как правило, имеет монотонную заливку, перед упаковкой разрешение этого слоя без видимых искажений понижается.

Декодирование документов из LuraDocument® производится в обратном порядке. Три изображения декодируются отдельно друг от друга, а затем объединяются до исходного изображения документа.

Так же, как и LuraWave®, формат LuraDocument® поддерживает многостраничный режим. Однако действительно ценным в области передачи сканированных документов и создания виртуальных архивов этот формат делает наличие опциональной поддержки слоя текстовой информации в формате ASCII, ассоциированной с изображением. Такой текст может быть сгенерирован различными программами OCR на этапе оцифровки документа или позже на основании информации, полученной от слоя текстового бинарного изображения. Важность такого сопровождения изображения текстовой информацией трудно переоценить при организации хранилищ документов в Internet. Поиск по содержанию, составление аннотаций документов, автоматическая каталогизация – это только некоторые примеры функционария в такого рода архивах.

Независимо от LuraTech еще одна компания разработала свой формат, по функциональности ничем не уступающий (а в чем-то даже превосходящий) формат LuraDocument®. В основе формата DjVu™ (произносится «дежа вю» – «déjà vu») лежат несколько технологий, разработанных в AT&T Labs:

- алгоритм отделения текста от фона на отсканированном изображении;

- вейвлетный алгоритм сжатия фона IW44;

- мощный алгоритм сжатия черно-белых изображений JB2;

- эффективный универсальный алгоритм сжатия ZP;

- алгоритм распаковки «по запросу»;

- алгоритм «маскировки» изображений.

Первые четыре алгоритма обеспечивают чрезвычайно высокую степень сжатия. Алгоритмы распаковки позволяют показать часть изображения, не разворачивая всю картинку в оперативной памяти, а также дают возможность легко масштабировать изображение. Еще одной интересной особенностью алгоритмов распаковки является инкрементальное восстановление изображения. При просмотре через Internet вначале выводится только текст, затем фон в низком разрешении и только потом фон в высоком разрешении. Это дает возможность быстро оценить документ, не скачивая его полностью.

Так же, как и в LuraDocument®, отделение текста от фона повышает его разборчивость, особенно если текст напечатан на цветной бумаге или расположен поверх рисунка. Возможен и отдельный просмотр фона, причем алгоритм «маскировки» восстанавливает те части фона, которые были закрыты текстом.

Начиная со второй версии формата DjVu, предусмотрено объединение нескольких изображений в один файл с возможностью «перелистывания» страниц, а также нанесение на изображение так называемых «горячих точек» – участков изображения, служащих гиперссылками. А в версии 3.2 введена поддержка текстовых блоков, которые позволяют при просмотре документа производить поиск по ключевому слову или фразе. Генерацию этих текстовых блоков, а также зон, содержащих эти блоки, разработчики оставляют для создателей OCR-программ, полагаясь на их корректное функционирование.

Форматы LuraDocument® и DjVu™ во многом очень похожи. Это относится как к самим концепциям представления документов, так и к программному обеспечению, предлагаемому фирмами-разработчиками. Для обоих форматов существуют бесплатные программы просмотра документов, включая плагины для популярных браузеров, с функциями пролистывания страниц, масштабирования, экспорта в стандартные форматы и вывода на печать, для разработчиков ПО свободно распространяется инструментарий для распаковки документов и на коммерческой основе инструментарий для кодирования документов в форматы LuraDocument® и DjVu. Кроме того, можно приобрести лицензию на компрессию в формат DjVu определенного числа изображений. Все это позволяет с интересом не только наблюдать за тем, кто выиграет пальму первенства в популярности своего формата, но и уже сейчас эффективно использовать эти форматы в представлении сканированных документов в Internet.

Как показала практика, новые технологии компрессии, основанные на волновом принципе, дают значительное увеличение качества по сравнению с общепринятыми форматами. Высокое качество сжатых изображений и в среднем небольшие размеры позволяют использовать их для организации всевозможных виртуальных библиотек в глобальных сетях. При этом сервис услуг в таких библиотеках и хранилищах во многом превосходит обычные и распространяется от предоставления возможности простого просмотра документов до средств интеллектуального поиска, автоаннотирования и каталогизации, вплоть до составления новых документов и подшивок. Внедрение новых технологий, безусловно, продвинет Internet на шаг вперед по пути превращения в универсальное, наиболее мощное средство обмена информацией.

Работа представляет часть исследований международной лаборатории ELDIC в области скантехнологий и систем безбумажной обработки информации (http://www.eldic.tsure.ru)

Список литературы

1. Толкачев А.Н. Обработка изображений в процессе сканирования и методы их сжатия // Радиоэлектроника, электротехника и энергетика. Седьмая Междунар. науч.-техн. конф. студентов и аспирантов: Тез. докл. - М.: Изд-во МЭИ, 2001. - Т. 1. - С. 316.

2. Вишняков Ю.М., Цур А., Толкачев А.Н. Предобработка изображений в сканцентре // Изв. ТРТУ. Темат. выпуск: Матер. Всерос. науч.-техн. конф. с междунар. участием "Компьютерные технологии в управленческой и инженерной деятельности". - Таганрог: Изд-во ТРТУ, 2001. №3 (21) - С. 54.

Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=724&lang=	Версия для печати Выпуск в формате PDF (1.30Мб)
Статья опубликована в выпуске журнала № 1 за 2002 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Назад, к списку статей

Программные продукты и системы

Авторитетность издания

Добавить в закладки

Следующий номер на сайте

Выпуски

Организация электронных хранилищ документов