На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

Интеллектуальные хранилища данных в системах государственного управления

Статья опубликована в выпуске журнала № 1 за 2006 год.
Аннотация:
Abstract:
Автор: Суховилов Б.М. () -
Ключевое слово:
Ключевое слово:
Количество просмотров: 14418
Версия для печати
Выпуск в формате PDF (1.26Мб)

Размер шрифта:       Шрифт:

Применение интеллектуальных хранилищ данных (ИХД) в сфере государственного управления является закономерным процессом, обеспечивающим качественно новый уровень в накоплении, систематизации, анализе и представлении экономической и социологической информации. Интеллектуальность хранилища определяется его способностью к иерархической организации информации, классификации, разделению доступа и защите хранящихся данных, а также наличием поисковой системы с развитым языком запросов. Исторически рассматриваемый проект хранилища данных поэтапно развивался от файлового менеджера с Интернет доступом [1-3] к ИХД.

Рассмотрим основные характеристики разработанного ИХД.

Хранилище представляет собой иерархически организованную многопользовательскую централизованную систему хранения информационных объектов (папки, файлы произвольного формата и интернет-ссылки).

Работа с хранилищем не зависит от географического местонахождения пользователей. Выполнение этого условия обеспечивается тем, что ИХД использует клиент-серверную программную архитектуру, а средой передачи данных является Интернет. Программная система хранилища реализует все операции взаимодействия с пользователем через протокол http. Этот подход обеспечивает максимальную доступность ИХД в сети, так как http – это, пожалуй, единственный протокол, гарантированно пропускаемый многочисленными системами ограничения доступа к сетевым ресурсам.

Исходя из условия, что пользователями хранилища могут быть люди, не имеющие специального компьютерного образования, клиентская часть системы хранилища сделана максимально простой для развертывания и использования. Достигается это тем, что доступ в систему пользователь осуществляет из стандартного инструмента Windows, которым является Microsoft Internet explorer. Процесс размещения материала в системе интуитивно понятен и во многом напоминает привычный для пользователя интерфейс "проводника" вплоть до поддержки операции "перетащи и брось".

Хранилище является защищенным. Пользователь получает доступ только к той информации, которая находится в его компетенции. С другой стороны, хранилище является разделяемым, то есть пользователь хранилища при необходимости имеет возможность предоставить другим пользователям права для совместной работы над группами документов.

Учитывая, что с хранилищем будут работать пользователи разной компьютерной квалификации, был разработан программный антивирусный модуль, автоматически противодействующий распространению вирусного заражения файлов пользователей хранилища. Модуль выполнен в виде сервиса Win­dows и реализует следующий алгоритм работы. Антивирусный файловый сканер настраивается на периодическую проверку файлов хранилища. Результатом такой проверки является файл отчета, помещаемый сканером в одну из папок сервера. Антивирусный модуль ИХД перехватывает событие появления нового файла и анализирует этот отчет. При обнаружении в отчете записей, свидетельствующих о заражении какого-либо файла, антивирусный модуль помещает в БД ИХД информацию об этом. Это позволяет программе, обслуживающей хранилище, принять решение о блокировании загрузки пользователем зараженных файлов. Файлы, которые еще не прошли антивирусную проверку, соответствующим образом помечаются в интерфейсе пользователя.

Кратко опишем процесс работы с хранилищем. Новый пользователь ИХД должен отправить запрос на регистрацию в системе, сообщив о себе требуемые данные. Администратор ИХД с помощью инструментов администратора обрабатывает запрос на регистрацию и назначает пользователю роль в системе, квоту на объем данных или отказывает ему в регистрации.

После регистрации и успешного входа в систему пользователь получает возможность, зависящую от его роли в системе, создавать свои личные каталоги и работать в каталогах других пользователей системы или только работать с каталогами других пользователей, доступ к которым ему разрешают авторы соответствующих каталогов. Условно эти роли в системе называются соответственно "писатель" и "читатель". Доступ к каталогам осуществляется непосредственно после успешного входа в систему.

В целом программное обеспечение ИХД разработано на основе объектной многоуровневой модели по схеме:

·    представлениe – интерфейс пользователя;

·    бизнес‑правила – управление логикой работы хранилища;

·    уровень данных – управление хранением данных;

·    сервис антивирусной защиты хранилища.

Первый уровень модели представляет собой набор DHTML-документов, клиентских и серверных скриптов, посредством которых пользователь взаимодействует с хранилищем. Интерфейс реализован для русского и английского языков. Выбор языка осуществляется автоматически с учетом языковых настроек программы просмотра Microsoft Internet explorer.

Уровень бизнес‑правил имеет объектно-ориенти­рованную структуру. Для рассматриваемого уровня разработан набор COM-объектов, инкапсулирующих функциональность данного уровня и обеспечивающих независимость модификации каждой задачи.

Функциональность объектов данного уровня обеспечивает работу следующих подсистем:

·    регистрация пользователей;

·    управление учетными записями пользователей, группами пользователей, каталогами, доступом к каталогам;

·    администрирование;

·    обеспечение безопасности;

·    взаимодействие с сервисом антивирусной защиты;

·    лингвистическая поддержка полнотекстового поиска;

·    классификация.

Третий уровень, уровень данных, использует комбинированную схему, содержащую файловую и реляционную компоненты. Файловая компонента хранит специальным образом организованную иерархию объектов данных ИХД. Реляционная компонента базируется на реляционной СУБД и содержит метаинформацию об объектах ИХД, включающую их местоположение в иерархии хранилища, тип объектов, параметры безопасности и т.д.

При разработке ИХД были рассмотрены два варианта его организации. Первый вариант предполагал хранить все данные системы в реляционном хранилище. Его достоинством являлась простота обеспечения транзакционной целостности данных. Но он обладал рядом недостатков, таких как низкое быстродействие системы при загрузке и выгрузке объемных данных и сложность обеспечения антивирусной защиты.

Комбинированный вариант обладает достаточным быстродействием при работе с объемными данными, так как задействует стандартные механизмы файловой системы. Что касается антивирусной защиты, комбинированный вариант позволяет применить для выявления вирусов в хранилище широко распространенные файловые антивирусные сканеры. Однако обеспечение транзакционной целостности данных потребовало дополнительных усилий, так как стандартный механизм транзакций реляционных СУБД позволяет обеспечить целостность только метаинформации, но не информационных объектов файловой компоненты. Данная проблема была решена путем создания хранимых процедур в реляционной компоненте ИХД. Эти процедуры непосредственно взаимодействуют с файловой компонентой и обеспечивают управление комбинированными транзакциями файловой и реляционной частей системы.

Комбинированная архитектура хранилищ является, на наш взгляд, весьма перспективной. Аналогичный подход к организации хранилищ данных демонстрирует перспективная файловая система WinFS фирмы Мicrosoft, предназначенная для следующих версий ОС Windows.

Хранилище содержит инструменты, позволяющие проводить полнотекстовый поиск по документам известных офисных форматов. Основная идея полнотекстового поиска заключается в том, что запрос пользователя на поиск обрабатывается специальным образом, и служба выполняет поиск не только указанных слов, но и их словоформ, что значительно увеличивает качество поиска.

Основой работы полнотекстового поиска является стандартная служба индексирования ОС Windows. Эта служба позволяет индексировать файлы и выполнять запросы на поиск. Служба проста в администрировании и работает достаточно устойчиво. Количество проиндексированных документов может достигать сотен тысяч. Для хранения индекса необходимо 15-20% от общего объема исходных документов. В стандартной поставке службы не предусмотрена поддержка русского языка, однако служба поддерживает подключение внешних лингвистических модулей. Независимые разработчики имеют возможность задействовать свои способы обработки на различных этапах индексирования. Для этого необходимо создать COM-объект, поддерживающий нужные интерфейсы: IFilter, IWordBreaker, IStemmer.

Интерфейс IFilter выполняет выделение свойств документа и его содержания. IWordBreaker разбивает сплошные блоки текста на слова и словосочетания.

IStemmer предназначен для генерации различных словоформ слова.

В процессе построения индекса для каждого файла каталога выделяются свойства документа и его содержание (процедура определяется интерфейсом IFilter для соответствующего типа файла). Для стандартных форматов (doc, htm* и т.д.) этот интерфейс уже встроен в службу. Выделенный текст разбивается на слова и фразы с помощью интерфейса IWordBreaker для соответствующего языка. Полученный список слов нормализуется (преобразовывается к верхнему регистру). Удаляются малозначащие слова (предлоги, местоимения и др.), список этих слов можно задать для каждого языка. Оставшиеся слова сохраняются в индексе.

Введенный пользователем запрос обрабатывается следующим образом. Из исходного запроса выделяются параметры и текст для поиска. Выделенный текст разбивается на слова с помощью IWordBreaker. Если задан режим полнотекстового поиска, то для искомого текста генерируются словоформы с помощью интерфейса IStemmer. Список слов для поиска нормализуется, и из него удаляются малозначащие слова. Выполняется запрос, оцениваются (ранжируются) результаты и возвращаются пользователю.

При разработке лингвистических модулей в ИХД был задействован свободно распространяемый словарь проекта АОТ (http://www.aot.ru/download/ RusMorph.zip).

Для поддержки русского языка в службе индексирования были написаны две библиотеки – MyStem­mer.dll и My_search.dll.

Библиотека MyStemmer.dll содержит внутри специально организованный лингвистический словарь, основой которого является словарь проекта АОТ, и обрабатывает запросы на генерацию словоформ. Она регистрируется как серверное приложение COM+ на уровне бизнес-логики программной системы ИХД. После регистрации этого приложения можно обращаться к нему через COM-интерфейс IMyStemmer, содержащий два метода: GenerateForms (функция генерирует словоформы для заданного слова и возвращает их количество); GetForm (функция позволяет получить по номеру уже сгенерированные словоформы).

Библиотека My_search.dll предназначена для связи службы индексирования и внешних лингвистических ресурсов. Она содержит методы внешнего интерфейса, используемые для полнотекстового поиска в хранилище. Эта библиотека регистрируется как COM-объект на уровне бизнес-логики программной системы ИХД.

В настоящее время разрабатывается подсистема классификации ИХД, позволяющая производить самоорганизацию потока входящей информации посредством ее автоматической классификации и записи в определенные тематические каталоги.

В заключение отметим, что сценарии использования ИХД в системах государственного управления весьма разнообразны и охватывают системы защищенного документооборота, централизованные хранилища данных с удаленным доступом, электронные библиотечные системы и т.п.

Более подробно ознакомиться с системой можно по адресу http://puma.inf.susu.ac.ru/ffms/ (виртуальная организация ²Конференция², пользователи demo1 (пароль demo1), роль ²писатель² и demo2 (пароль de­mo2), роль ²читатель²).

Список литературы

1. Суховилов Б.М., Григорова Е.А. Многопользовательская система хранения данных с удаленным доступом (FMS). Современные проблемы атомной науки и техники. // Сб. науч. тр. международ. науч.-практ. конф. - Снежинск (Челябинск. обл.): Изд-во СГФТА, 2003. – 592 с.

2. Суховилов Б.М. Использование авторизованных хранилищ данных в дистанционном образовании //Матер. конф.: Новые университеты - Роль информационных технологий в становлении гуманитарного образования. - Челябинск, ЮУрГУ.- 2003.

3. Суховилов Б.М. Применение в учебном процессе многопользовательской системы хранения данных с удаленным доступом // Матер. науч.-метод. конф.: Проблемы высшего образования и новые образовательные технологии. - Челябинск, ЮУрГУ.- 2003.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=471%E2%8C%A9=%E2%8C%A9=&like=1
Версия для печати
Выпуск в формате PDF (1.26Мб)
Статья опубликована в выпуске журнала № 1 за 2006 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик: