ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

2
Publication date:
16 June 2024

The article was published in issue no. № 4, 2008
Abstract:
Аннотация:
Authors: () - , () -
Keywords: the automated information system, project, , , fuzzy logic
Page views: 11892
Print version
Full issue in PDF (8.40Mb)

Font size:       Font:

Современный проектный репозитарий должен представлять собой интеллектуальное хранилище информационных ресурсов, чтобы обеспечить поиск необходимого ресурса на основе гибкого запроса. Особенность проектных репозитариев, отличающая его от универсального информационного хранилища, – это учет хранения многих версий одного и того же информационного ресурса. Основу индексирования информационных ресурсов традиционно составляет лексический портрет текстового дескриптора ресурса. Однако для организации интеллектуального проектного репозитария индексирования на основе частотных словарей терминов недостаточно, необходимо индексирование по времени создания и версиям.

Единицей обработки и хранения в репозитарии является информационный ресурс. Это файл или совокупность файлов, объединенных общей семантикой и имеющих текстовую аннотацию. В частном случае информационный ресурс – это один или несколько текстовых файлов. Текст аннотации (или текст самого ресурса) однозначно отражает смысловое содержание данного ресурса. При кластеризации мы полагаемся на гипотезу о том, что смысловое содержание текста кодируется статистическим распределением слов, то есть по частотному распределению слов, составляющих текст ресурса (или аннотации), мы можем определить его категорию.

По мере развития любого проекта появляются многочисленные версии документа. Кластеризация в разрезе версий позволит получить дополнительную информацию для проектного менеджмента. В каждый период времени проект характеризуется разной картой кластеризации составляющих его документов. На основе динамической кластеризации может быть построена эффективная система мониторинга проектов.

Формализованная постановка задачи нечеткой кластеризации

Пусть исследуемая совокупность представляет собой конечное множество элементов A={a1,…, an}, которое получило название «множество объектов кластеризации». В рассмотрение вводится конечное множество признаков или атрибутов P={p1,…, pq}, каждый из которых количественно представляет некое свойство или характеристику элементов рассматриваемой проблемной области. При этом n – общее количество объектов данных; q – общее количество измеримых признаков.

Далее предполагается, что для каждого из объектов кластеризации некоторым образом измерены все признаки множества P в некой количественной шкале. Тем самым каждому из элементов aiÎA поставлен в соответствие вектор , где  – количественное значение признака pjÎP для объекта aiÎA. Для определенности будем предполагать, что все  принимают действительные значения. Векторы значений признаков  удобно представлять в виде матрицы данных D размерности n´q, каждая строка которой равна значению вектора xi.

Задача нечеткого кластерного анализа формулируется следующим образом: на основе исходных данных D определить такое нечеткое разбиение R(A)={Ak êAkÍA} или нечеткое покрытие J(A)={Ak êAkÍA} множества A на заданное число c нечетких кластеров Ak, kÎ{2,…,c}, которое доставляет экстремум некоторой целевой функции f(R(A)) среди всех нечетких разбиений или экстремум целевой функции f(J(A)) среди всех нечетких покрытий.

Для решения задачи требуется дополнительно уточнить вид целевой функции и тип искомых нечетких кластеров (поиск нечеткого разбиения или покрытия).

Виды нечеткой кластеризации (механизмы кластеризации, основанной на знаниях)

В настоящее время разработаны следующие виды кластеризации: частично-управляемая кластеризация, кластеризация на основе сходства, на основе контекста, на основе сотрудничества.

Не все из перечисленных методов пригодны для построения системы управления проектным репозитарием. Необходимым свойством кластеризации должна быть возможность применения к вычислимым индикаторам встречаемости терминов.

Выбранный метод кластеризации является базовым для нейросетевой системы управления информационным хранилищем, выполняющим следующие функции:

-     формирование дерева категорий (в нашем случае это дерево каталогов на файл-сервере, составленное группой публикаторов);

-     классификация ресурсов по категориям;

-     построение дерева категорий (эксперту необходимо назвать образованные нейронной сетью кластеры).

Задача публикации ресурсов решается этой же сетью. Поступающие ресурсы проходят стемминг и частотный анализ. По состоянию выходов сети можно принимать решение о принадлежности ресурса к категориям.

Структурно-функциональное решение интеллектуального хранилища

Программная система, реализующая идеи интеллектуального хранилища, состоит из подсистемы индексирования электронного информационного ресурса (ЭИР) (индексатора), подсистемы кластеризации ЭИР на основе нейронной сети (нейросетевого кластеризатора) [1–3], подсистемы кластеризации на основе fuzzy-c-means-метода (fcm-кластеризатор) и классификатора (см. рис.).

На модуль индексации возложены задачи предобработки текстовых документов, или аннотаций к ЭИР, и построение частотных словарей встречающихся терминов. Сохранять частотные таблицы необходимо в СУБД MS SQL 2000. Далее в рамках модуля кластеризации и классификации на основе значений относительных частот должны создаваться предметно-ориентированные кластеры, которые организуются в виде иерархии. В процессе классификации выполняется задача соотнесения вновь заносимого ЭИР с определенным кластером.

Подсистема индексирования ЭИР. Модуль индексации представляет собой отдельный модуль программы, предназначенный для предварительного анализа ЭИР (форматы: MS Word, RTF, простой текстовый формат и пр.) с целью формирования данных для проведения процессов кластеризации и информационного поиска.

Индексатор позволяет пользователю интерактивно указать группу документов для анализа и запустить процесс индексирования.

Во время работы индексатор ведет журнал контрольных событий (выводит на экран и записывает в log-файл).

Для оценки значимости слов в индексаторе используются методы определения частот слов каждого документа и частот, рассчитанных по формуле Шеннона (сигнал–шум): , где  – шум термина; , где  – частота k-го термина в i-м документе;  – частота k-го термина по всем документам;  – сигнал термина .

Данные показатели хранятся вместе со словами в результирующей таблице частот терминов.

Подсистема нейросетевой кластеризации. Для кластеризации применяется нейронная сеть, использующая метод обучения без учителя – самоорганизующие карты Кохонена (Self-Organizing Map – SOM).

Кластеризатор позволяет пользователю выполнить следующие действия: интерактивно настроить параметры подключения и подключиться к базе данных; интерактивно изменить параметры нейронной сети; запустить процесс кластеризации; сохранить полученный результат в базе данных. В системе используются две основные процедуры настройки нейронной сети: инициализация весов нейронов случайным образом и алгоритм SOM.

Сеть SOM имеет набор входных элементов (частотные портреты текстовых документов, которые необходимо инициализировать из базы данных) и набор выходных элементов (иерархию кластеров), отображающихся в виде дерева результатов. Обучение нейронной сети происходит на каждом документе.

Подсистема fcm-кластеризации. В качестве входных данных кластеризатор использует набор ресурсов с термами и весами этих термов в ЭИР. На выходе должно быть построено дерево кластеров. Информация об ЭИР и термах запрашивается из БД MSSQL. После загрузки ресурсов формируется набор уникальных термов из термов загруженных ресурсов, который будет характеризовать центры кластеров. Затем пользователь выбирает параметры кластеризации для формирования первоначальной матрицы принадлежности ресурсов кластерам.

Метод FCM не является иерархическим. Для иерархической кластеризации требуется участие пользователя. Если одного уровня кластеризации недостаточно, то после его завершения пользователь сам выбирает кластеры, которые требуется кластеризовать дальше. Для каждой кластеризации также задаются параметры. Программа позволяет выполнять одновременно несколько процессов кластеризаций на одном уровне иерархии.

Структура интеллектуального хранилища

Пример использования нейросетевого проектного репозитария для хранения документов НПО «МАРС»

НПО «МАРС» (г. Ульяновск) является крупной проектной организацией с давней историей и значительным архивом успешных проектов. Для разработки новых проектов используются ранее разработанные решения, так как это позволяет сократить сроки проектирования. Документы похожи, если кластеризатор отнес их в один кластер, с другой стороны, документы, являющиеся версиями одного проекта, могут быть отнесены к разным кластерам, если в какой-то момент были приняты кардинально новые проектные решения. Поэтому мониторинг версий документов, построенный на основе кластеризации, может служить эффективным инструментом проектного мониторинга. Рассмотрим возможности такого мониторинга на конкретном примере.

Приведем фрагмент спецификации документов проектного репозитария.

ИНФОРМАЦИОННАЯ СИСТЕМА ПРЕДПРИЯТИЯ. WEB-СЕРВЕР ПРЕДПРИЯТИЯ. Руководство пользователя. Инструкция пользователю АБЕИ.97071.007 ИЭ-1.doc

ИНФОРМАЦИОННАЯ СИСТЕМА ПРЕДПРИЯТИЯ. WEB-СЕРВЕР ПРЕДПРИЯТИЯ. Руководство пользователя. Инструкция администратору АБЕИ.97071.007 ИЭ-2.doc

ИНФОРМАЦИОННАЯ СИСТЕМА ПРЕДПРИЯТИЯ. WEB-СЕРВЕР ПРЕДПРИЯТИЯ. Программа и методика испытаний АБЕИ.97071.007 ПМ. doc

Перечень средств вычислительной техники

Автоматизированное рабочее место. Система локальной электронной почты. Руководство пользователя. Часть 1. Настройка серверной части АБЕИ.97071.009 И3-1.doc

Автоматизированное рабочее место. Система локальной электронной почты. Руководство пользователя. Часть 2. Настройка клиентской части АБЕИ.97071.009 И3-2.doc

Результат кластеризации – в таблице 1.

Таблица 1

Степень принадлежности документов кластерам

Документ

Кластеры

№ 1

№ 2

№ 3

№ 4

№ 5

АБЕИ.97071.007 ИЭ-1.doc

16,70

17,15

15,94

16,08

18,96

АБЕИ.97071.007 ИЭ-2.doc

16,66

17,06

16,17

16,26

18,13

АБЕИ.97071.007 ПМ. doc

16,76

17,03

16,02

16,21

18,69

АБЕИ.97071.007 С2.doc

16,72

17,07

16,01

16,14

18,79

Таблица 2

Выводы о тематике документов на основе кластеризации

Документ/кластер

Тема

АБЕИ.97071.009 И3-1.doc/0

Автоматизированное рабочее место. Система локальной электронной почты. Руководство пользователя. Часть 1. Настройка серверной части

АБЕИ.97071.009 И3-2.doc/0

Автоматизированное рабочее место. Система локальной электронной почты. Руководство пользователя. Часть 2. Настройка клиентской части

АБЕИ.97071.009 И3-3.doc/0

Автоматизированное рабочее место. Система локальной электронной почты. Руководство пользователя

EMАИ.468629.001ТБ.doc/1

Модуль «имя модуля». Таблица проверок

ЕМАИ.464426.005 ТБ.doc/1

ПРИБОР. Таблица и методика проверки

Таблица 2 показывает общность лексики различных документов и может служить основанием для использования одних документов в качестве прототипов других. Если разные версии одного документа принадлежат разным кластерам, можно сделать вывод об изменении концепции проекта. Часто к таким изменениям приводят медленные, но последовательные изменения в ходе реализации, которые начинают противоречить исходному замыслу.

В заключение следует отметить, что разработанная технология на основе нечеткой кластеризации эффективна для организации интеллектуального проектного репозитария.

Список литературы

1.   Ярушкина Н.Г. Основы теории нечетких и гибридных систем. – М.: Финансы и статистика, 2004. – 320 с.

2.   Батыршин И.З., Недосекин А.О., Стецко А.А., Тара- сов В.Б., Язенин А.В., Ярушкина Н.Г. Нечеткие гибридные системы. Теория и практика. / Под ред. Н.Г. Ярушкиной. – М.: ФИЗМАТЛИТ, 2007. – 208 с.

3.   Наместников А.М., Чекина А.В., Корунова Н.В. Интеллектуальный сетевой архив электронных информационных ресурсов. // Программные продукты и системы. – 2007. – № 4. – С. 10–13.


Permanent link:
http://swsys.ru/index.php?page=article&id=1619&lang=&lang=en&like=1
Print version
Full issue in PDF (8.40Mb)
The article was published in issue no. № 4, 2008

Perhaps, you might be interested in the following articles of similar topics: