На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

Технология разработки порталов научных знаний

Technology of development of scientific knowledge portals
Статья опубликована в выпуске журнала № 4 за 2009 год.
Аннотация:Статья посвящена описанию технологии построения порталов научных знаний, обеспечивающих содержательный доступ к знаниям и информационным ресурсам определенной области знаний. Рассматриваются концепция, архитектура и информационная модель портала научных знаний, средства поддержки его разработки, настройки и сопровождения.
Abstract:The paper presents the technology of development of scientific knowledge Internet portals which provide content-based access to the knowledge and scientific information resources related to certain knowledge area. Conception, architecture and information model of the scientific knowledge portal, as well as facilities for development, adjustment, management and maintenance of such portal are described
Авторы: Загорулько Ю.А. (zagor@iis.nsk.su) - Институт систем информатики им. А.П. Ершова СО РАН, г. Новосибирск, кандидат технических наук
Ключевые слова: содержательный доступ, информационные ресурсы, онтология, информационная модель, портал знаний
Keywords: content-based access, information resources, ontology, information model, scientific knowledge portal
Количество просмотров: 16223
Версия для печати
Выпуск в формате PDF (4.85Мб)

Размер шрифта:       Шрифт:

В сети Интернет представлен большой объем знаний и информационных ресурсов по различным областям. Однако доступ к этим ресурсам значительно ограничен из-за того, что они слабо структурированы, недостаточно систематизированы и к тому же рассредоточены по всевозможным интернет-сайтам, библиотекам и архивам. Решению этой проблемы могла бы помочь реализация концепции Semantic Web [1], основной целью которого является обеспечение возможности выражения смысла (семантики) информационных ресурсов, представленных в Интернете. К сожалению, сейчас объем ресурсов, отвечающих требованиям Semantic Web, – лишь капля в океане информации, доступной через Интернет.

Для решения этой проблемы предлагается строить специализированные порталы знаний, которые обеспечивали бы систематизацию знаний и информационных ресурсов по требуемой научной тематике, их интеграцию в единое информации- онное пространство и содержательный доступ к ним [2]. При этом данный подход естественным образом интегрирует наиболее важные компоненты технологии Semantic Web, в частности, использование онтологии для представления семантики информационных ресурсов и поддержки их интеллектуального анализа.

В данной статье описываются технология построения порталов научных знаний и ее основные компоненты: информационная модель и архитектура портала научных знаний, средства поддержки его разработки, настройки и сопровождения.

Информационная модель портала знаний

Информационная модель должна обеспечивать унифицированное представление и хранение знаний и данных по тематике портала, на ее основе должны строиться внутренние хранилища данных портала, базироваться его информационное наполнение, логический вывод, навигация и поиск. В связи с этим в качестве ядра такой модели выбрана онтология, которая является удобным средством описания областей знаний [3].

Подпись:  Рис. 1. Базовые онтологии портала знанийФормально онтология портала представляет собой семерку вида O=áC, R, T, D, A, F, Axñ, где C – конечное непустое множество классов, описывающих понятия некоторой предметной или проблемной области (ПрО); R – конечное множество бинарных отношений, заданных на классах (понятиях); T – множество стандартных типов; D – множество доменов (множеств значений стандартного типа string); A – конечное множество атрибутов, описывающих свойства понятий C и отношений R; F – множество ограничений на значения атрибутов понятий и отношений; Ax – множество аксиом, определяющих семантику классов и отношений онтологии.

В онтологии выделены три типа отношений: RT – асимметричное, транзитивное, нерефлексивное бинарное отношение наследования, на базе которого могут строиться иерархии понятий C; RP – бинарное транзитивное отношение включения («часть–целое») и RA – конечное множество ассоциативных отношений. Особенностью отношений RA является то, что предложенный формализм позволяет задавать для них атрибуты, специализирующие связи между аргументами (объектами).

Для упрощения настройки портала на выбранную область знаний в его онтологии выделены базовые онтологии, не зависящие от ПрО портала, и предметная онтология, описывающая определенную область знаний. В качестве базовых онтологий выступают онтологии научной деятельности и научного знания [2].

Онтология научной деятельности (рис. 1) включает базовые понятия, относящиеся к организации научно-исследовательской работы и используемые для описания ее участников (исследователей и организаций), мероприятий (семинаров и конференций), научных программ и проектов, публикаций. В эту онтологию также включено понятие интернет-ресурса, служащее для описания информационных ресурсов, представленных в сети Интернет.

Онтология научного знания содержит метапонятия, задающие структуры для описания ПрО (научной дисциплины) портала знаний, позволяющие выделить в данной науке значимые разделы и подразделы, задать типизацию предметов, объектов и методов исследования, описать результаты научной деятельности и произведенные и используемые в ходе ее выполнения продукты.

Понятия описанных выше онтологий связаны между собой ассоциативными отношениями (рис. 1), выбор которых осуществлялся исходя не только из полноты представления ПрО портала, но и из удобства навигации по его информационному пространству и поиска информации. (Следует заметить, что понятие интернет-ресурса связано практически со всеми понятиями, поэтому, чтобы не загромождать рисунок, все его связи показаны пунктирной линией.)

Понятия онтологии ПрО, описывающие конкретную научную дисциплину, строятся на основе метапонятий онтологии научного знания и могут быть упорядочены в иерархию «общее–частное».

Подпись:  Рис. 2. Архитектура портала знанийПредставленная выше онтология не только описывает ПрО портала, но и задает структуры для представления реальных объектов и связей между ними. В соответствии с этим данные на портале представлены как множество взаимосвязанных информационных объектов (ИО). Каждый ИО соответствует некоторому понятию онтологии (является его экземпляром) и имеет заданную им структуру. Между конкретными ИО могут существовать связи, семантика которых определяется отношениями, заданными между соответствующими понятиями онтологии. Совокупность таких ИО и их связей образует информационное содержание, или контент портала.

Для решения задач поиска и автоматизации наполнения контента портала в информационную модель включен тезаурус, который является лингвистическим дополнением онтологии. Он содержит термины ПрО портала, то есть слова и словосочетания, с помощью которых понятия онтологии представляются в текстах и пользовательских запросах. Термины тезауруса связываются традиционными тезаурусными отношениями, главными из которых являются отношения «общее–частное» и синонимия. Между терминами тезауруса и понятиями онтологии устанавливаются отношения соответствия, создающие предпосылки для их совместного использования при поиске и обработке информации.

Архитектура портала знаний

Портал знаний имеет традиционную трехуровневую архитектуру (рис. 2): уровень доступа к информации, уровень обработки информации и базовый уровень.

Уровень доступа к информации обеспечивается пользовательским интерфейсом. Его главными функциями являются представление пользовательских запросов и результатов поиска, а также обеспечение удобной навигации в информационном пространстве портала. Благодаря использованию онтологии и тезауруса пользовательский интерфейс позволяет формулировать запросы в терминах предметной области портала и поддерживает управляемую онтологией навигацию по ИО и интегрированным в портал информационным ресурсам. Вся информация о конкретном объекте и его связях отображается в виде HTML-страницы, формат и наполнение которой зависят от свойств понятия, экземпляром которого является данный объект, а также заданного для него шаблона визуализации. При этом объекты, связанные с данным объектом, представляются на его странице в виде гиперссылок, по которым можно перейти к их детальному описанию.

Уровень обработки информации включает подсистему навигации и поиска информации, средства настройки базы знаний портала и управления его контентом, а также подсистему сбора онтологической информации о ресурсах [4].

Настройка базы знаний выполняется с помощью редакторов онтологий и тезаурусов. Для управления контентом служит редактор данных, который позволяет создавать, редактировать и удалять ИО и связи между ними. Все эти редакторы реализованы как web-приложения, поэтому обеспечивают удаленную настройку портала и поддержку его контента экспертами через Интернет.

Подсистема сбора онтологической информации выполняет поиск релевантных информационных ресурсов (документов) в Интернете, их семантический анализ и индексирование (аннотирование) в терминах онтологии портала знаний. Содержимое аннотаций сохраняется в хранилище данных и вместе с другими ИО используется при поиске и навигации по контенту портала.

В качестве хранилища данных используется специальная БД, в которой одновременно хранятся и контент портала, и описание онтологии. Предложенная схема представления знаний и данных позволяет редактировать онтологию не только во время разработки, но и при эксплуатации портала.

Технология построения и сопровождения портала научных знаний

Построение портала научных знаний в рамках предлагаемого подхода фактически сводится к настройке на заданную ПрО типового портала знаний, информационная модель и архитектура которого описаны выше, а также к созданию его контента. В связи с этим процесс построения портала предполагает выполнение следующих действий: разработка онтологии и тезауруса ПрО, настройка пользовательского интерфейса и информационное наполнение портала знаний.

Процесс построения онтологии ПрО портала знаний состоит из следующих шагов.

1. Построение базовых иерархий. Выявляются наиболее важные (базовые) понятия ПрО и упорядочиваются в иерархии «общее–частное» и, если необходимо, «часть–целое», причем вершиной каждой такой иерархии является одно из метапонятий онтологии знаний. При этом выполняется обращение к экспертам, энциклопедическим словарям, учебникам и другим источникам, где уже дана какая-то систематизация понятий данной ПрО.

2. Выявление дополнительных понятий и отношений ПрО. Выявляются понятия ПрО, не вошедшие ни в одну из иерархий, а также существующие между ними отношения. Для этого собирается достаточно представительный корпус текстов, релевантных ПрО портала. Затем с помощью ручной и машинной обработки текстов извлекается значимая лексика, то есть слова и словосочетания, наиболее точно характеризующие данную область знаний. Полученный словник передается экспертам. Эксперты выбирают наиболее предпочтительные термины, которые будут использоваться в качестве названий понятий и отношений в онтологии ПрО. Для каждого такого понятия и отношения разрабатываются точные текстовые определения. Термины, не попавшие в разряд предпочтительных, в дальнейшем будут включены в тезаурус в качестве синонимов последних.

3. Кодирование онтологии. С помощью редактора онтологий создается формальная спецификация онтологии, включающая: иерархии понятий; множество заданных на понятиях отношений; множество атрибутов, описывающих свойства понятий и отношений; множество доменов, определяющих значения атрибутов; множество ограничений и аксиом, описывающих свойства классов и отношений.

Параллельно с разработкой онтологии с использованием тех же корпусов текстов и словников строится тезаурус ПрО.

Настройка пользовательского интерфейса выполняется для более удобного представления информации пользователю портала. При этом используются включенные в редактор онтологии средства настройки визуализации знаний и данных, с помощью которых для каждого понятия в терминах онтологии (понятий, атрибутов, отношений) задается шаблон визуализации ИО – экземпляров этого понятия и шаблон визуализации ссылок на них.

Создание контента портала знаний выполняется как вручную – с помощью редактора данных, так и автоматизированно – с использованием подсистемы сбора онтологической информации о ресурсах.

Следует заметить, что предложенная технология обеспечивает возможность не только оперативного пополнения контента, но и декларативной подстройки онтологии портала знаний в ходе его эксплуатации, что позволяет отслеживать динамику появления новых знаний и типов информационных ресурсов по его тематике и тем самым поддерживать его в актуальном состоянии.

Таким образом, в статье предложена технология, поддерживающая разработку порталов научных знаний без участия разработчиков-програм­мистов. Для создания портала требуются только инженеры знаний – специалисты в представлении знаний и эксперты – носители знаний в моделируемой ПрО.

На основе этой технологии были разработаны археологический портал знаний (http://www.sati. archaeology.nsc.ru/classarch2/) и портал знаний по компьютерной лингвистике (http://uniserv.iis. nsk.su/cl/), обеспечивающие содержательный доступ широкому кругу пользователей к систематизированным знаниям и информационным ресурсам по археологии и компьютерной лингвистике соответственно.

Литература

1. Tim Berners-Lee, James Hendler and Ora Lassila. The Semantic Web // Scientific American, May 2001, pp. 29–37.

2. Загорулько Ю.А., Боровикова О.И., Загорулько Г.Б. Организация содержательного доступа к информационным ресурсам на основе онтологий // Электронные библиотеки: перспективные методы и технологии, электронные коллекции : тр. 9-й Всеросс. науч. конф. RCDL’2007. Переславль-Залесский: Изд-во «Университет города Переславля», 2007. Т. 1. С. 217–224.

3. Guarino N. Formal Ontology in Information Systems. Proceedings of FOIS’98, Trento, Italy, 6–8 June 1998. Amsterdam, IOS Press, pp. 3–15.

4. Боровикова О.И., Загорулько Ю.А., Сидорова Е.А. Подход к автоматизации сбора онтологической информации для интернет-портала знаний // Компьютерная лингвистика и интеллектуальные технологии : тр. Междунар. конф. Диа­лог'2005. М.: Наука, 2005.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=2362&lang=
Версия для печати
Выпуск в формате PDF (4.85Мб)
Статья опубликована в выпуске журнала № 4 за 2009 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик: