ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

2
Publication date:
16 June 2024

About a method of knowledge representation

The article was published in issue no. № 3, 2012 [ pp. 155-160 ]
Abstract:In the article there is considered a new method for knowledge modeling in the form of molingas by creating knowledge bases of intelligence systems. In this approach simple sentences are represented as short semantic network by an expert-editor in manual or semi-automatic way that has long been applied when creating expert systems. The original grammatical structure is retained. Complex sentences are divided in simple ones. The received model of sentence is named molinga. The study gives its formal description. Molingas include many ID numbers, core, molinga core usability condition, code sequence of dictionaries numbers, confidence level, postconditions. There is given a kind of semantic network which can represent the core of molinga. Knowledge base consists of a set of molingas. The article describes a step-by-step procedure for obtaining molingas as text models. Simple sentences that have semantic meaning of already entered molingas, do not enter again in the knowledge base. The passage of real text demonstrates the knowledge base example created as a set of molingas, the glossary of terms is given, which is then used with this knowledge base by inferencing. The text has a link to the author's new patent on this knowledge modeling technology. This way of knowledge modeling from texts enables technology of direct knowledge overlay. Similar approach has been used by D. Grey by creation of purely numerical databases. This approach can be used to de-velop intelligence systems for a wide range of knowledge.
Аннотация:Рассматривается новый способ моделирования знаний в виде молинг при создании баз знаний интеллектуальных систем. В данном подходе простые предложения представляются короткой семантической сетью экспертом-редактором ручным или полуавтоматическим способом, что давно применяется при создании экспертных систем, при этом исходная грамматическая структура сохраняется. Сложные предложения разбиваются на простые. Получаемая модель предложения названа молингой. В работе дано ее формальное описание. Молинги включают в себя множество идентификаторов, ядро, условие применимости ядра, кодовую последовательность номеров словарей, уровень достоверности, постусловия. Приводится вид семантической сети, которая может представлять ядро молинги. База знаний состоит из набора молинг. Описывается пошаговый порядок получения молинг как моделей текста. Простые предложения, имеющие семантический смысл уже введенных молинг, повторно в базу знаний не вводятся. На отрывке реального текста демонстрируется пример созданной базы знаний в виде набора молинг, приводится получаемый при этом словарь терминов, который затем используется вместе с данной базой знаний при логическом выводе. В тексте есть ссылка на новый патент автора на данную технологию моделирования знаний. Такой способ моделирования знаний из текстов позволяет реализовать технологию прямого наложения знаний. Близкий к описанному подход был использован Д. Греем при создании баз чисто числовых данных. Данный подход применим при разработке интеллектуальных систем для широкого круга знаний.
Authors: G.B. Bronfeld (stolem1985@gmail.com) - Nizhny Novgorod State Technical University n.a. R.E. Alekseev (Associate Professor), Nizhny Novgorod, Russia, Ph.D
Keywords: knowledge integration, knowledge base, semantic network, modeling, text, knowledge management, molinga, knowledge model
Page views: 11384
Print version
Full issue in PDF (7.64Mb)
Download the cover in PDF (1.33Мб)

Font size:       Font:

Существуют различные способы представления знаний, применяемые, в частности, для моделирования текстов [1]. Сами тексты на естественном языке, создаваемые человеком, например на русском языке, – довольно сложные образования [2].

Важность моделирования текстов обусловлена тем, что они, по выражению К. Поппера, являются ядром некоего самостоятельного третьего мира, который отражает окружающую нас действительность, хранит накопленные человеком знания об этой действительности и возможностях ее преобразования.

К широко применяемым моделям знаний относятся, например, логические и продукционные модели, семантические сети, фреймы [1]. В числе наиболее используемых для текстов – САО-струк­туры, модели семантик предпочтения, модели «смысл–текст» Жолковского и Мельчука, модели грануляции знаний [3] и др. По сути основными сравнительными достоинствами каждой из них являются степень отражения и сохранения семантического смысла того, что написано человеком в исходном тексте, и возможность конструктивно создавать интеллектуальные системы (ИС) и близкие к ним на базе применения вычислительной техники для получения полезных для пользователя результатов.

Процесс ввода знаний из некоего текстового источника Т в базу знаний (БЗ) некой ИС можно представить в виде схемы (рис. 1) [1].

Эксперт-редактор (назовем его так) читает текстовый источник Т и заносит его в виде неких моделей знаний в БЗ. Обычно при создании одной из разновидностей ИС – экспертных систем – различают эксперта, то есть высококвалифицированного специалиста в рассматриваемой предметной области знания, и инженера по знаниям, специалиста, который моделирует знания и вводит их в БЗ. В данном случае это специалист, который разбирается в достаточно широкой предметной области и обучен специальным методам моделирования знаний и ввода их в БЗ. На практике его работа достаточно близка к работе патентоведа или научного редактора при подготовке статей или книг к публикации. У эксперта-редактора по поводу Т возникает некое понимание в виде модельной структуры М1, которая отражает воспринимаемый им семантический смысл. Известно, что понимание текста зависит от читателя [2], однако в БЗ воспринимаемые знания могут заноситься на современном уровне только в формальном виде, то есть существует этап формализации, и сами модели знаний будут иметь некий вид М2, отличный от М1. При этом какая-то часть семантического смысла неизбежно будет теряться. Есть еще одна проблема – результат как некое решение должен выдаваться ИС пользователю в виде взаимосвязанного текста, иногда достаточно обширного. Очень редко это просто цифра или набор цифр. Такое на практике встречается или в учебных задачах, или при решении каких-то чисто информационных проблем. В данной ситуации использование уже упомянутых моделей знаний в виде продукционных моделей, семантических сетей, фреймов и многих других приводит к непростой итоговой проблеме – получению ответа в виде взаимосвязанного текста. Проблему осложняет то, что значительную часть человеческих знаний трудно, а иногда и невозможно описать, используя детерминированные или стохастические методы, что связано с нечеткостью, неполнотой или неопределенностью этих знаний. В то же время это весьма характерно для естественных языков и связано с их сложной структурой и многообразием понятий.

Попробуем промоделировать знания в текстах другим способом, позволяющим сразу готовить блоки, которые потом можно использовать для вывода результатов, и, что не менее важно, значительно снизить объем создаваемой БЗ по сравнению с некоторыми другими подходами.

Из лингвистики известно, что простое предложение было и остается основной единицей текста, так как именно в нем отражаются наиболее существенные функции языка и сформирована и выражена мысль. Этими факторами и обусловлен выбор простого предложения, построенного на грамматике естественного языка, в качестве основы моделей.

Способ представления знаний моделью, названной молингой (сокращение от слов «модель для элинги» (электронной интеллектуальной книги) [4]), заключается в следующем.

Каждое простое предложение текста Т (сложные предложения делятся на простые) экспертом-редактором представляется специальной маленькой семантический сетью с составлением словарей терминов (включая синонимы), отношений, качественных и количественных признаков и т.д. Из предложений убирается эмоциональная окраска, они упрощаются с сохранением основных риторических отношений. При необходимости производятся эквивалентные замещения выражений (как говорят в теории перевода).

Молинги имеют близкий к продукционным моделям, но принципиально отличающийся ядром вид: {i} ; Р; Z; K; О; N.                                               (1)

Здесь i – множество идентификаторов, с помощью которых молинга выделяется из множества молинг. Идентификатором является составной номер, включающий номер ссылки на текст, номер главы, номер параграфа и номер абзаца (возможно иное). Приводятся все идентификаторы для этой молинги всех текстов Тi, где встречались одинаковые знания.

Текстов может быть много, i=1, 2, …, n. Одинаковость предложений в семантическом смысле и получение одинаковых молинг определяет эксперт-редактор. Одинаковые молинги могут попадаться как в одном тексте, так и в разных.

За счет идентификаторов при выдаче ответа может даже восстанавливаться (по желанию пользователя) близкий к исходному текст из первоисточника.

Элемент Р – условие применимости ядра молинги. Обычно Р представляет собой логическое выражение. Когда Р принимает значение «истина», ядро молинги активизируется.

Основным элементом молинги является ее ядро Z – моделируемое простое предложение.

В К указывается кодовая последовательность номеров словарей, фиксирующих положение в ядре молинги – слов, которые выступают как термины, отношения, качественные признаки и т.д.

В О указываются уровни достоверности молинг, например, в виде факторов уверенности, впервые примененных в ЭС MYCIN с указанием диапазона достоверности от –1 (абсолютная ложь) до +1 (абсолютная истина).

Элемент N описывает постусловия молинги. Они актуализируются в случае, если ядро молинги реализовалось. Постусловия описывают действия и процедуры, которые выполняются после реализации ядра молинги.

Фактически такое представление имеет вид закодированных маленьких семантических сетей специального вида.

Эксперт-редактор последовательно по предложениям вручную (или полуавтоматически) просматривает весь текст Тi и преобразует предложения текста в молинги. При необходимости он может добавлять свои молинги.

Предположим, исходное моделируемое предложение из Тi [1] следующее: «Неформальные методы выявления связей придумывает инженер по знаниям для того, чтобы вынудить эксперта указать явные и неявные связи между понятиями»

После обработки конкретного исходного предложения экспертом-редактором вручную (или полуавтоматически) могут получиться два простых предложения, которые превращаются в две молинги.

1.4.4.33; ; Неформальные методы выявления связей придумывает инженер_по_знаниям; 3, 1, 2, 1, 2, 1;0,7; ;

1.4.4.33;; Инженер_по_знаниям подталкивает эксперта указывать явные_связи и неявные_связи между понятиями;1, 2, 1, 2, 1, 5, 1, 2, 1;0,4;;

Составлющие идентификатора 1.4.4.33 означают: 1 – номер источника, 4 – номер главы, 4 – номер параграфа, 33 – порядковый номер абзаца в нем.

В К приведены номера словарей, куда входят соответствующие слова (фразеологизмы): 1 – словарь терминов, 2 – словарь отношений, 3 – словарь качественных признаков, 4 – словарь количественных признаков, 5 – словарь лингвистических и логических связей. Некоторые фразеологизмы состоят из 2 (нескольких) слов: инженер_по_зна­ниям, явные_связи, неявные_связи. Занесение слов (фразеологизмов) в словари выполняет эксперт-редактор.

В словари все слова (фразеологизмы) заносятся с учетом всех их (встречающихся в текстах) грамматических (лексических) инвариантов, синонимов и фразеологизмов с одинаковым семантическим смыслом в конкретном контексте. Далее будем использовать только термин «слова».

В результате БЗ элинги можно представить огромным набором коротких семантических сетей специального вида (рис. 2), внешне читаемых как вполне ясные и достаточно короткие предложения.

В вершинах этих специальных семантических сетей указаны термины из словаря терминов, по ним в дальнейшем будет происходить логический вывод – и только это важно в описываемом способе представления [4]. В данной статье особенности логического вывода для такого вида моделей не рассматриваются. В качестве ребер могут выступать слова из словаря отношений и словаря лингвистических и логических связей.

Получаемый вид молинг и даже их количество определяются экспертом-редактором. Как уже отмечалось, при преобразовании текста в модели знаний, удобные для хранения в памяти компьютера и их обработки, часть смысла теряется. Однако при накоплении знаний в БЗ из разных текстовых источников происходят постепенное уточнение семантического смысла введенных молинг с помощью новых из других источников и их дополнение [4].

Молинги относятся к модельным представлениям знаний ярко выраженного декларативного типа и могут находиться в любом месте БЗ, в принципе не влияя на результаты вывода. Тем не менее особенность процедуры создания БЗ подобного типа такова, что абсолютное большинство молинг из вводимых текстов будут находиться в БЗ последовательно относительно вводимых текстовых источников и их содержания. Эта особенность БЗ [4] при логическом выводе в дальнейшем приводит к резкому ускорению поиска результатов и новым возможностям, которые для большинства ИС на более традиционных БЗ или сложны, или недоступны.

В общем виде процесс моделирования текста экспертом-редактором с применением молинг с учетом предварительной обработки текста включает следующие шаги.

Шаг 1. Берется текст Ti или в электронном (машиночитаемом формате), или в печатном виде.

Шаг 2. Приведение текста к формату, используемому в БЗ; печатный текст может вводиться вручную или считываться.

Шаг 3. Предварительная обработка текста:

–      убираются стоп-слова, которые являются вспомогательными и несут мало информации о содержании текста, но только если они не нарушают семантику предложений;

–      выполняются (при необходимости) функции стэмминга – преобразование слов к нормальной форме, например, удаляются склонение слова, множественная форма, особенности устной речи и т.п.;

–      слова приводятся к одному регистру;

–      вместо местоимений (при необходимости) вставляются слова, которые они заменяют;

–      устанавливаются термины, состоящие из двух (или нескольких) слов – ввод подчеркивания пробела между составными словами.

Шаг 4. Разбиение текста на простые предложения (по необходимости).

Шаг 5. Создание молинг поэтапно по предложениям с указанием их идентификаторов, всей остальной структуры с указанием кодовой последовательности ядра молинги, факторов уверенности и отсылки к постусловиям.

Шаг 6. Попытка ввода молинги в БЗ. Если таковой там нет (полностью соответствующей семантическому смыслу), она вводится и происходит возврат к шагу 5 для создания новой молинги, пока текст не будет исчерпан (это шаг 8). Если такая молинга в БЗ есть, осуществляется переход к шагу 7.

Шаг 7. Если ядро молинги из БЗ семантически одинаково и совпадает постусловие (или в новой молинге его нет), то просто добавляется идентификатор новой молинги к множеству идентификаторов данной молинги, которые в БЗ уже были. Если фактор уверенности у новой молинги тот же, что в БЗ, или другой, то он может

–      не меняться;

–      изменяться по решению эксперта-редакто­ра;

–      рассчитываться по формуле расчета экспоненциальной скользящей средней:

ok=(fk–ok-1)S+ok-1, k=1, 2, …, m,                    (2)

где S=2/(m+1); k=1, 2, …, m – номер текущего идентификатора; m – количество всех идентификаторов на текущий момент; ok – рассчитываемый фактор уверенности молинги, заносимый в БЗ; fk – фактор уверенности молинги, который хотел бы придать на текущий момент эксперт-редактор; ok-1 – фактор уверенности молинги, который уже был ранее занесен в БЗ.

Если постусловие другое, данная молинга может вводиться в БЗ самостоятельно со своим постусловием (в БЗ будут две молинги с семантически одинаковым ядром, но разными идентификаторами и постусловиями).

Шаг 8. Окончание ввода Ti текста. Переход к шагу 1 для ввода i+1-текста.

Этот процесс чисто индивидуальный, у разных экспертов-редакторов могут получаться разные молинги, но квалификация эксперта-редактора позволяет предполагать, что качество работы будет на необходимом уровне. Если же произошла ошибка при моделировании, она может выявиться или в процессе отладки системы, или во время практического получения выводов.

При рассматриваемом подходе отдельные ошибки в моделировании практически никак не могут повлиять на результативность работы в системе, равно как отдельные опечатки в книге не влияют, как правило, на понимание ее смысла, тем более что опечатки постепенно выявляются.

Попутно молинги решают проблемы синонимов, омонимов, диалектных слов, фразеологизмов и т.п. за счет предварительного моделирования знаний экспертом-редактором при создании БЗ элинги. Это позволяет точно задавать в БЗ понимание и значение знаний, содержащихся в исходных текстах.

Приведем пример моделирования, например, конкретного абзаца [2] как части текста: «Интертекстуальность, понимаемая как наличие в тексте элементов (частей) других текстов, присуща любому тексту. Однако если это свойство становится для данного текста доминирующим, то он теряет цельность, что и можно наблюдать на примере "Утра" – текста с тематической недостаточностью. Чтобы восстановить цельность, нужно найти и собрать воедино все интертекстуальные связи такого текста с другими текстами А. Белого. Вся coвокупность таких связей будет представлять не что иное, как модель "обычного" текста – цельного и семантически автономного. В этом и наша задача: проделать интертекстуальный анализ "Утра", с тем чтобы дополнить его семантику "до цельности"».

Часть БЗ с молингами будет иметь, например, такой вид:

3.2.3.3;;Интертекстуальность, понимаемая как наличие в тексте частей других текстов, присуща любому тексту;1, 2, 5, 2, 5, 1, 2, 3, 1;0,8;;

3.2.3.3;;Если свойство становится для данного текста доминирующим, то он теряет цельность, что наблюдается на примере «Ут­ра» Белого А.;5, 1, 2, 5, 3, 1, 1, 5, 5, 2, 1, 5, 2, 5, 1, 1, 1;0,5;;

3.2.3.3;;«Утро» А. Белого – текст с тематической_недостаточностью;1, 1, 1, 5, 1;0,6;;

3.2.3.3;;Чтобы восстановить цельность «Ут­ра» Белого А., нужно найти и собрать воедино интертекстуальные связи текста с другими текстами Белого А.;5, 2, 1, 1, 1, 5, 2,5, 2, 3, 1, 1, 1, 5, 3, 1, 1;0,6;;

 3.2.3.3;;Сoвокупность связей представляется моделью "обычного"_текста – цельного и семантически автономного;1, 1, 2, 1, 1, 1, 5, 1, 1;0,6;;

3.2.3.3;;Задача: проделать интертекстуальный анализ «Утра» Белого А., чтобы дополнить его семантику "до_цельности";1, 2, 1, 1, 1, 1, 5, 2, 5, 1, 1;0,8;;

Приведем состав словаря терминов для данного абзаца и ранее рассмотренного сложного предложения.

Словарь терминов (1):

автономного

анализ

Белого А.

доминирующим

задача

интертекстуальность, интертекстуальные, интертекстуальный

инженер_по_знаниям

методы

моделью

неявные_связи

понятиями

примере

"обычного"_текста

свойство

связи, связей, явные_связи, неявные_связи

семантически, семантику

coвокупность

текстов, тексту, текста, текстами

тематической_недостаточностью

«Утра», «Утро»

цельность, цельного, "до_цельности"

эксперта

явные_связи

Молинги использованы для создания БЗ прототипов элинг и аналитических систем управления знаниями [4], защищенных патентом на полезную модель (№ 104348, 2011 г., автор Бронфельд Г.Б.).

Данный способ моделирования знаний может использоваться для создания различных новых ИС и модернизации существующих, в частности, систем управления знаниями. По сути именно он позволяет реализовать идеи интеграции знаний, развитые когда-то в 80-х профессором Э. Тыугу, реального создания объединенных БЗ на основе наложения знаний, опробованных в конце 90-х Д. Греем, и реализации идеи А. Ворожцова [3] в начале 21 века о грануляции знаний, но естественным путем.

Литература

1.     Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб: Питер, 2001. 384 с.

2.     Лукин В.А. Художественный текст: Основы лингвистической теории. Аналитический минимум. М.: Изд-во «Ось-89», 2009. 560 с.

3.     Ворожцов А.В. Индустрия знаний // Информационные технологии и вычислительные системы. 2003. № 4. C. 145–148.

4.     Бронфельд Г.Б. Подход к интеграции знаний с помощью элинг // Системы обработки информации и управления: тр. НГТУ им. Р.Е. Алексеева. 2009. Т. 74. Вып. 15. С. 5–11.


Permanent link:
http://swsys.ru/index.php?page=article&id=3234&lang=&like=1&lang=en
Print version
Full issue in PDF (7.64Mb)
Download the cover in PDF (1.33Мб)
The article was published in issue no. № 3, 2012 [ pp. 155-160 ]

Perhaps, you might be interested in the following articles of similar topics: