На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

В ИПС РАН усовершенствованы методы извлечения информации из текста на естественном языке

06.08.2009

В различных системах обработки текста на естественном языке используется широкий спектр средств для представления лингвистической и предметно-ориентированной информации о тексте в целом или его фрагментах. Единого подхода к представлению разметки текста и информации о нем не существует.

 В последнее десятилетие довольно широко используется способ представления информации о тексте, основанный на так называемых аннотациях, отличающийся простотой и высокой степенью универсальности. Сегодня многие системы обработки текста в той или иной степени используют идеи модели аннотаций.

 Аннотация – объект, который приписывается фрагменту текста (например, слову, словосочетанию, предложению, ссылке на сущность предметной области и т.д.) и описывает свойства этого фрагмента. Аннотации разбиты на конечное множество классов. Каждый класс аннотаций описывает текст в определенном аспекте. Информация о фрагменте представлена значениями именованных атрибутов аннотации. Наборы классов и атрибутов аннотаций намеренно не специфицированы, чтобы можно было использовать произвольный набор обрабатывающих модулей и представлять необходимую лингвистическую и предметную информацию. Обмен данными между модулями тоже идет в терминах аннотаций: новые аннотации могут строиться на основании полученных на предыдущих этапах анализа.

  Подробное описание дается в статье «Технология извлечения  информации из текстов, основанная на знаниях», авторы: Кормалев Д.А., Куршев Е.П., Сулейманова Е.А., Трофимов И.В. (ИПС им. А.К. Айламазяна РАН, г. Переславль-Залесский).