На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

В Липецком государственном техническом университете разработана оригинальная методологическая основа технологии автоматизированной оценки уровня семантического подобия текстов

07.05.2013

Проблема автоматической оценки содержательной близости информационных источников, представленных на естественном языке (текстов), весьма актуальна для информационных технологий. В настоящее время в информационно-поисковых системах при классификации текстов, проверке на плагиат применяются статистические подходы на основе векторно-пространственной модели текста. Формальной основой этой модели является скалярное произведение векторов, которое, как известно, изменяется от нуля для ортогональных векторов до единицы для коллинеарных. Формальным представителем текста является вектор частот входящих в него слов, а мерой близости текстов – косинус угла между векторами, соответствующими сравниваемым текстам. В такой модели совершенно не используются семантические характеристики слов и словосочетаний, которые представлены в грамматиках языков и составляют их основное содержание. Поэтому при использовании данной модели фактическая близость текстов устанавливается последующим субъективным анализом.

При субъективной интеллектуальной оценке содержательного подобия текстов сопоставляются содержательные характеристики объектов, их состояний, действий, условий, результатов и т.п., которые могут быть названы семантическими компонентами текста. Авторы предлагают оригинальную технологию, позволяющую автоматизировать процесс оценки семантической близости текстовых документов. Технология базируется на формализации этапов обработки текстов, используемых по умолчанию при субъективном сопоставлении. Численные примеры иллюстрируют некоторые возможности разработанной технологии.

Подробное описание дается в статье «Технология автоматизированной оценки содержательной близости текстов», авторы: Кузнецов Л.А., Кузнецова В.Ф. (Липецкий государственный технический университет).