На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

В Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики предложен и реализован алгоритм восстановления структуры статей словаря Wiktionary.

03.11.2016

Поверхностный семантический анализ – одно из наиболее активно развивающихся в настоящее время направлений в области автоматической обработки текста. Практически всегда эта форма анализа текста предполагает использование некоторой базы знаний о реальных объектах и абстрактных понятиях. Такие базы играют ключевую роль в процессе анализа текста, так как содержат информацию о понятиях, отображенных на множества грамматик (алфавитов) различных языков. Подобные структуры знаний принято называть семантическими сетями.

Семантическая сеть – это ориентированный граф, узлами которого являются понятия (или смысловые значения), а ребрами – отношения между ними. Такие сети можно использовать при решении задачи семантического анализа текста, так как они позволяют абстрагироваться от синтаксиса и рассматривать весь текст, составляющие его предложения, фразы и слова в виде набора смысловых значений. При этом использование семантических сетей для решения задачи семантического анализа текстов приводит к появлению ряда дополнительных требований к ним. Основное требование в том, чтобы используемая семантическая сеть содержала достаточно большое количество взаимосвязанных узлов, а данные в этих узлах (значения слов и связи между ними) оперативно обновлялись (то есть база должна постоянно актуализироваться). Только в этом случае возможен эффективный семантический анализ текста.

Вследствие этих требований ряд популярных семантических сетей (например WordNet и BabelNet) становятся малопригодными для использования в качестве основы для построения системы семантического анализа, так как в них слишком мало узлов и данные либо вообще не актуализируются, либо актуализируются вручную администраторами системы. Таким образом, появляется необходимость формирования структуры знаний, хранящихся в семантической сети, из каких-либо внешних источников данных, обладающих достаточной полнотой и актуальностью. Одним из таких возможных источников данных является открытый словарь Wiktionary (викисловарь, проект Wikime­dia Foundation). Данные в него вносят обычные пользователи сети Интернет, англоязычный раздел этого словаря содержит в настоящий момент более 4 миллионов статей.

Подробное описание дается в статье «Метод автоматического формирования семантической сети из слабоструктурированных источников», авторы: Письмак А.Е., Харитонова А.Е., Цопа Е.А., Клименков С.В. (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, Санкт-Петербург).