На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

Статьи из выпуска № 3 за 2014 год.

Упорядочить результаты по:
Дате публикации | Заголовку статьи | Авторам

31. Трехтактная кластеризация динамичных интернет-ресурсов с применением DOM-моделей [№3 за 2014 год]
Авторы: Мороховец Ю.Е., Зейн А.Н.
Просмотров: 10090
Рассматривается задача кластеризации интернет-ресурсов, обеспечивающей повышение качества работы поисковых систем. Задача решается в условиях, когда кластерная структура может кардинально меняться во времени вследствие изменения текстового содержания динамических компонентов интернет-ресурсов. В DOM-моделях современных интернет-ресурсов содержится множество динамических компонентов, которые меняют текстовое содержание ресурса с каждой новой загрузкой в браузер. Это делает применение классических методов кластерного анализа малоэффективным. Авторы данной работы исследуют ситуацию, когда кластерная структура меняется во времени вследствие изменения текстового содержания динамических компонентов DOM-моделей. Изменение содержания интернет-ресурсов влияет на кластерную структуру как качественно, так и количественно, что, в свою очередь, приводит к дрейфу или диффузии кластеров. Для достижения высокой степени статичности кластерной структуры, стабилизации кардинальности характеристических векторов ресурсов предлагается применить DOM-фильтрацию. Авторами рассмотрена и экспериментально доказана возможность улучшения динамического показателя «степень принадлежности» после применения трехтактной кластеризации с использованием DOM-фильтра. Результаты исследований обеспечивают достижение более стабильного состояния кластеров в кластерной структуре. Доступ к содержанию интернет-ресурсов в эксперименте осуществлялся с помощью специального программного модуля, реализованного в среде Visual Studio 2010. После загрузки страниц браузером модуль выполняет структуризацию элементов DOM-моделей, значения атрибутов и тэгов записываются в реляционную базу данных. Все расчеты, связанные с кластерным анализом интернет-ресурсов, выполняются в среде MS SQL Server 2012. Предложенный подход может быть применен для кластеризации интернет-ресурсов с высокой степенью динамичности, что приведет к повышению качества результатов поиска.

← Предыдущая | 1 | 2 | 3 | 4