На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
14 Июня 2026

Практические аспекты применения расстояния Дамерау – Левенштейна в задачах классификации текста

Practical aspects of applying the Damerau – Levenshtein distance in text classification tasks
Дата подачи статьи: 27.05.2025
Дата после доработки: 11.06.2025
Дата принятия к публикации: 23.06.2025
УДК: 004.912
Группа специальностей ВАК: 2.3.8. Информатика и информационные процессы (технические науки)
Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 080-087 ]
Аннотация:Предложен новый метод классификации текстов без необходимости применения машинного обучения и наличия обучающей выборки (датасета). Он основан на метрике редактирования – расстоянии Дамерау – Левенштейна в комбинации с семантической близостью слов, со взвешиванием операций редактирования и с порядком важности слов. В данной работе такой подход позволяет оценить близость обрабатываемого текста к эталонному, который заранее предопределен в заданный класс (категорию). Приведены метрики оценки качества методов классификации текстов, такие как точность работы классификатора, средняя абсолютная и среднеквадратичная ошибки, время выполнения и семантическая согласованность. Предложенный метод апробирован на приме-ре сферы ЖКХ для обработки жалоб граждан. Приведена последовательность этапов его применения с включением необходимых операций и процедур обработки текста с их подробным рассмотрением на примерах. Разработана структурно-функциональная схема сбора жалоб граждан из различных источников с описанием объектов информационного взаимодействия. Результаты сравнения предложенного метода с базовым, не учитывающим семантическое сходство слов, показали повышение точности, уменьшение времени поиска сходства слов в сравниваемых строках и значительное снижение средней абсолютной и среднеквадратичной ошибок. Данный подход может найти применение в реальных системах обработки небольших текстов, где не требуется применять ресурсоемкие методы искусственного интеллекта, например, в системах контроля и мониторинга обращений граждан.
Abstract:This paper proposes a novel text classification method that operates without the need for machine learning or a labeled training dataset. The approach is based on an edit distance metric – specifically, the Damerau – Levenshtein distance – combined with word semantic similarity, weighted edit operations, and term importance ordering. In this study, the proposed method evaluates the proximity of an input text to a reference text preassigned to a specific category. Standard evaluation metrics for text classification are reported, including classifier accuracy, mean absolute error, root mean square er-ror, execution time, and semantic coherence. The method is validated in the domain of public utility services for processing citizen complaints. A step-by-step implementation procedure is provided, covering essential text processing operations and illustrated with practical examples. A fully operational structural and functional diagram for collecting complaints from multiple sources is developed, accompanied by a description of information exchange objects. Comparative analysis with a baseline method that does not account for semantic word similarity demonstrates improved accuracy, reduced string similarity search time, and substantially lower mean absolute and root mean square errors. The proposed method holds potential for deployment in real-world systems that process short texts and where resource-intensive artificial intelligence techniques are not feasible – for instance, in systems for monitoring and handling citizen inquiries.
Авторы: Татарникова Т.М. (tm-tatarn@yandex.ru) - Санкт-Петербургский государственный университет аэрокосмического приборостроения (доцент, профессор), Санкт-Петербург, Россия, доктор технических наук, Миляев Д.Р. (milyaev.dmitry00@mail.ru) - Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина), Санкт-Петербург, Россия, Аспирант
Ключевые слова: обработка текста, классификация текста, отсутствие датасета, метрика редактирования, семантическая согласованность, качество работы классификатора
Keywords: text processing, text classification, absence of dataset, edit distance metric, semantic coherence, classifier performance
Количество просмотров: 2219
Статья в формате PDF

Практические аспекты применения расстояния Дамерау – Левенштейна в задачах классификации текста

DOI: 10.15827/0236-235X.153.080-087

Дата подачи статьи: 27.05.2025

Дата после доработки: 11.06.2025

Дата принятия к публикации: 23.06.2025

УДК: 004.912

Группа специальностей ВАК: 2.3.8. Информатика и информационные процессы (технические науки)

Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 080-087 ]

Предложен новый метод классификации текстов без необходимости применения машинного обучения и наличия обучающей выборки (датасета). Он основан на метрике редактирования – расстоянии Дамерау – Левенштейна в комбинации с семантической близостью слов, со взвешиванием операций редактирования и с порядком важности слов. В данной работе такой подход позволяет оценить близость обрабатываемого текста к эталонному, который заранее предопределен в заданный класс (категорию). Приведены метрики оценки качества методов классификации текстов, такие как точность работы классификатора, средняя абсолютная и среднеквадратичная ошибки, время выполнения и семантическая согласованность. Предложенный метод апробирован на приме-ре сферы ЖКХ для обработки жалоб граждан. Приведена последовательность этапов его применения с включением необходимых операций и процедур обработки текста с их подробным рассмотрением на примерах. Разработана структурно-функциональная схема сбора жалоб граждан из различных источников с описанием объектов информационного взаимодействия. Результаты сравнения предложенного метода с базовым, не учитывающим семантическое сходство слов, показали повышение точности, уменьшение времени поиска сходства слов в сравниваемых строках и значительное снижение средней абсолютной и среднеквадратичной ошибок. Данный подход может найти применение в реальных системах обработки небольших текстов, где не требуется применять ресурсоемкие методы искусственного интеллекта, например, в системах контроля и мониторинга обращений граждан.
Татарникова Т.М. (tm-tatarn@yandex.ru) - Санкт-Петербургский государственный университет аэрокосмического приборостроения (доцент, профессор), Санкт-Петербург, Россия, доктор технических наук, Миляев Д.Р. (milyaev.dmitry00@mail.ru) - Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина), Санкт-Петербург, Россия, Аспирант
Ключевые слова: обработка текста, классификация текста, отсутствие датасета, метрика редактирования, семантическая согласованность, качество работы классификатора
Размер шрифта:
      Шрифт:
Ссылка скопирована!

Введение. Одной из важнейших задач в обработке естественного языка (Natural Language Processing, NLP) является классификация документов или текста. Она имеет множество приложений, например, обнаружение спама, распознавание запрещенного контента, реферирование, создание аннотаций [1–3]. Применение методов машинного обучения для решения подобных задач подразумевает наличие больших наборов данных для обучения и тестирования модели классификатора, которые являются редкостью для реальных задач. Их сбор – отдельная трудоемкая работа, требующая продолжительного времени накопления  и обработки.

Так, в работе [4] приведен обзор методов машинного обучения, где раскрываются некоторые барьеры в их применении при классификации текстов: наличие размеченной коллекции текстов (датасета), зависимость точности классификации от наличия обучающей вы- борки подходящего размера, не прозрачный выбор параметров некоторых алгоритмов на этапе обучения, дисбаланс классов. Авторы статьи [5] приходят к выводу, что для каждого набора данных и конкретной задачи необходимо обучать несколько моделей классификаторов для возможности выбора той модели,  которая дает лучший результат по метрикам качества обучения. В работах [6–8] обозначается проблема ограниченности вычислительных ресурсов для обучения больших языковых моделей, в [9,10] обсуждается формирование датасета и его хранение в целом.

В настоящем исследовании предлагается другой подход к классификации текстов, без использования датасета, основанный на расстоянии Дамерау – Левенштейна (Damerau – Levenshtein, DL), на метрике редактирования.

Несмотря на то, что метрики редактирования позволяют оценить схожесть между строками и в задаче анализа текста используются при проверке орфографии или при нечетком поиске, авторы предлагают применять DL при решении задачи классификации текстов в комбинации с семантической близостью слов, со взвешиванием операций редактирования и с по- рядком важности слов.

Описание метода классификации текстов

Расстояние Левенштейна – это минимальное количество односимвольных операций вставки, удаления и замены, необходимых для преобразования одной строки текста в другую. Соответственно, чем меньше расстояние Левенштейна, тем более похожи слова. Расстояние Дамерау расширяет метрику Левенштейна добавлением операции перестановки соседних символов [11].

Метрика DL учитывает четыре типа операций: вставка слова XВ, удаление слова XУ, замена слова XЗ и транспозиция двух соседних слов XТ. Формально определение метрики DL запишем следующим образом: для двух строк A и B расстояние DL d(A, B) – это минимальное количество операций, необходимых для преобразования A в B, то есть

DL(A, B) = min (XВ + 1, XУ + 1, XЗ + СЗ, XТ + СТ),

где

где XВ, XУ, XЗ, XТ – количество операций вставки, удаления, замены и транспозиции соответственно; СЗ – количество символов заме- ны; СТ – количество символов транспозиции.

Очевидно, что с развитием больших языковых моделей эффективность решения задачи классификации только на основе расстояния DL будет неудовлетворительной по точности решения, поскольку, во-первых, не учитывается семантика: слова «гвоздь» и «болт» будут далеки по расстоянию, хотя по смыслу являются близкими и, во-вторых, присутствует зависимость от порядка слов, например: «буду работать программистом» и «программистом работать буду» рассчитываются как далекие, но смысл сообщения почти не изменился. Также очевидна чувствительность к длине строк: для очень длинных текстов вычисления будут замедляться.

Предлагаемый метод классификации текстов включает комбинацию метрики DL со следующими операциями.

1. Учет семантической близости слов: при сравнении строк определять синонимы, считая их разными словами, но при вычислении расстояния DL между ними придавать меньший вес за счет коэффициентов, либо одним и тем же словом, не увеличивая расстояние DL между словами.

Для качественной работы метода требуется дистрибутивный анализ: подготовка словарей синонимов, тематическое моделирование и под- бор весовых коэффициентов экспериментальным путем.

2. Взвешивание операций редактирования: при сравнении строк придавать различным операциям разные весовые коэффициенты. Подбор коэффициентов выполняется на экспериментальной основе.

3. Учет порядка важности слов: при сравнении строк придавать больший вес ключевым словам. Подбор коэффициентов выполняется на экспериментальной основе.

Оценка качества метода  классификации текстов

Для оценивания качества работы классификаторов текстов, обучаемых на размеченных датасетах, следует учитывать особенности, свя- занные с семантическими характеристиками обрабатываемых текстов.

Выделим наиболее важные метрики оценки классификаторов текстов [11].

Точность – оценивает во всем множестве документов долю релевантных, вычисляется путем сравнения результатов работы метода классификации с эталонными данными на специально подготовленном тестовом наборе пар строк. Последовательность ее вычисления следующая: создается набор тестовых пар строк  с известными ожидаемыми расстояниями DL, для каждой пары вычисляется расстояние DL, подсчитывается процент совпадений с эталонными значениями.

Оценка точности имеет два ограничения: сильная зависимость от количества возвращаемых документов (топ-N), что критично, поскольку большинство пользователей изучают только первую страницу выдачи; отсутствие учета всех релевантных документов, которые система могла пропустить. Это означает, что метод классификации текстов может демонстрировать высокую точность на небольшом числе результатов, но при этом иметь низкий охват и терять важную информацию.

Средняя абсолютная ошибка (Mean Absolute Error, MAE) – измеряет среднюю величину аб- солютных отклонений предсказанных значений от фактических (эталонных):

 

где n – количество тестовых пар строк; yi – ожидаемое расстояние для i-й пары; xi – расстояние, вычисленное алгоритмом для i-й пары.

Для вычисления MAE необходимы пары строк с известными эталонными расстояниями (могут быть получены путем генерации пар строк с заранее известными расстояниями).

Значения MAE интерпретируются следующим образом:

·       MAE = 0 – классификация текстов точно на 100 %;

·       MAE = 0.5 – в среднем ошибка на 0.5 шага на пару строк;

·       MAE = 1.0 – в среднем ошибка на 1 шаг на пару строк;

·       MAE > 1.0 – значительные систематические ошибки.

MAE штрафует ошибки линейно, что полезно, если выбросы являются ошибками измерений, которые не стоит переоценивать.

Среднеквадратичная ошибка (Root Mean Square Error, RMSE) – в контексте полнотекстового поиска измеряет средний квадрат разности между предсказанным и истинным значениями релевантности:

 

RMSE сильнее штрафует большие ошибки  в предсказании релевантности, чем MAE, что полезно, когда важно избегать грубых ошибок  в ранжировании, то есть, когда классификатор текстов сильно переоценивает или недооценивает релевантность документов. Метрика является универсальной, подходит для оценки разных методов классификации текстов и может работать с различными шкалами релевантности.

Время выполнения, t – среднее время, затрачиваемое на обработку одной пары строк. Для его получения многократно выполняется алгоритм на фиксированном наборе данных с последующим усреднением результатов.

Семантическая согласованность (Semantic Consistency, SC) – оценивает, насколько резуль- таты поиска соответствуют запросу не только по ключевым словам, но и по смысловому содержанию, контексту и намерению пользователя. Меньшие расстояния S присваиваются парам строк, которые близки по смыслу, даже если сильно различаются синтаксически. Ин- терпретировать результаты SC позволяет график с осями S и DL: если точки располагаются точно по диагонали, то это идеальная SC, наличие положительной корреляции – хорошая SC, случайное облако точек – плохая SC. Коэффициент SC можно оценить через косинусное сходство между ожидаемым и полученным результатами запроса.

За счет смыслового анализа, а не механического сопоставления слов, SC позволяет значительно эффективнее обрабатывать сложные  и многословные запросы и обеспечивает более точное соответствие пользовательским ожиданиям.

Апробация метода классификации текстов

Сфера ЖКХ послужила примером для апробации метода на процедуре обработки жалоб граждан. Одна из проблем – формирование заявок для дальнейшей обработки уполномоченными органами. В общем виде процесс обработки жалобы в текстовом формате и принятие решение о ее классификации по категориям включает следующие этапы.

Этап 1: сбор неструктурированных сообщений из различных источников, например, из чатов соцсетей. Для дальнейшей оптимизации нужно использовать ограничение на минималь- ное количество слов.

Этап 2: фильтрация данных для корректности дальнейшей обработки и минимизации вычислительной сложности, что по сути есть  бинарная классификация, где 0 – обращение  не содержит жалобу, 1 – обращение является жалобой.

Этап 3: предобработка текста жалобы, включающая в себя удаление стоп-слов, приведение слов в сообщении к единой форме (единственное число, нижний регистр, начальная форма).

Этап 4: классификация текста жалобы – ран- жирование по категориям, соответствующим функциям местного органа исполнительной власти (муниципалитета).

Этап 5: обработка жалобы по процессу, определяемому муниципалитетом.

Этап 6: предоставление ответа гражданам или публикация ответа на государственном ресурсе.

Категории, они же классы, в основном соответствуют категориям ГИС ЖКХ и рейтингу основных проблем в сфере ЖКХ на основе об- ращений граждан за 2022-й год по версии Национальной программы «ЖКХ Контроль»: водоснабжение и канализация, электрообеспечение, отопление, благоустройство парковых зон, уборка территории, обслуживание дорог.

На рисунке 1 приведена структурно-функциональная схема сбора жалоб из различных источников и введены следующие обозначения:

Extract service (сервис извлечения) – часть ETL-процесса, отвечающего за сбор (извлечение) необработанных данных из различных  источников и их подготовку для дальнейшей обработки, очистки и загрузки в централизованное хранилище: 1 – извлечение сообщений из социальной сети ВКонтакте (VK); 2 – извлечение сообщений из мессенджера Telegram;  3 – очистка массива сообщений в соответствии  с алгоритмом фильтрации; 4 – передача отфиль- трованного массива сообщений на Coordinator service (координатор услуг), отвечающий за связывание, управление и синхронизацию различных процессов, людей или технологий для достижения общей цели; 5 – запись в БД обработанной жалобы, классификация сообщения (отнесение сообщения к определенной категории жалоб); Forming service (формирующая услуга) – процесс создания, оформления и подготовки данных до их финальной отправки или обработки: 6 – формирование структуры обращения; 7 – формирование обращения в уполномоченные органы; Complaint handling tracking system – система отслеживания обработки жа- лоб: 8 – обработка обращения ответственными органами; Report service (служба отчетности) – серверная платформа для создания, доставки отчетов и управления ими: 9 – мониторинг обработки обращений; 10 – запрос адресов обратной связи для последующей отправки ответа гражданам; Руководство – лицо, принимающее решение по жалобе: 11 – получение руководством статистической информации по обращениям; Report service (сервис процессинга) – техно- логическая система, обеспечивающая автоматическую обработку, проверку и подтверждение обращений: 12 – отправка ответа гражданам по жалобам.

Этап фильтрации данных подразумевает сравнение текста обращения с текстом эталонной жалобы. Каждый i-й текст преобразуется  в вектор Тi методом TF-IDF – каждому слову присваивается вес, показывающий его важность:

где TF(w, t) – частота слова w в документе t;  N – общее количество текстов (обращений или эталонных жалоб); TN – количество документов, содержащих слово w.

Для получения эталонного вектора жалобы необходимо усреднить все векторы известных жалоб:

 

Для j-го текста обращения сообщения вычислим косинусное сходство с эталоном:

 

где q − угол между векторами.

Установим порог косинусного сходства, например 0,7, тогда правило бинарной классификации текста обращения будет следующим:

 

Дополнительно можно составить список триггерных слов, например, «жалоба», «претензия», «недоволен», «верните деньги», «ужасный сервис» и если в тексте обращения есть хотя бы одно, то повышать вес важности слова в векторе Тi.

Этап предобработки включает последовательность следующих процедур: токенизация – разбиение текста на слова; лемматизация – приведение слов к начальной форме («ужасен» → «ужасный»), к одному регистру; удаление стоп-слов (союзов, предлогов, местоимений); очистка от спецсимволов (эмодзи, знаков препинания). Например, жалоба «За прошедшую зиму на улице Становая потрескалась вся плитка» после фильтрации получит следующий вектор слов [«прошедший», «зима», « улица», «становой», «трескаться», «плитка»].

На этапе классификации жалоб определяется DL между эталонными жалобами каждой категории и поступившими.

Жалоба «В доме на улице Юбилейной из крана течет грязная вода»:

[«тротуар», «плохо», «уложить»] = 10

[«дорога», «много», «яма»] = 10

[«зима», «трескаться», «плитка»] = 10

[«асфальт», «уложить», «неровно»] = 10

[«парк», «вывозить», «мусор»] = 10

[«парк», «мало», «зелень»] = 10

[«дорожка», «парк», «грязный»] = 6

[«парк», «завять», «дерево»] = 10

[«грязный», «вода», «кран»] = 4

[«канализационный», «люк», «закры- вать»] = 10

[«давно», «менять», «трубы»] = 10

[«канализация», «ремонтировать»] = 9

Суммируем результаты DL по категориям:

«Проблемы с дорожным покрытием» =  = 10 + 10 + 10 + 10 = 40; «Проблемы с благоустройством парков» = 10 + 10 + 10 + 6 = 36; «Проблемы с водоснабжением и канализацией» = 4 + 10 + 10 + 9 = 33. Вывод: жалоба  «В доме на улице Юбилейной из крана течет грязная вода» относится к категории «Проблемы с водоснабжением и канализацией».

Рассмотрим важные аспекты составления эталонных выборок для категорий.

Для обеспечения точности работы метода следует определить базовую длину строки и задать эталонные строки с разницей в одно слово от нее. Если базовая длина равна трем словам, как в приведенном примере, то длина эталонной может быть от 2 до 4 слов, что обосновано спецификой вычисления DL. Если в одной из категорий строки будут существенно короче, чем в остальных, вероятность ошибки резко возрастает.

Немаловажно и количество эталонных строк в категориях: с одной стороны, необходимо поддерживать равное количество эталонных примеров в каждой категории, с другой – экспериментально определить предельное число строк в категориях.

Анализ результатов

Предложенный метод оценивался по метрикам точности, времени выполнения, MAE, RMSE, SC. Для чистоты эксперимента аналогичные оценки качества классификации текста получены и для базового метода, не учитывающего семантическую близость слов в сравниваемых строках текста.

Эксперимент проводился для всех категорий жалоб. В каждом эксперименте длина строки L в словах варьировалась следующем образом: L Î [5–9], L Î [10–20], L Î [20–30].

На рисунке 2 приведена гистограмма оценки точности базового и предложенного методов классификаторов текстов.

Оценка точности для базового классификатора текстов неудовлетворительная. Несмотря на то, что с увеличением количества ключевых слов в эталонной жалобе точность выросла  с 0,28 для L Î [5–9] до 0,68 для L Î [20–30], дальнейшее пополнение эталонной жалобыключевыми словами не приводит к улучшению качества классификатора базовым методом. Это вполне ожидаемый результат, так как метод необучаем, к тому же трудно выявить новые ключевые слова для описания проблемы, поскольку в подобного рода обращениях граждан подразумеваются ограниченные по объему сообщения. Предложенный метод демонстрирует точность выше 0,9 уже при L Î [5–9] и достигает 0,97 при L Î [20–30], что для обработки текстов является высоким результатом.

В таблице приведены сравнительные оценки базового и предложенного методов классификации текстов по остальным метрикам.

Анализ результатов оценки качества позволяет сделать вывод о преимуществе предложенного метода и его применения на практике в реальных системах обработки небольших текстов, где не требуется применять ресурсоемкие методы ИИ.

Заключение

В работе рассмотрены теоретические основы расстояния DL и предложен новый метод классификации небольших текстов, основанный на расстоянии DL в комбинации с семантической близостью слов, со взвешиванием операций редактирования и с порядком важности слов.

Эксперимент, проведенный для разных длин векторов, показал преимущество предложенного метода перед базовым. Он демонстрирует точность классификации текстов выше 0,9 и с увеличением длины вектора сравниваемых строк текстов достигает 0,97. Оценка точности базового классификатора текстов на тех же примерах выросла с 0,28 до 0,68, поскольку он не обучаем, то повысить значение не представляется возможным.

Учет семантической близости не только снижает ошибку классификации, но и время выполнения (получения) результата. Однако применение предложенного метода требует дополнительной работы по дистрибутивному анализу: подготовки словарей, представления векторных пространств, тематического моделирования.

Предложенный метод классификации текстов можно масштабировать на различные системы сферы контроля и мониторинга обращений граждан.

 

Список литературы

1. Дудихин В.В., Кондрашов П.Е. Методология использования больших языковых моделей для решения задач государственного и муниципального управления по интеллектуальному реферированию и автоматическому формированию текстового контента // Государственное управление. Электронный вестн. 2024. № 105. С. 169–179.  doi: 10.55959/MSU2070-1381-105-2024-169-179.

2. Houlsby N., Giurgiu A., Jastrzebski S., Morrone B. et al. Parameter-efficient transfer learning for NLP. Proc. 36th Int. Conf. on Machine Learning, 2019, vol. 97, pp. 2790–2799.

3. Советов Б.Я., Татарникова Т.М., Яшин А.И. Использование технологии TextMining для выявления скрытых угроз в сообщениях, распространяемых по социальным сетям // Изв. СПбГЭТУ ЛЭТИ. 2019. № 4. С. 26–32.

4. Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017.  Т. 30. № 1. C. 85–99. doi: 10.15827/0236-235X.117.085-099.

5. Белов С.Д., Зрелова Д.П., Зрелов П.В., Кореньков В.В. Обзор методов автоматической обработки текстов на естественном языке // Системный анализ в науке и образовании. 2020. № 3. C. 8–22. doi: 10.37005/2071-9612-2020-3-8-22.

6. Татарникова Т.М., Мокрецов Н.С. Метод дистилляции знаний для языковых моделей на основе выборочного вмешательства в обучение // Программные продукты и системы. 2025. Т. 38. № 2. С. 361–365.  doi: 10.15827/0236-235X.150.361-365.

7. Максютин П.А., Шульженко С.Н. Обзор методов классификации текстов с помощью машинного обучения // Инженерный вестн. Дона. 2022. № 12. URL: http://ivdon.ru/ru/magazine/archive/n12y2022/8043 (дата обращения: 10.06.2025).

8. Khurana A., Subramonyam H., Chilana P.K. Why and when LLMbased assistants can go wrong: investigating  the effectiveness of prompt-based interactions for software help-seeking. Proc. 29th Int. Conf. IUI, 2024, pp. 288–303.  doi: 10.1145/3640543.3645200.

9. Тарасов Д.В.Романов Н.А. Процедура машинного обучения в задаче морфологической разметки текста  и определения частей речи в флективных языках // Изв. вузов. Поволжский регион. 2017. № 1. С. 56–72.  doi: 10.21685/2072-3059-2017-1-5.

10. Кузнецов А.В. Цифровая история и искусственный интеллект: перспективы и риски применения больших языковых моделей // Новые информационные технологии в образовании и науке. 2022. № 5. С. 53–57.

11. Хобсон Л., Ханнес Х., Коул Х. Обработка естественного языка в действии; [пер. с англ.]. СПб: Питер, 2020. 576 с.

 References

1. Dudikhin, V.V., Kondrashov, P.E. (2024) ‘Methodology of using large language models to solve tasks of state and municipal government for intelligent abstracting and automatic generation of text content’, Public Administration. E-j., (105), pp. 169–179 (in Russ.). doi: 10.55959/MSU2070-1381-105-2024-169-179.

2. Houlsby, N., Giurgiu, A., Jastrzebski, S., Morrone, B. et al. (2019) ‘Parameter-efficient transfer learning for NLP’, Proc. 36th Int. Conf. on Machine Learning, 97, pp. 2790–2799.

3. Sovetov, B.Ya., Tatarnikova, T.M., Yashin, A.I. (2019) ‘Use of technology textmining for identifying hidden threats in communications distributed by social networks’, Izv. SPbETU LETI, (4), pp. 26–32 (in Russ.).

4. Batura, T.V. (2017) ‘Automatic text classification methods’, Software & Systems, 30(1), pp. 85–99 (in Russ.). doi: 10.15827/0236-235X.117.085-099.

5. Belov, S.D., Zrelova, D.P., Zrelov, P.V., Korenkov, V.V. (2020) ‘Overview of methods for automatic natural lan-guage text processing’, System Analysis in Sci. and Education, (3), pp. 8–22 (in Russ.). doi: 10.37005/2071-9612-2020-3-8-22.

6. Tatarnikova, T.M., Mokretsov, N.S. (2025) ‘Knowledge distillation method for language models based on selective intervention in a learning process’, Software & Systems, 38(2), pp. 361–365 (in Russ.). doi: 10.15827/0236-235X.150.361-365.

7. Maksyutin, P.A., Shuljenko, S.N. (2022) ‘An overview of text classification methods using machine learning’, Engineering J. of Don, (12), available at: http://ivdon.ru/ru/magazine/archive/n12y2022/8043 (accessed June 10, 2025) (in Russ.).

8. Khurana, A., Subramonyam, H., Chilana, P.K. (2024) ‘Why and when LLMbased assistants can go wrong: Inves-tigating the effectiveness of prompt-based interactions for software help-seeking’, Proc. 29th Int. Conf. IUI, pp. 288–303. doi: 10.1145/3640543.3645200.

9. Tarasov, D.V., Romanov, N.A. (2017) ‘Machine learning for the objective of morphological tagging and pos determination in inflexional languages’, University Proc. Volga Region. Tech. Sci., (1), pp. 56–72 (in Russ). doi: 10.21685/2072-3059-2017-1-5.

10. Kuznetsov, A.V. (2022) ‘Digital history and artificial intelligence: perspectives and risksof pretrained language models’, Novyye Informatsionnyye Tekhnologii v Obrazovanii i Nauke, (5), pp. 53–57 (in Russ.).

11. Lane, H., Hapke, H., Howard, C. (2019) Natural Language Processing in Action. Manning Publ. Co., 544 p. (Russ. ed.: (2020) St. Petersburg, 576 p.).


Постоянный адрес статьи:
http://www.swsys.ru/index.php?page=article&id=5227&lang=
Версия для печати
Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 080-087 ]

Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 080-087 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Возможно, Вас заинтересуют следующие статьи схожих тематик: