Авторитетность издания
Добавить в закладки
Следующий номер на сайте
Классификация отчетов GitHub с использованием резервуарной нейронной сети LogNNet
Аннотация:В решении задач классификации широко используются нейронные сети. Их обучение и применение требуют значительных вычислительных ресурсов. Проблема дефицита ресурсов особенно актуальна для встраиваемых и носимых устройств, для периферийных вычислений в Интернете вещей. Не менее значима для периферийных вычислений и обработка естественного языка, в частности классификация текстов. В статье анализируется эффективность нейронной сети LogNNet на примере классификации отчетов в системе отслеживания задач GitHub Issues. Нейронные сети LogNNet основаны на технологии резервуарных вычислений и используют свойство автогенерации весовых коэффициентов матрицы резервуара. В работе выполнена классификация отчетов на три класса: отчет об ошибке, запрос на улучшение, вопрос по использованию ПО. Эксперименты проведены с использованием БД, содержащей 100 тысяч примеров, не сбалансированных по классам. Определена минимальная размерность вектора признаков, обеспечивающая приемлемое качество классификации. Результаты сравниваются по метрикам точности, полноты, f1-меры, точности по всем классам с шестью стандартными методами машинного обучения: методом опорных векторов, наивным байесовским классификатором, методом ближайших соседей, деревом решений, случайным лесом и логистической регрессией. Также выполнен расчет экономии оперативной памяти, используемой для хранения данных LogNNet. Исследование показало, что модель LogNNet 100:50:20:3 позволяет сократить объем используемой оперативной памяти в 5 раз. При этом точность классификации остается на уровне 92 % от максимальных значений стандартных методов. Использование LogNNet для решения аналогичных задач может быть оправданным только на устройствах с небольшим объемом доступной оперативной памяти, таких как микроконтроллеры и мини-компьютеры.
Abstract:Neural networks effectively handle classification tasks. However, their training and application require significant computing resources. Resource constraints particularly challenge embedded and wearable devices, as well as IoT edge computing systems. Natural language processing, especially text classification, is equally critical for edge computing. The paper analyzes the effectiveness of the LogNNet neural network using the example of classifying reports in the GitHub Issues task tracking system. LogNNet uses reservoir computing with auto-generated weights. The paper classifies reports into three categories: bug reports, improving issues, and software usage questions. The experiments involved using a 100,000-example database with imbalanced class distribution. The analysis established the minimum required feature dimensionality for adequate classification quality. Authors compared the results using accuracy, recall, f1-score, and perclass precision metrics against six standard machine learning methods: support vector machines, naive Bayes classifiers, k-nearest neighbors, decision trees, random forests, and logistic regression. The paper measures the RAM conservation enabled by LogNNet's compact memory representation. It occurred that LogNNet 100:50:20:3 reduces the amount of RAM used by 5 times. Meanwhile, the classification accuracy maintains 92% of the maximum values achieved by standard methods. LogNNet proves justified only for resource-constrained devices like microcontrollers and minicomputers when solving similar tasks.
| Авторы: Ковин А.М. (akovin@list.ru) - Институт прикладных математических исследований, КарНЦ РАН (старший инженер-исследователь), Петрозаводск, Россия, Ивашко Е.Е. (ivashko@krc.karelia.ru) - Институт прикладных математических исследований, КарНЦ РАН (старший научный сотрудник), Петрозаводск, Россия, Изотов Ю.А. (izotov93@yandex.ru) - Физико-технический институт, Петрозаводский государственный университет (научный сотрудник), Петрозаводск, Россия, Величко А.А. (velichkogf@gmail.com) - Физико-технический институт, Петрозаводский государственный университет (к.ф.-м.н., доцент), Петрозаводск, Россия | |
| Ключевые слова: lognnet, резервуарные вычисления, машинное обучение, классификация отчетов об ошибках, github |
|
| Keywords: LogNNet, reservoir computing, machine learning, issue report classification, GitHub |
|
| Благодарности: Работа выполнена при поддержке гранта Российского научного фонда №22-11-00055, https://rscf.ru/project/22-11-00055/ | |
| Количество просмотров: 1238 |
Статья в формате PDF |
Классификация отчетов GitHub с использованием резервуарной нейронной сети LogNNet
DOI: 10.15827/0236-235X.151.475-483
Дата подачи статьи: 23.04.2024
Дата после доработки: 11.06.2025
Дата принятия к публикации: 16.06.2025
УДК: 004.032.26
Группа специальностей ВАК: 1.2.2. Математическое моделирование, численные методы и комплексы программ (физико-математические науки, технические науки)
Статья опубликована в выпуске журнала № 3 за 2025 год. [ на стр. 475-483 ]
Введение. Такие технологии ИИ, как ней- ронные сети и методы машинного обучения, приобрели огромную популярность в последние несколько лет. С их помощью решается широкий спектр задач: распознавание изображений, обработка естественного языка, предсказание погоды и другие. Для обучения и использования нейронных сетей требуются значительные вычислительные ресурсы. Существенно экономить оперативную память и, как следствие, вычислительные ресурсы, требуемые для обработки задач машинного обучения, позволяют нейронные сети LogNNet, построенные на технологии резервуарных вычислений с автогенерацией весовых коэффициентов [1, 2]. Поэтому поиск новых приложений технологии LogNNet и ее развитие являются перспективными направле- ниями исследования в области методов машинного обучения. Для периферийных вычислений также актуальны задачи в области обработки естественного языка с использованием малоресурсных аппаратных платформ. Среди них можно определить задачи, связанные с обеспечением безопасности, распознаванием голосовых запросов, с классификацией данных социальных сетей и прочим. В представленной статье анализируется эффективность использования нейронной сети LogNNet на примере классификации отчетов в системе отслеживания задач GitHub Issues. В большинстве подходов к решению поставленной задачи применяются более сложные модели естественного языка, такие как BERT, FastText, CatIss и другие. В данном исследова- нии использовано шесть стандартных методов машинного обучения и метод LogNNet. Применен одномодальный подход к решению поставленной задачи. Эти особенности позволяют снизить потребление вычислительных ресурсов. Результаты классификации сравниваются по метрикам точности, полноты, f1-меры, точности по всем классам; представлен расчет экономии оперативной памяти при использовании LogNNet. Классификация отчетов GitHub Современное ПО разрабатывается и поддерживается с использованием систем отслеживания задач. Зачастую пользователи принимают участие в разработке и тестировании, особенно в случае открытого, свободно распространяемого ПО. Ежегодно пользователи и разработчики проектов создают несколько миллионов отчетов об ошибках (класс bug), с описаниями желаемых изменений (класс enhancement) или вопросами по работе с ПО (класс question) на GitHub. При этом только 18 % из них промаркированы соответствующими метками.
Приведенный отчет принадлежит классу bug, так как на нем расположена соответствующая метка. Объединение заголовка и текста описания дает входные данные для обработки с помощью LogNNet и других методов. Использование меток помогает организовать работу разработчиков и расставить приоритеты в проектах. Менеджеры по продуктам пользуются ими для визуализации особенностей задач, их краткого описания или классификации. Метки можно применять также для фильтрации отчетов по необходимому признаку. В одном репозитории зарегистрированы сотни и тысячи задач, поэтому определение типа выполняется вручную и представляет собой трудоемкий процесс. Автоматическая клас- сификация отчетов является актуальной задачей, направленной на снижение трудоемкости разработки и обслуживания ПО. Применяемые подходы В работе [3] авторы использовали базовые методы машинного обучения: метод опорных векторов, наивный баейсовский метод, логистическую регрессию и метод случайного леса. В исследованиях [4–6] для решения той же задачи были применены методы глубокого обучения. В [7] предложено использовать для классификации текст, полученный через конкатенацию заголовка и описания задачи. В работе [8] авторы применили технологию FastText и создали приложение Ticket Tagger, которое позволяет разработчикам автоматичес- ки проставлять типы отчетов. В рамках исследования решалась задача классификации отчетов на три типа: отчеты об ошибках, запросы на улучшение и вопросы по использованию ПО. В [6] использована пользовательская документация в качестве дополнительной текстовой информации. Этот подход позволил улучшить показатель f1-меры на 10–24 % по сравнению с исследованием, где применялся Ticket Tagger. В работе [9] была использована языковая модель BERT, разработанная компанией Google в 2018 году. Авторы применили технологию тонкой настройки модели к задаче классификации отчетов GitHub. Полученная метрика точности (accuracy) для трех классов на несбалансированном наборе составила ~0.85. Модель CatIss, представленная в исследовании [10], показала точность классификации 0.87. Этот результат стал максимальным среди всех подходов, применяемых для классификации отчетов GitHub на три типа [11]. При этом модель CatIss также основана на языковой модели BERT. В исследовании [12] рассматривалась эффективность использования различных типов данных для классификации. Для экспериментов были определены три источника данных: текстовое содержимое отчета, прикрепленные изображения снимков экрана и вставленные в отчет фрагменты программного кода. Наибольшую точность классификации показал подход с использованием всех трех типов данных, он превзошел все остальные на 5.07–14.12 % по показателю f1-меры. Таким образом, использование различных типов данных из отчета в сочетании с современ- ными языковыми моделями и технологиями глубокого обучения повышает качество решения задачи классификации отчетов GitHub. Можно отметить, что максимальное значение метрики accuracy, полученное в данном исследовании для метода логистической регрессии, равное 0.76, меньше, чем у модели CatIss – 0.87 [10], которая продемонстрировала максимальную точность решения данной задачи [11]. В представленном исследовании сделан акцент на сравнении LogNNet со стандартными методами. Также был выполнен расчет экономии оперативной памяти, используемой для хранения данных. Автоматическая классификация отчетов Для решения задачи автоматической классификации отчетов был взят общедоступный набор данных исследования [9], состоящий из ~803 тысяч строк англоязычных описаний задач в системе GitHub Issues. Из них были выбраны случайным образом 100 тысяч строк для представленного исследования. Затем для каждой строки поля issue_title и issue_descrip- tion были объединены в одно поле text. Поле issue_label изменено в соответствии с его текстовым содержимым, значение «bug» заменено на числовое значение 0, значение «enhancement» – на 1, значение «question» – на 2. Общий набор данных, состоящий из 100 тысяч строк, был разделен с помощью функции train_test_split из библиотеки Scikit Learn (https://scikit-learn.org/) на два набора: 80 тысяч строк для обучения и 20 тысяч строк для тестирования. Далее на наборе для обучения была выполнена предварительная обработка данных и сформирован словарь слов-признаков. Предобработка также выполнена на наборе для тестирования, но на основе слов-признаков, подобранных на наборе для обучения. Нейронная сеть LogNNet на основе технологии резервуарных вычислений Резервуарные вычисления реализуются искусственными нейронными сетями определенного типа (LogNNet), в которых входной вектор признаков подается в резервуар на фиксированную (необучаемую) систему, обладающую сложной динамикой. В результате его работы формируется вектор повышенной или пониженной размерности, который затем подается на вход обучаемого классификатора. Резервуар выделяет наиболее важные особенности входного вектора. Такой подход позволяет снизить затраты на обучение классификатора и повысить уровень классификации. Технология резервуарных вычислений превосходит рекуррентные нейронные сети в решении некоторых классов задач, при этом экономит вычислительные ресурсы. Благодаря своим свойствам эта технология активно применяется для решения практических задач на малоресурсных аппаратных платформах. Нейронные сети LogNNet, основанные на технологии резервуарных вычислений с автогенерацией весовых коэффициентов, позволяют экономить оперативную память и вычислительные ресурсы [1, 2]. Они продемонстрировали высокую точность в таких практических задачах, как диагностика и прогнозирование течения COVID-19 (по показателям общего анализа крови), оценка энтро-пии спутниковых и геофизических снимков, выявление дисфункции правого желудочка (по медицинским данным) и др.
Опишем более подробно процесс оптимизации гиперпараметров резервуара. Подбор гиперпараметров LogNNet осуществлялся на тренировочной БД при помощи метода роя частиц [13]. Он представляет собой алгоритм численной оптимизации, основанный на моделировании коллективного поведения совокупности агентов (частиц), каждый из которых ассоциируется с потенциальным решением в пространстве параметров. В процессе работы алгоритма частицы перемещаются в направлении наиболее перспективных областей пространства решений, обмениваясь информацией о локальных и глобальных экстремумах. Модель имела постоянную архитектуру LogNNet 100:50:20:3 c двумя скрытыми слоями нейронов и тремя нейронами на выходе, ответственных за номер выходного класса. Всего в модели было 9 оптимизируемых гиперпараметров, ответственных за заполнение матрицы резервуара: x1 = C1 xn+1 = (D1 – K1 × xn) mod L1 N = [V × 100] (1) z1 = C2 zn+1 = (D2 – K2 × zn) mod L2 и один гиперпараметр Ep – число эпох обучения. Гиперпараметры C1, D1, K1, L1 соответ- ствовали коэффициентам линейного конгруэнтного генератора, с помощью которого построчно производилось начальное заполнение резервуара элементами xn. Гиперпараметры C2, D2, K2, L2 и V отвечали за оптимизацию вектора признаков, заключающуюся в отборе номеров существенных призна- ков, которые выделяются из входного вектора и учитываются при дальнейших расчетах. Признаки, которые не учитываются в расчете, отсеиваются за счет зануления коэффициентов матрицы резервуара. В частности, зануляются все коэффициенты в колонке, чей номер совпадает с номером удаляемого признака. Число существенных признаков N определяется гиперпараметром V по формуле (1), где N – число от 0 до 1, при этом задаются дополнительные условия: N не может быть меньше 1 и больше максимального числа признаков, в данном случае Nmax = 100. Гиперпараметры C2, D2, K2, L2 ответственны за отбор номеров существенных признаков по специальному алгоритму. Они определяют последовательность хаотического конгруэнтного генератора zn (1), значения которого переводятся в номера существенных признаков. Таким образом, пять гиперпараметров определяют набор существенных признаков из общего входного вектора. Их оптимизация позволяет выявить наилучшие признаки, а также задать определенное число N признаков, оставляемых в модели, за счет установки гиперпа- раметра V. В работе оптимизированы гипер- параметры для числа существенных признаков N = 500, 300, 100, 50, 25. Методом роя частиц можно подбирать любое число гиперпараметров, предварительно задав фитнес-функцию и пределы варьирования гиперпарметров. В качестве фитнес-функции использовано значение точности классификации LogNNet при обучении и тестировании на тренировочной БД. Были заданы следующие значения параметров метода роя частиц: количество частиц – 25, итераций – 30, коэффициент инерции – 0.5, скорость обучения когнитивная – 2, социальная – 2. Предварительная обработка данных Для предварительной обработки использовались тексты, которые были получены путем конкатенации заголовка и описания задачи. Предобработка была поделена на несколько этапов. Первый этап. Уменьшена зашумленность данных: убраны слова-признаки, которые не несут в себе полезной для определения класса задачи информации: состоящие из цифр и менее чем из трех букв, являющиеся стоп-словами из списка стоп-слов (https://nlp.stanford.edu/IR-book/ html/htmledition/dropping-common-terms-stop-words-1.html), с частотой менее 1 %. Вместо примеров кода, вставленных в исход- ный текст задачи, и других характерных постоянных конструкций были вставлены строки, обозначающие эти конструкции (например, вместо примеров кода в отчетах строка code_ block_token). Была выполнена лемматизация с помощью программного класса WordNet- Lemmatizer из библиотеки nltk (https://www. nltk.org/index.html) с определением части речи слов-признаков с помощью функции pos_tag, из библиотеки nltk. Второй этап. Подобраны на основе текстов набора данных для обучения слова-признаки, которые больше всего влияют на качество классификации. Размерность вектора признаков при этом принимала значения 500, 300, 100, 50, 25. Отбор признаков для LogNNet был выполнен с помощью самой нейронной сети. Подбор признаков для других методов выполнен с помощью класса SelectK-Best библиотеки Scikit Learn. Третий этап. Использовался класс Count- Vectorizer из подмодуля sklearn.feature_extrac- tion.text библиотеки Scikit Learn, применяющий технику «мешок слов» для работы с текста- ми [14]. На вход подавался словарь признаков, подобранных на втором этапе предобработки, в результате чего была создана разреженная матрица признаков на основе всех текстов БД, где весом выступало число слов-признаков в отдельном тексте. Четвертый этап. Преобразована полученная матрица с помощью класса tfidfTransformer библиотеки Scikit Learn в соответствии с ал- горитмом tf-idf (https://www.geeksforgeeks.org/ understanding-tf-idf-term-frequency-inverse-document-frequency): вес каждого признака был взят пропорционально частоте употребления этого слова в тексте и обратно пропорцио- нально частоте его употребления во всех текстах БД. Такой алгоритм позволяет оценить важность слова-признака в контексте документа, являющегося частью коллекции документов. Таким образом, были решены следующие задачи: выполнена предварительная обработка данных на наборе для обучения (80 тысяч текстов) и на наборе для тестирования (20 тысяч текстов): уменьшена зашумленность текстов, подобран словарь слов-признаков, на основе которого выполнена токенизация текстов, тексты преобразованы в числовые векторы. Полученные матрицы использовались для классификации в сжатом виде, где каждая стро- ка описывается тремя параметрами – i, j и k (https://courses.physics.illinois.edu/cs357/sp2020/ notes/ref-11-sparse.html), где параметр i – это номер обрабатываемого текста, j – индекс признака, k – вес данного признака в соответствии с алгоритмом tf-idf. Подбор гиперпараметров Для стандартных методов гиперпараметры подбирались с помощью классов GridSearchCV и RandomizedSearchCV библиотеки Scikit Learn. Также были применены гиперпараметры по умолчанию для каждого из методов библиотеки Scikit Learn. Гиперпараметры, показавшие лучшие результаты качества классификации, использовались для обучения и тестирования стандартных методов. Классификация Классификация отчетов выполнена стандартными методами машинного обучения, реализованными в библиотеке Scikit Learn с использованием классов SGDClassifier (для SVM), MultinomialNB, KneighborsClassifier, DecisionTreeClassifier, RandomForestClassifier, Logistic Regression, а также с помощью LogNNet. Полученные в ходе тестирования результаты сравнивались по метрикам: • точность (precision) – доля объектов, классифицированных верно среди всех объектов, которые к этому классу отнес классификатор; • полнота (recall) – отношение верно классифицированных объектов класса к общему числу примеров этого класса; • f1-мера (f1-measure) – среднее гармоническое точности (precision) и полноты; • точность классификации (accuracy) – доля объектов, на которых метод показал правиль- ные ответы. Метрика применяется для оценки точности классификации по всем классам. В таблице представлены метрики классификации известных методов, взятые для 100 признаков. На рисунке 4 представлены результаты классификации методов для вектора признаков размерности 100. Подбор размерности вектора признаков Размерность вектора признаков, подходящая для решения задачи исследования, определяется как минимальная, при которой метрики классификации демонстрируют приемлемое качество классификации. То есть уменьшение значений метрик классификации при уменьше- нии размерности вектора признаков должно быть незначительным, это позволит решать задачу классификации.
Это означает, что подходящим значением раз- мерности вектора признаков является число 100. Дальнейшие расчеты экономии оперативной памяти выполнены для данной размерности вектора признаков. Распределение памяти Число ячеек памяти NMC (Number of Me- mory Cells), требуемых для хранения данных нейронной сети LogNNet N:P:H:M, можно рассчитать по формуле NMC = (N + 1) + (N + 1) × P + (P + 1) + + (P + 1) × H + (H + 1) + (H + 1) × M + M, (2) где N + 1 – размерность входного вектора; (N + + 1) × P – матрица резервуара; P + 1 – вектор нейронов первого скрытого слоя; (P + 1) × H – обучаемая матрица весов от первого до второго скрытого слоя; H + 1 – вектор нейронов второго скрытого слоя; (H + 1) × M – обучаемая матрица от второго скрытого слоя до выходных нейронов; M – выходной вектор нейронов. При хранении всех данных нейронной сети в оперативной памяти для модели 100:50:20:3 требуется 6 309 ячеек памяти или 24,7 Кб памяти, где размер одной ячейки равен 4 байтам для вещественного типа данных. Если использовать свойство автогенерации весов матрицы резервуара через конгруэнтный генератор, то можно не запоминать всю матрицу, а генерировать веса по мере их использования. Для этого зарезервируем объем оперативной памяти (N + 1) + + (P + 1) + 1 ячеек, где N + 1 – размер входного вектора; P + 1 – размер вектора первого скрытого слоя; 1 – ячейка памяти, используемая при последовательном расчете матрицы резервуара. Таким образом, все математические рас- четы внутри резервуара не будут превышать данного лимита памяти. Также в оперативной памяти необходимо выделить место под мат- рицы весовых коэффициентов от первого до второго скрытого слоя и от второго скрытого слоя до выходного вектора. В результате можно представить формулу NMC = (N + 1) + (P + 1) + 1 + (P + 1) × H + + (H + 1) + (H + 1) × M + M. (3) Таким образом, объем занимаемой памяти для модели 100:50:20:3 сокращается до 4,9 Кб, следовательно объем занимаемой памяти умень- шился в 5 раз при применении конгруэнтного генератора для автогенерации весов. Заключение Резервуарные вычисления – перспективное направление развития нейронных сетей при решении отдельных классов задач. В представленной статье исследовалась эффективность LogNNet – одной из реализаций архитектур нейронных сетей, построенных на технологии резервуарных вычислений, для классификации отчетов в распространенной системе отслеживания задач GitHub Issues. Сравнение проводилось с шестью стандартными методами машинного обучения: методом опорных векторов, наивным байесовским классификатором, методом ближайших соседей, деревом решений, случайным лесом и логистической регрессией. Результаты анализировались по качеству классификации и используемой оперативной памяти для LogNNet. Метод LogNNet показал результаты немногим хуже остальных методов, но при очень небольших затратах оперативной памяти. Поэто- му использование LogNNet для решения аналогичных задач может быть оправданным только на устройствах с небольшим объемом доступ- ной оперативной памяти, таких как микроконтроллеры и мини-компьютеры. Дальнейшее развитие темы данного исследования может быть направлено на сравнение скорости работы и использования оперативной памяти LogNNet и остальных методов при их реализации на языке Python. Также можно рассмотреть LogNNet как метод подбора признаков и сравнить результаты работы его и других стандартных методов. Список литературы 1. Velichko A. A method for medical data analysis using the LogNNet for clinical decision support systems and edge computing in healthcare. Sensors, 2021, vol. 21, no. 18, art. 6209. doi: 10.3390/s21186209. 2. Izotov Y.A., Velichko A.A., Ivshin A.A., Novitskiy R.E. Recognition of handwritten MNIST digits on low-memory 2 Kb RAM Arduino board using LogNNet reservoir neural network. IOP Conf. Ser. Mater. Sci. Eng., 2021, vol. 1155, art. 012056. doi: 10.1088/1757-899x/1155/1/012056. 3. Fan Q., Yu Y., Yin G. et al. Where is the road for issue reports classification based on text mining? Proc. Int. Symposium ESEM, 2017, pp. 121–130. doi: 10.1109/ESEM.2017.19. 4. Kim M., Kim Y., Lee E. Deep learning-based production and test bug report classification using source files. Proc. ICSE., 2022, pp. 343–344. doi: 10.1145/3510454.3528646. 5. Zhifang L., Kun W., Qi Z. et al. Classification of open source software bug report based on transfer learning. Expert Syst., 2024, vol. 41, no. 5, art. e13184. doi: 10.1111/exsy.13184. 6. Cho H., Lee S., Kang S. Classifying issue reports according to feature descriptions in a user manual based on a deep learning model. Information and Software Technology, 2022, vol. 142, art. 106743. doi: 10.1016/j.infsof.2021.106743. 7. Pandey N., Sanyal D.K., Hudait A. et al. Automated classification of software issue reports using machine learning techniques: an empirical study. Innovations in Systems and Software Engineering, 2017, vol. 13, pp. 279–297. doi: 10.1007/s11334-017-0294-1. 8. Kallis R., Di Sorbo A., Canfora G. et al. Ticket tagger: Machine learning driven issue classification. Proc. IEEE ICSME, 2019, pp. 406–409. doi: 10.1109/ICSME.2019.00070. 9. Siddiq M.L., Santos J.C.S. BERT-Based GitHub issue report classification. Proc. 1st Int. Workshop NLBSE, 2022, pp. 33–36. doi: 10.1145/3528588.3528660. 10. Izadi M. CatIss: An intelligent tool for categorizing issues reports using transformers. Proc. 1st Int. Workshop NLBSE, 2022, pp. 44–47. doi: 10.1145/3528588.3528662. 11. Kallis R., Chaparro O., Sorbo A. et al. NLBSE’22 tool competition. Proc. 1st Int. Workshop NLBSE, 2022, pp. 25–28. doi: 10.1145/3528588.3528664. 12. Kwak C., Jung P., Lee S. A multimodal deep learning model using text, image, and code data for improving issue classification tasks. Applied Sci., 2023, vol. 13, no. 16, art. 9456. doi: 10.3390/app13169456. 13. Казакова Е. Применение метода роя частиц в задачах оптимизации // Изв. КБНЦ РАН. 2022. № 5. С. 48–57. doi: 10.35330/1991-6639-2022-5-109-48-57. 14. HaCohen-Kerner Y., Miller D., Yigal Y. The influence of preprocessing on text classification using a bag-of-words representation. PLoS One, 2020, vol. 15, art. e0232525. doi: 10.1371/journal.pone.0232525. References 1. Velichko, A. (2021) ‘A method for medical data analysis using the lognnet for clinical decision support systems and edge computing in healthcare’, Sensors, 21(18), art. 6209. doi:10.3390/s21186209. 2. Izotov, Y.A., Velichko, A.A., Ivshin, A.A., Novitskiy, R.E. (2021) ‘Recognition of handwritten MNIST digits on low-memory 2 Kb RAM Arduino board using LogNNet reservoir neural network’, IOP Conf. Ser. Mater. Sci. Eng., vol. 1155, art. 012056. doi: 10.1088/1757-899x/1155/1/012056. 3. Fan, Q., Yu, Y., Yin, G. et al. (2017) ‘Where is the road for issue reports classification based on text mining?’, Proc. Int. Symposium ESEM, pp. 121–130. doi: 10.1109/ESEM.2017.19. 4. Kim, M., Kim, Y., Lee, E. (2022) ‘Deep learning-based production and test bug report classification using source files’, Proc. ICSE, pp. 343–344. doi: 10.1145/3510454.3528646. 5. Zhifang, L., Kun, W., Qi, Z. et al. (2024) ‘Classification of open source software bug report based on transfer learning’, Expert Syst., 41(5), art. e13184. doi: 10.1111/exsy.13184. 6. Cho, H., Lee, S., Kang, S. (2022) ‘Classifying issue reports according to feature descriptions in a user manual based on a deep learning model’, Information and Software Technology, 142, art. 106743. doi: 10.1016/j.infsof.2021.106743. 7. Pandey, N., Sanyal, D.K., Hudait, A. et al. (2017) ‘Automated classification of software issue reports using machine learning techniques: An empirical study’, Innovations in Systems and Software Engineering, 13, pp. 279–297. doi: 10.1007/s11334-017-0294-1. 8. Kallis, R., Di Sorbo, A., Canfora, G. et al. (2019) ‘Ticket tagger: Machine learning driven issue classification’, Proc. IEEE ICSME, pp. 406–409. doi: 10.1109/ICSME.2019.00070. 9. Siddiq, M.L., Santos, J.C.S (2022) ‘BERT-Based GitHub issue report classification’, Proc. 1st Int. Workshop NLBSE, pp. 33–36. doi: 10.1145/3528588.3528660. 10. Izadi, M. (2022) ‘CatIss: An intelligent tool for categorizing issues reports using transformers’, Proc. 1st Int. Workshop NLBSE, pp. 44–47. doi: 10.1145/3528588.3528662. 11. Kallis, R., Chaparro, O., Sorbo, A. et al. (2022) ‘NLBSE tool competition’, Proc. 1st Int. Workshop NLBSE, pp. 25–28. doi: 10.1145/3528588.3528664. 12. Kwak, C., Jung, P., Lee, S. (2023) ‘A multimodal deep learning model using text, image, and code data for improving issue classification tasks’, Applied Sci., 13(16), art. 9456. doi: 10.3390/app13169456. 13. Kazakova, E. (2022) ‘Application of particle swarm method in the optimization problems’, News of the KabardinoBalkarian Sci. Center of RAS, (5), pp. 48–57 (in Russ.). doi: 10.35330/1991-6639-2022-5-109-48-57. 14. HaCohen-Kerner, Y., Miller, D., Yigal, Y. (2020) ‘The influence of preprocessing on text classification using a bag-of-words representation’, PLoS One, 15, art. e0232525. doi: 10.1371/journal.pone.0232525. |
| Постоянный адрес статьи: http://www.swsys.ru/index.php?page=article&id=5189 |
Версия для печати |
| Статья опубликована в выпуске журнала № 3 за 2025 год. [ на стр. 475-483 ] |
Статья опубликована в выпуске журнала № 3 за 2025 год. [ на стр. 475-483 ]
Возможно, Вас заинтересуют следующие статьи схожих тематик:Возможно, Вас заинтересуют следующие статьи схожих тематик:
- Разработка программного комплекса многоканального распознавания и коррекции речевых сообщений на основе алгоритмов машинного обучения в структуре импортозамещения
- Адаптация модели нейронной сети LSTM для решения комплексной задачи распознавания образов
- Разработка системы разрешения анафоры на основе методов машинного обучения
- Автоматизированное детектирование и классификация объектов в транспортном потоке на спутниковых снимках города
- Исследование сжатия растровых изображений с использованием искусственных нейронных сетей
Назад, к списку статей


