На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
16 Июня 2024

Статьи журнала №3 2020

21. Метод анализа текстов при тарифной классификации товаров в таможенном деле [№3 за 2020 год]
Авторы: Жиряева Е.В. (Zhiryaeva-ev@ranepa.ru) - Северо-Западный институт управления – филиал Российской академии народного хозяйства и государственной службы (доцент), доктор экономических наук; Наумов В.Н. (naumov122@list.ru ) - Северо-Западный институт управления – филиал Российской академии народного хозяйства и государственной службы (профессор), доктор военных наук;
Аннотация: Применение искусственного интеллекта в таможенном деле является важнейшей практической сферой цифровой трансформации социально-экономических систем. В статье рассмотрена одна из частных задач данной сферы – выбор кода товара по тарифной классификации на основе деклараций, представленных на русском языке. Объектом исследования выступал стабилизатор напряжения. Анализ таможенных деклараций, выполненный человеком по ключевым словам в описании товара, показал необходимость применения методов машинного обучения. Для этого были рассмотрены 1 005 таможенных деклараций, поданных по трем товарным позициям, которые расценивались как три класса в задаче классификации. Использование платфор-мы Orange Anaconda Navigator позволило применить методы визуального проектирования для по-строения workflow-диаграммы решения задачи. Диаграмма включает этап предпроцессинга, на котором были построены облака слов и мешок слов, а также сформирован набор данных, столбцами которого являются леммы, а строками – отдельные декларации. С целью сокращения размерности задачи применены методы фильтрации, удаления n-грамм и стоп-слов. Полученный набор данных позволяет выбрать лучший классификатор по показателям точности, специфичности, чувствительности, а также с помощью матрицы ошибок и AUC-кривой. Использованы обучающая и тестовая выборки, а также кроссвалидация. Лучшим по комплексу анализируемых показателей оказался классификатор, основанный на логистической регрессии, уравнение которой позволило определить наиболее важные леммы для решения задачи классификации. Поскольку сложность решения задачи зависит от числа идентифицируемых классов, целесо-образно использовать частные классификации для небольшого числа классов, включая их в со-став информационно-аналитических систем вместе с учетными системами, базами таможенных деклараций, системами «запрос–ответ» и другими.
Abstract: The use of artificial intelligence in customs administration is the most important practical sphere of the digital transformation of socio-economic systems. The paper considers one of the particular problems of this area: the choice of a product code according to the tariff classification based on declarations presented in Russian. The object of study was a voltage stabilizer. Analysis of customs declarations, performed by a person using the keywords in the product description, showed the need for machine learning methods. To do this, 1005 customs declarations were submitted, filed for three commodity items, which were regarded as three classes in the classification problem. Using the Orange Anaconda Navigator platform, it was possible to apply visual design methods to build a workflow diagram for solving the problem. The diagram includes a pre-processing stage, at which word clouds and a word bag were built, and a da-ta set was formed, the columns of which are lemmas, and the lines are individual declarations. In order to reduce the dimension of the problem, methods of filtering, removing n-grams, and stop words were applied. The resulting data set allows us to choose the best classifier in terms of accuracy, specificity, sensitivity, as well as using the error matrix and AUC curve. Training and test samples, as well as cross-validation were used.. The best in terms of the range of indicators analyzed was the classifier based on logistic regression, the equation of which made it possible to determine the most important lemmas for solving the classification problem. Since the complexity of solving the problem depends on the number of identifiable classes, it is ad-visable to use specific classifications for a small number of classes, including them in the information-analytical systems along with accounting systems, databases of customs declarations, request-response systems, and others.
Ключевые слова: таможенное регулирование, цифровые технологии, методы искусственного интеллекта, ошибки классификации, методы классификации, анализ текстов, гармонизированная система, товарная номенклатура
Keywords: customs administration, digital technologies, AI methods, classification errors, classification methods, text mining, harmonized system (HS), commodity nomenclature
Просмотров: 3811

← Предыдущая | 1 | 2 | 3