1. Методы и средства извлечения терминов из текстов для терминологических задач[№1 за 2025 год] Авторы: Большакова Е.И. (bolsh@cs.msu.ru) - Московский государственный университет им. М.В. Ломоносова (доцент), кандидат физико-математических наук; Семак В.В. (vlad.semakk@gmail.com) - Московский государственный университет им. М.В. Ломоносова, Аспирант ; Аннотация: В статье рассматривается современное состояние области автоматического извлечения терминов из специализированных текстов на естественном языке, включая научно-технические документы. К числу актуальных практических приложений методов и средств извлечения терминов из текстов относятся создание терминологических словарей, тезаурусов и глоссариев предметных областей, а также выявление ключевых слов и построение предметных указателей для узкоспециализированных документов. Представлен обзор подходов к автоматическому распознаванию и извлечению терминологических слов и словосочетаний, охватывающих традиционные статистические методы, а также методы на основе машинного обучения, включая обучение по признакам терминов и с применением современных нейросетевых языковых моделей. Проводится сравнение подходов, в том числе оценки качества распознавания и извлечения терминов, указываются наиболее известные программные средства для автоматизации извлечения терминов в рамках статистического подхода и обучения по признакам. Описываются исследования, проведенные авторами для распознавания терминов на базе нейросетевых языковых моделей применительно к обработке научных текстов по математике и программированию на русском языке. Кратко характеризуется набор данных с терминологической разметкой, созданный для обучения программных моделей распознавания терминов и охватывающий данные семи близких предметных областей. Программные модели разработаны на основе предобученной нейросетевой модели BERT c ее дообучением двумя способами: как бинарного классификатора терминов-кандидатов (предварительно извлеченных из текстов) и как классификатора для последовательной разметки терминологических слов в обрабатываемых текстах. Для разработанных моделей экспериментально определены оценки качества распознавания терминов, проведено сравнение со статистическим методом. Лучшие результаты продемонстрировали модели бинарной классификации, существенно превосходя остальные рассмотренные подходы. Проведенные эксперименты показывают применимость обученных моделей и для текстов близкой научной области.
Abstract: The paper describes the current state in the field of automatic term extraction from specialized natural language texts, including scientific and technical documents. Practical applications of methods and tools for extracting terms from texts include creation of terminological dictionaries, thesauri, and glossaries of problem oriented domains, as well as extraction of keywords and construction of subject indexes for specialized documents. The paper overviews approaches to automatic recog-nition and extraction of terminological words and phrases, which cover traditional statistical methods and methods based on machine learning by using term features or with modern neural network transformer-based language models. A comparison of the approaches is presented, including quality assessments for term recognition and term extraction. The most well-known software tools for automating term extraction within the statistical approach and learning by features are indicated. Authors' studies on term recognition based on neural network language models are described, being applied to Russian scientific texts on mathematics and programming. The data set with terminological annotations created for training term recognition models is briefly characterized, the dataset covers the data from seven related domains. The term recognition models were developed on the basis of pre-trained neural network model BERT, with its additional training (fine-tuning) in two ways: as binary classifier of candidate terms (previously extracted from texts) and as classifier for sequential labeling words in texts. For the developed models, the quality of term recognition is experimentally evaluated, and a comparison with the statistical approach was carried out. The best quality is demonstrated by binary classification models, significantly surpassing the other considered approaches. The experiments also show the applicability of the trained models to texts in close scientific domains.
В статье рассматривается современное состояние области автоматического извлечения терминов из специализированных текстов на естественном языке, включая научно-технические документы. К числу актуальных практических приложений методов и средств извлечения терминов из текстов относятся создание терминологических словарей, тезаурусов и глоссариев предметных областей, а также выявление ключевых слов и построение предметных указателей для узкоспециализированных документов. Представлен обзор подходов к автоматическому распознаванию и извлечению терминологических слов и словосочетаний, охватывающих традиционные статистические методы, а также методы на основе машинного обучения, включая обучение по признакам терминов и с применением современных нейросетевых языковых моделей. Проводится сравнение подходов, в том числе оценки качества распознавания и извлечения терминов, указываются наиболее известные программные средства для автоматизации извлечения терминов в рамках статистического подхода и обучения по признакам. Описываются исследования, проведенные авторами для распознавания терминов на базе нейросетевых языковых моделей применительно к обработке научных текстов по математике и программированию на русском языке. Кратко характеризуется набор данных с терминологической разметкой, созданный для обучения программных моделей распознавания терминов и охватывающий данные семи близких предметных областей. Программные модели разработаны на основе предобученной нейросетевой модели BERT c ее дообучением двумя способами: как бинарного классификатора терминов-кандидатов (предварительно извлеченных из текстов) и как классификатора для последовательной разметки терминологических слов в обрабатываемых текстах. Для разработанных моделей экспериментально определены оценки качества распознавания терминов, проведено сравнение со статистическим методом. Лучшие результаты продемонстрировали модели бинарной классификации, существенно превосходя остальные рассмотренные подходы. Проведенные эксперименты показывают применимость обученных моделей и для текстов близкой научной области.
2. Использование семантического анализа для автоматизированного выявления хайповых технологий[№1 за 2025 год] Авторы: Логинова И.В. (iloginova@hse.ru) - Институт статистических исследований и экономики знаний НИУ «Высшая школа экономики» (заведующий отделом); Пиекалнитс А.С. (apiekalnits@hse.ru) - Институт статистических исследований и экономики знаний НИУ «Высшая школа экономики» (ведущий эксперт); Соколов А.В. (sokolov@hse.ru) - Институт статистических исследований и экономики знаний НИУ «Высшая школа экономики» (профессор, заместитель директора); Аннотация: Предметом проведенного исследования являются завышенные общественные ожидания от новых технологий (хайпов). В статье представлены результаты разработки и апробации методики автоматизированного выявления хайпов среди технологических тематик на основе их текстового следа на примере сферы цифровых технологий. Количество новых технологических разработок в мире постоянно растет, однако реальный потенциал их практического применения может сильно различаться. Важно понимание надежных факторов, позволяющих отличать тренды от хайпов. К числу возможных признаков хайпов отраслевые и технологические эксперты предлагают относить, как правило, отсутствие устойчивой бизнес-модели, несформированный или заведомо ограниченный потребительский рынок, большое количество более эффективных альтернатив. Выявление хайпов в технологической повестке было и остается сложной аналитической задачей. Это обусловлено несогласованностью терминологического аппарата, экспертной природой задачи, недостаточно развитыми методологическими подходами, отсутствием конкретных технических инструментов. Описываемая в статье методика включает извлечение методами обработки естественного языка и компьютерной лингвистики из нескольких десятков миллионов текстовых документов различных типов (научные публикации, патенты, рыночная аналитика) терминов, означающих технологии, расчет объективной меры хайповости каждой технологии, а также построение визуальной карты – наглядного представления ландшафта технологий, позволяющего отделить устойчивые тренды от потенциальных хайпов (тематик с высоким значением показателя хайповости). Хайп-карты в комплексе с другими аналитическими результатами могут использовать лица, принимающие решения, в задачах выявления приоритетных направлений развития, анализа текущих и прогнозирования будущих трендов, риск-менеджмента.
Abstract: The research focuses on inflated public expectations of new technologies, or hypes. The paper presents the results of the development and testing an automated methodology for the automated identification of hypes among technological topics based on their textual trace in the digital technology field. The amount of new technological developments in the world is constantly growing, however their real potential for practical application varies greatly. Therefore, it is important to understand reliable factors to distinguish trends from hypes. Typically, industry and technology experts suggest that the possible signs of hypes include the following ones: absence of a stable business model, an unformed or obviously limited consumer market, and a large number of more effective alternatives. Identifying hypes in the technology agenda remains a difficult analytical task. This is due to the terminological inconsistency, the expert nature of the task, insufficiently developed methodological approaches, and the lack of specific technical tools. The method described in this paper involves the extraction of terms referring to technologies using natural language processing and computational linguistics techniques. These terms are extracted from several dozens of millions of different types of text documents, such as scientific publications, patents, and market analytics. The method also includes calculating an objective measure of each technology's “hype” and constructing a visual map that illustrates the technology landscape that allows separating sustainable trends from potential hypes. Decision makers can use such hype maps in conjunction with other analytical results to identify priority development areas, analyze current and forecast future trends, and in risk management.
Предметом проведенного исследования являются завышенные общественные ожидания от новых технологий (хайпов). В статье представлены результаты разработки и апробации методики автоматизированного выявления хайпов среди технологических тематик на основе их текстового следа на примере сферы цифровых технологий. Количество новых технологических разработок в мире постоянно растет, однако реальный потенциал их практического применения может сильно различаться. Важно понимание надежных факторов, позволяющих отличать тренды от хайпов. К числу возможных признаков хайпов отраслевые и технологические эксперты предлагают относить, как правило, отсутствие устойчивой бизнес-модели, несформированный или заведомо ограниченный потребительский рынок, большое количество более эффективных альтернатив. Выявление хайпов в технологической повестке было и остается сложной аналитической задачей. Это обусловлено несогласованностью терминологического аппарата, экспертной природой задачи, недостаточно развитыми методологическими подходами, отсутствием конкретных технических инструментов. Описываемая в статье методика включает извлечение методами обработки естественного языка и компьютерной лингвистики из нескольких десятков миллионов текстовых документов различных типов (научные публикации, патенты, рыночная аналитика) терминов, означающих технологии, расчет объективной меры хайповости каждой технологии, а также построение визуальной карты – наглядного представления ландшафта технологий, позволяющего отделить устойчивые тренды от потенциальных хайпов (тематик с высоким значением показателя хайповости). Хайп-карты в комплексе с другими аналитическими результатами могут использовать лица, принимающие решения, в задачах выявления приоритетных направлений развития, анализа текущих и прогнозирования будущих трендов, риск-менеджмента.
Логинова И.В. (iloginova@hse.ru) - Институт статистических исследований и экономики знаний НИУ «Высшая школа экономики» (заведующий отделом); Пиекалнитс А.С. (apiekalnits@hse.ru) - Институт статистических исследований и экономики знаний НИУ «Высшая школа экономики» (ведущий эксперт); Соколов А.В. (sokolov@hse.ru) - Институт статистических исследований и экономики знаний НИУ «Высшая школа экономики» (профессор, заместитель директора);
3. Генетический алгоритм размещения требований в задаче планирования производственных процессов потокового типа[№1 за 2025 год] Авторы: Кибзун А.И. (kibzun@mail.ru) - Институт компьютерных наук и прикладной математики, Московский авиационный институт (профессор, заведующий кафедрой), доктор физико-математических наук; Рассказова В.А. (varvara.rasskazova@mail.ru) - Институт компьютерных наук и прикладной математики, Московский авиационный институт (доцент), кандидат физико-математических наук; Аннотация: В статье рассматривается задача планирования производственных процессов потокового типа. В рамках каскадной схемы комплексное решение охватывает этап назначения подготовительных агрегатов и последующий этап формирования детализированных технологических маршрутов для исполнения заданного множества требований точно в срок и с учетом ограничений на допустимые длительности обработки на каждом переделе. Данная схема реализуется в составе проблемно-ориентированного вычислительного комплекса, однако по ряду естественных причин задача может оказаться несовместной уже на этапе назначения подготовительных агрегатов. Один из путей преодоления обозначенных трудностей – разработка и реализация алгоритмов штрафных функций для поиска максимальных совместных подсистем в противоречивых задачах оптимизации. В настоящей работе для этих целей предлагается идеологически другой подход, основанный на рассмотрении предварительного этапа размещения требований таким образом, чтобы последующие этапы решения комплексной задачи были гарантированно разрешимы. Размещение требований формализуется как задача поиска отображения установленного вида, оптимального по эвристическому критерию потенциальной нагрузки на подготовительные агрегаты в рассматриваемом периоде планирования. Для решения этой задачи авторы статьи разработали генетический алгоритм, что обусловило существенное преимущество по быстродействию в сравнении с фундаментальными подходами математического программирования (например, в сравнении с моделями целочисленного линейного программирования). В целях снижения рисков вымирания популяции на каждой итерации генетического алгоритма применяется правило безусловной миграции представителя с наименьшим значением критерия. Такой подход обеспечивает также эффективные показатели сходимости алгоритма по числу итераций без существенного улучшения целевого функционала. Разработанный генетический алгоритм реализуется как автономный модуль вычислительного комплекса для решения задач планирования процессного производства. Вычислительный эксперимент проводится с использованием данного модуля в разрезе сравнительного анализа качества решения исходной комплексной задачи.
Abstract: The paper discusses the problem of planning flow-type production processes. In terms of a cascade scheme, the complex solution covers the stage of assigning preparatory units and the subsequent stage of forming detailed technological routes to fulfill a given set of requirements on time and taking into account the constraints on permissible processing durations at each processing stage. This scheme comes as a part of a problem-oriented computing complex. However, due to a number of natural reasons, the problem may become inconsistent right at the stage of assigning preparatory units. One of the ways to overcome these difficulties is to develop and implement penalty function algorithms to find the maximum joint subsystems in inconsistent optimization problems. The paper proposes an ideologically different approach for this purpose. It is based on considering the preliminary stage of requirement placement in such a way that the subsequent stages of problem-solving process are guaranteed to be solvable. The requirement placement is formalized as a search for an optimal mapping that minimizes “potential” workload on preparatory units during the planning period. To solve this problem, the authors of the paper have developed a genetic algorithm, which resulted in a significant advantage in terms of speed in comparison with fundamental approaches of mathematical programming (for example, integer linear programming models). In order to reduce the risk of population extinction at each iteration of the genetic algorithm, the authors apply the rule of unconditional migration of a representative with the lowest criterion value. This approach also provides effective convergence indices of the algorithm in terms of the number of iterations without significant improvement of the objective function. The developed genetic algorithm is implemented as a stand-alone module of a computing system for solving process manufacturing scheduling problems. The authors conducted a computational experiment using this module in terms of a comparative analysis of the solution quality of the initial complex problem.
В статье рассматривается задача планирования производственных процессов потокового типа. В рамках каскадной схемы комплексное решение охватывает этап назначения подготовительных агрегатов и последующий этап формирования детализированных технологических маршрутов для исполнения заданного множества требований точно в срок и с учетом ограничений на допустимые длительности обработки на каждом переделе. Данная схема реализуется в составе проблемно-ориентированного вычислительного комплекса, однако по ряду естественных причин задача может оказаться несовместной уже на этапе назначения подготовительных агрегатов. Один из путей преодоления обозначенных трудностей – разработка и реализация алгоритмов штрафных функций для поиска максимальных совместных подсистем в противоречивых задачах оптимизации. В настоящей работе для этих целей предлагается идеологически другой подход, основанный на рассмотрении предварительного этапа размещения требований таким образом, чтобы последующие этапы решения комплексной задачи были гарантированно разрешимы. Размещение требований формализуется как задача поиска отображения установленного вида, оптимального по эвристическому критерию потенциальной нагрузки на подготовительные агрегаты в рассматриваемом периоде планирования. Для решения этой задачи авторы статьи разработали генетический алгоритм, что обусловило существенное преимущество по быстродействию в сравнении с фундаментальными подходами математического программирования (например, в сравнении с моделями целочисленного линейного программирования). В целях снижения рисков вымирания популяции на каждой итерации генетического алгоритма применяется правило безусловной миграции представителя с наименьшим значением критерия. Такой подход обеспечивает также эффективные показатели сходимости алгоритма по числу итераций без существенного улучшения целевого функционала. Разработанный генетический алгоритм реализуется как автономный модуль вычислительного комплекса для решения задач планирования процессного производства. Вычислительный эксперимент проводится с использованием данного модуля в разрезе сравнительного анализа качества решения исходной комплексной задачи.
Кибзун А.И. (kibzun@mail.ru) - Институт компьютерных наук и прикладной математики, Московский авиационный институт (профессор, заведующий кафедрой), доктор физико-математических наук; Рассказова В.А. (varvara.rasskazova@mail.ru) - Институт компьютерных наук и прикладной математики, Московский авиационный институт (доцент), кандидат физико-математических наук;
4. Гибридный подход к выделению структурированных данных из «Летописи жизни и творчества А.С. Пушкина»[№1 за 2025 год] Авторы: Кокорин П.П. (kokorin.p@iias.spb.su) - Санкт-Петербургский федеральный исследовательский центр РАН (старший научный сотрудник), кандидат технических наук; Котов А.А. (alexanderkotovspb@gmail.com) - Санкт-Петербургский федеральный исследовательский центр РАН (младший научный сотрудник); Кулешов С.В. (kuleshov@iias.spb.su) - Санкт-Петербургский федеральный исследовательский центр РАН (профессор РАН, главный научный сотрудник), доктор технических наук; Зайцева А.А. (cher@iias.spb.su) - Санкт-Петербургский федеральный исследовательский центр РАН (старший научный сотрудник), кандидат технических наук; Аннотация: Статья посвящена решению проблемы создания программной инфраструктуры для систематизации, аннотирования, хранения, поиска и публикации рукописей и иных материалов, представленных в цифровом виде. Исследование построено на материалах, связанных с жизнью и творчеством А.С. Пушкина и составляющих важную часть научно-просветительского ресурса «Пушкин цифровой». Актуальность решаемой проблемы обусловлена необходимостью сохранения авторского наследия русских писателей в условиях цифровой трансформации предметной области филологических, источниковедческих и библиографических исследований их трудов, что является частью национальных проектов Российской Федерации «Образование», «Культура», «Наука и университеты». В данном контексте особую роль играет решение задачи извлечения структурированного текста из растровых изображений страниц томов «Летописи жизни и творчества А.С. Пушкина» для использования в разрабатываемых системах хранения, систематизации, публикации материалов библиотечных, архивных, музейных, фонографических и иных фондов и коллекций и частичной автоматизации филологических, источниковедческих и библиографических исследований. В работе предложен гибридный подход, основанный на использовании априорных данных о структуре элементов верстки страницы, технологиях OCR – распознавание текста на базе библиотеки Tesseract и методах верификации. Особенностью разработанных методов верификации является использование регулярных выражений для извлечения структурированных данных из предварительно распознанного текста и автоматизированного конвейера обработки текстов в сборочной системе GitLab. Приведены результаты применения предложенного гибридного подхода. Показано, что этот подход дает удовлетворительные результаты, обеспечивая минимизацию ручной постобработки полученных данных путем вычитки результатов, размещаемых на научно-просветительском ресурсе. Полученные результаты могут использоваться не только в разрабатываемом ресурсе «Пушкин цифровой», но и в других проектах, в основе реализации которых лежит необходимость распознавания и автоматизированной обработки больших объемов оцифрованных авторских текстов, архивных и других бумажных документов.
Abstract: The paper discusses the problem of creating a software infrastructure for systematization, annotation, storage, search and publication of manuscripts and other digital materials. The research focuses on the materials related to the life and work of A.S. Pushkin. These materials form an important part of the scientific and educational resource “Pushkin Digital”. The problem is relevant due to the need to preserve the Russian author's heritage under conditions of digital transformation of philo-logical, source and bibliographic studies into their works. This is a part of the national projects of the Russian Federation “Education”, “Culture”, “Science and Universities”. It is especially important to extract a structured text from bitmap images of pages from A.S. Pushkin's Chronicle of Life and Work volumes to use it in the developing systems of storage, systematization, publication of library, archival, museum, phonographic and other funds and collections and partial automation of philological, source and bibliographic research. The paper proposes a hybrid approach based on the a priori data about the structure of page layout elements, OCR technologies (text recognition based on Tesseract library) and verification methods. The peculiarity of the developed verification methods is using regular expressions for extracting structured data from prerecognized text and automated text processing pipeline in the GitLab assembly system. The paper demonstrates satisfactory results of the proposed hybrid approach. The approach minimizes the manual post-processing of the obtained data by proof-reading the results posted on the research and education resource. The results are useful not only in the research and educa-tional resource Pushkin Digital under development, but also in other projects, which require recognition and automated processing of large volumes of digitized author's texts, archival and other paper documents.
Статья посвящена решению проблемы создания программной инфраструктуры для систематизации, аннотирования, хранения, поиска и публикации рукописей и иных материалов, представленных в цифровом виде. Исследование построено на материалах, связанных с жизнью и творчеством А.С. Пушкина и составляющих важную часть научно-просветительского ресурса «Пушкин цифровой». Актуальность решаемой проблемы обусловлена необходимостью сохранения авторского наследия русских писателей в условиях цифровой трансформации предметной области филологических, источниковедческих и библиографических исследований их трудов, что является частью национальных проектов Российской Федерации «Образование», «Культура», «Наука и университеты». В данном контексте особую роль играет решение задачи извлечения структурированного текста из растровых изображений страниц томов «Летописи жизни и творчества А.С. Пушкина» для использования в разрабатываемых системах хранения, систематизации, публикации материалов библиотечных, архивных, музейных, фонографических и иных фондов и коллекций и частичной автоматизации филологических, источниковедческих и библиографических исследований. В работе предложен гибридный подход, основанный на использовании априорных данных о структуре элементов верстки страницы, технологиях OCR – распознавание текста на базе библиотеки Tesseract и методах верификации. Особенностью разработанных методов верификации является использование регулярных выражений для извлечения структурированных данных из предварительно распознанного текста и автоматизированного конвейера обработки текстов в сборочной системе GitLab. Приведены результаты применения предложенного гибридного подхода. Показано, что этот подход дает удовлетворительные результаты, обеспечивая минимизацию ручной постобработки полученных данных путем вычитки результатов, размещаемых на научно-просветительском ресурсе. Полученные результаты могут использоваться не только в разрабатываемом ресурсе «Пушкин цифровой», но и в других проектах, в основе реализации которых лежит необходимость распознавания и автоматизированной обработки больших объемов оцифрованных авторских текстов, архивных и других бумажных документов.
Кокорин П.П. (kokorin.p@iias.spb.su) - Санкт-Петербургский федеральный исследовательский центр РАН (старший научный сотрудник), кандидат технических наук; Котов А.А. (alexanderkotovspb@gmail.com) - Санкт-Петербургский федеральный исследовательский центр РАН (младший научный сотрудник); Кулешов С.В. (kuleshov@iias.spb.su) - Санкт-Петербургский федеральный исследовательский центр РАН (профессор РАН, главный научный сотрудник), доктор технических наук; Зайцева А.А. (cher@iias.spb.su) - Санкт-Петербургский федеральный исследовательский центр РАН (старший научный сотрудник), кандидат технических наук;
5. Моделирование надежности программных компонентов киберфизических систем[№1 за 2025 год] Авторы: Привалов А.Н. (privalov.61@mail.ru) - Тульский государственный педагогический университет им. Л.Н. Толстого (профессор, директор института), доктор технических наук; Ларкин Е.В. (elarkin@mail.ru) - Тульский государственный университет (профессор), доктор технических наук; Богомолов А.В. (a.v.bogomolov@gmail.com) - Научно-исследовательский испытательный центр (авиационно-космической медицины и военной эр-гономики) 4 Центрального научно-исследовательского института Минобороны России (профессор, ведущий научный сотрудник), доктор технических наук; Аннотация: Актуальность данного исследования обусловлена тем, что надежность программных компонентов киберфизических систем является ключевой составляющей их эффективного функционирования. Ее адекватное математическое моделирование имеет существенное значение для прогресса цифровизации экономики. Работа направлена на устранение недостатков известных подходов к моделированию надежности программных компонентов, при реализации которых оценки характеристик надежности формируются на основе эмпирических данных о количестве ошибок, выявленных при тестировании программ. Поэтому результаты тестирования существенно зависят как от его длительности, так и от полноты покрытия области обрабатываемых данных подобластью данных, генерируемых при тестировании, что снижает эффективность оценивания надежности. Предметом исследования стали методы моделирования надежности программных компонентов киберфизических систем, характеризуемой временем запаздывания в цепи обратной связи между компонентами. В работе использованы методы программной инженерии, теории надежности, теории вероятностей и марковских процессов. Основным результатом являются математические модели надежности программных компонентов киберфизических систем, объединяющей полумарковские модели программных компонентов, генерации их сбоев и отказов. Разработанные математические модели основаны на структурно-параметрической полумарковской модели сбоев и отказов программного обеспечения, параметры которой определяются вычислительной сложностью и требованиями, предъявляемыми к программному обеспечению с учетом его функционального назначения. Получены формализованные описания пуассоновских потоков сбоев и отказов программных компонентов киберфизической системы. Практическая значимость работы определяется ее ориентированностью на применение для определения надежности программных компонентов на всех этапах жизненного цикла киберфизических систем, элементы которых взаимодействуют, самонастраиваются и адаптируются к изменениям с помощью стандартных программно реализуемых протоколов.
Abstract: This relevance of the research is due to the reliability of software components of cyber-physical systems being a key component of their effective functioning. Its appropriate mathematical modeling is essential for the economy digitalization. The paper aims to eliminate the disadvantages of known approaches to modeling the reliability of software components, when the estimates of reliability characteristics are based on empirical data on the errors detected during the testing of programs. Hence, the testing results mostly depend on test duration and on the completeness of the processed data area coverage by the sub-area of the data generated during testing. This reduces the efficiency of reliability estimation. The research focuses on the reliability modeling methods for software components of cyber-physical systems. The reliability is characterized by the delay time in the feedback loop between components. The authors of the paper used methods of software engineering, reliability theory, probability theory and Markov processes. The main result is mathematical reliability models of software components of cyber-physical systems. They combine semi-Markov models of software components, generations of their faults and failures. The developed mathematical models are based on the structural-parametric semi-Markov model of software faults and failures. Its parameters are determined by the computational complexity and requirements to the software taking into account its functional purpose. The authors obtained formalized descriptions of Poisson flows of faults and failures of software components of a cyber-physical system. The practical relevance of the paper is due to its application for determining the reliability of software components at all stages of a cyber-physical system life cycle, where elements interact, self-adjust and adapt to changes using standard software-implemented protocols.
Актуальность данного исследования обусловлена тем, что надежность программных компонентов киберфизических систем является ключевой составляющей их эффективного функционирования. Ее адекватное математическое моделирование имеет существенное значение для прогресса цифровизации экономики. Работа направлена на устранение недостатков известных подходов к моделированию надежности программных компонентов, при реализации которых оценки характеристик надежности формируются на основе эмпирических данных о количестве ошибок, выявленных при тестировании программ. Поэтому результаты тестирования существенно зависят как от его длительности, так и от полноты покрытия области обрабатываемых данных подобластью данных, генерируемых при тестировании, что снижает эффективность оценивания надежности. Предметом исследования стали методы моделирования надежности программных компонентов киберфизических систем, характеризуемой временем запаздывания в цепи обратной связи между компонентами. В работе использованы методы программной инженерии, теории надежности, теории вероятностей и марковских процессов. Основным результатом являются математические модели надежности программных компонентов киберфизических систем, объединяющей полумарковские модели программных компонентов, генерации их сбоев и отказов. Разработанные математические модели основаны на структурно-параметрической полумарковской модели сбоев и отказов программного обеспечения, параметры которой определяются вычислительной сложностью и требованиями, предъявляемыми к программному обеспечению с учетом его функционального назначения. Получены формализованные описания пуассоновских потоков сбоев и отказов программных компонентов киберфизической системы. Практическая значимость работы определяется ее ориентированностью на применение для определения надежности программных компонентов на всех этапах жизненного цикла киберфизических систем, элементы которых взаимодействуют, самонастраиваются и адаптируются к изменениям с помощью стандартных программно реализуемых протоколов.
Привалов А.Н. (privalov.61@mail.ru) - Тульский государственный педагогический университет им. Л.Н. Толстого (профессор, директор института), доктор технических наук; Ларкин Е.В. (elarkin@mail.ru) - Тульский государственный университет (профессор), доктор технических наук; Богомолов А.В. (a.v.bogomolov@gmail.com) - Научно-исследовательский испытательный центр (авиационно-космической медицины и военной эр-гономики) 4 Центрального научно-исследовательского института Минобороны России (профессор, ведущий научный сотрудник), доктор технических наук;
6. Планирование вычислений в системах реального времени: эффективные алгоритмы построения оптимальных расписаний[№1 за 2025 год] Авторы: Кононов Д.А. (dmitrykon52@gmail.com) - Институт проблем управления им. В.А. Трапезникова РАН (доцент, ведущий научный сотрудник), доктор технических наук; Фуругян М.Г. (rtsccas@yandex.ru) - Федеральный исследовательский центр «Информатика и управление» РАН (доцент, старший научный сотрудник), кандидат физико-математических наук; Аннотация: В статье рассматриваются вопросы, связанные с разработкой одного из основных блоков вычислительной системы реального времени – блока планирования вычислений. Предлагаются алгоритмы построения оптимальных расписаний для различных случаев в зависимости от числа процессоров и характеристик работ и ресурсов вычислительной системы. Для однопроцессорного случая с прерываниями и директивными интервалами усовершенствован алгоритм относительной срочности путем использования кучи для хранения данных. Это способствовало понижению вычислительной сложности алгоритма. Разработан алгоритм для задачи с частичным порядком выполнения работ, основанный на предварительной коррекции моментов готовности и директивных сроков и на сведении исходной задачи к задаче без отношений предшествования. Для многопроцессорного случая с прерываниями и директивными интервалами предложен приближенный алгоритм, основанный на обобщении однопроцессорного алгоритма относительной срочности на случай нескольких процессоров. Проведен сравнительный анализ с точным потоковым алгоритмом. Доказано, что в случае учета временных издержек на прерывания и переключения задача является NP-трудной. Для многопроцессорного случая без прерываний и переключений с общим директивным интервалом для всех работ и идентичными процессорами разработан псевдополиномиальный алгоритм, основанный на ограниченном переборе вариантов. Создан приближенный алгоритм для системы с возобновляемыми и невозобновляемыми ресурсами, а также для комплекса со смешанным набором работ (как непрерываемых, так и допускающих прерывания и переключения). Алгоритм основан на сетевом моделировании и сведении исследуемой задачи к поиску потока с определенными свойствами в специальной сети.
Abstract: The paper discusses issues related developing one of the main blocks of a real-time computing system, specifically the computation scheduling block. The authors propose algorithms for constructing optimal schedules for different cases depending on the number of processors and characteristics of works and computing system resources. For the single-processor case with interruptions and directive intervals, they improved the relative urgency algorithm using a heap for data storage. This contributed to lowering the algorithm computational complexity. The authors also developed an algorithm for a problem with a partial order of job execution. It bases on the precorrection of ready moments and directive deadlines and on the reduction of the original task to a task without precedence relations. For the multiprocessor case with interruptions and directive intervals, the authors proposed an approximate algorithm that is based on a generalization of the single-processor relative urgency algorithm to the multi-processor case. The authors performed a comparative analysis with the exact stream algorithm. They proved that the problem is NP-hard when interruption and switching time costs are taken into account. For the multiprocessor case without interruptions and switches with a common directive interval for all works and identical processors, the authors developed a pseudo-polynomial algorithm based on a limited search of options. The authors also created an approximate algorithm for a system with renewable and non-renewable resources, as well as for a complex with a mixed set of works (both continuous and allowing interruptions and switching). The algorithm is based on network modeling and reducing the problem under study to the search for a stream with certain properties in a special network.
В статье рассматриваются вопросы, связанные с разработкой одного из основных блоков вычислительной системы реального времени – блока планирования вычислений. Предлагаются алгоритмы построения оптимальных расписаний для различных случаев в зависимости от числа процессоров и характеристик работ и ресурсов вычислительной системы. Для однопроцессорного случая с прерываниями и директивными интервалами усовершенствован алгоритм относительной срочности путем использования кучи для хранения данных. Это способствовало понижению вычислительной сложности алгоритма. Разработан алгоритм для задачи с частичным порядком выполнения работ, основанный на предварительной коррекции моментов готовности и директивных сроков и на сведении исходной задачи к задаче без отношений предшествования. Для многопроцессорного случая с прерываниями и директивными интервалами предложен приближенный алгоритм, основанный на обобщении однопроцессорного алгоритма относительной срочности на случай нескольких процессоров. Проведен сравнительный анализ с точным потоковым алгоритмом. Доказано, что в случае учета временных издержек на прерывания и переключения задача является NP-трудной. Для многопроцессорного случая без прерываний и переключений с общим директивным интервалом для всех работ и идентичными процессорами разработан псевдополиномиальный алгоритм, основанный на ограниченном переборе вариантов. Создан приближенный алгоритм для системы с возобновляемыми и невозобновляемыми ресурсами, а также для комплекса со смешанным набором работ (как непрерываемых, так и допускающих прерывания и переключения). Алгоритм основан на сетевом моделировании и сведении исследуемой задачи к поиску потока с определенными свойствами в специальной сети.
Кононов Д.А. (dmitrykon52@gmail.com) - Институт проблем управления им. В.А. Трапезникова РАН (доцент, ведущий научный сотрудник), доктор технических наук; Фуругян М.Г. (rtsccas@yandex.ru) - Федеральный исследовательский центр «Информатика и управление» РАН (доцент, старший научный сотрудник), кандидат физико-математических наук;
7. Система верифицируемых спецификаций программных компонентов с поддержкой встраивания и извлечения[№1 за 2025 год] Авторы: Шапкин П.А. (pashapkin@mephi.ru) - Национальный исследовательский ядерный университет «МИФИ» (доцент), кандидат технических наук; Аннотация: Объектами данного исследования являются спецификация и верификация программных систем и их компонентов. Предмет исследования – унифицированный язык спецификаций, оснащенный соотнесением как с системами случайного тестирования, так и со средствами статической верификации на основе систем типов. Разнообразие языков программирования, систем конфигурирования, развертывания и другие инструменты требуют от разработчиков усилий по их интеграции. Упростить задачу помогает наличие верифицируемых спецификаций компонентов. В работе предложен подход к унифицированному представлению спецификаций, интегрированному с системами как для статической проверки типов, так и для динамического тестирования. Это решение опирается на методы аппликативных вычислительных систем и теории типов и предоставляет понятийный каркас для построения спецификаций, встраиваемых в различные программные среды. Недостаток возможностей статической верификации из-за ограниченности систем типов до некоторой степени устраняется за счет динамического тестирования. Тестирование осуществляется посредством интерпретации спецификаций в определения для систем случайного тестирования на основе свойств. Практическая значимость предлагаемого подхода состоит, в частности, в автоматизации процесса построения типизированных оберток, или фасадов, необходимых для использования компонентов из менее типизированных сред в языках программирования с более выразительными системами типов. Автоматизируются как верификация таких оберток, так и способы их построения за счет определения операций уточнения спецификаций. На практике это позволяет выявлять ошибки в типизации сторонних компонентов на ранних стадиях разработки. В статье приведены примеры спецификаций программ с побочными эффектами. В качестве основы для спецификаций использованы формализации из теории категорий. Проанализированы подходы к транслированию спецификаций в другие представления и к итеративному усовершенствованию спецификаций путем их трансформации.
Abstract: This paper focuses on specification and verification of software systems and their components. It researches a unified specification language that correlates with both random testing systems and static verification tools based on type systems. A variety of programming languages, configuration systems, deployment and other tools require developers to make efforts to integrate them. Verifiable component specifications help to simplify the task. The paper proposes an approach to a unified specification representation integrated with systems for both static type checking and dynamic testing. This solution relies on methods of applicative computing and type theory. It is a conceptual framework for building specifications embedded in various software environments. The lack of static verification capabilities due to limited type systems is eliminated by dynamic testing to some extent. The author implements testing by interpreting specifications into definitions for property-based random testing systems. The practical significance of the proposed approach is automation of the process of constructing typed wrappers, or facades, which are essential for using components from less typed environments in programming languages with more expressive type systems. The approach automates both the verification of such wrappers and the methods of their construction by defining specification refinement operations. In practice, this allows detecting errors in typing of third-party components at early development stages. The paper gives examples of program specifications with side effects. A basis for specifications is category theory formalizations. The author also analyzes approaches to translating specifications into other representations and to iteratively improving specifications by transforming them.
Объектами данного исследования являются спецификация и верификация программных систем и их компонентов. Предмет исследования – унифицированный язык спецификаций, оснащенный соотнесением как с системами случайного тестирования, так и со средствами статической верификации на основе систем типов. Разнообразие языков программирования, систем конфигурирования, развертывания и другие инструменты требуют от разработчиков усилий по их интеграции. Упростить задачу помогает наличие верифицируемых спецификаций компонентов. В работе предложен подход к унифицированному представлению спецификаций, интегрированному с системами как для статической проверки типов, так и для динамического тестирования. Это решение опирается на методы аппликативных вычислительных систем и теории типов и предоставляет понятийный каркас для построения спецификаций, встраиваемых в различные программные среды. Недостаток возможностей статической верификации из-за ограниченности систем типов до некоторой степени устраняется за счет динамического тестирования. Тестирование осуществляется посредством интерпретации спецификаций в определения для систем случайного тестирования на основе свойств. Практическая значимость предлагаемого подхода состоит, в частности, в автоматизации процесса построения типизированных оберток, или фасадов, необходимых для использования компонентов из менее типизированных сред в языках программирования с более выразительными системами типов. Автоматизируются как верификация таких оберток, так и способы их построения за счет определения операций уточнения спецификаций. На практике это позволяет выявлять ошибки в типизации сторонних компонентов на ранних стадиях разработки. В статье приведены примеры спецификаций программ с побочными эффектами. В качестве основы для спецификаций использованы формализации из теории категорий. Проанализированы подходы к транслированию спецификаций в другие представления и к итеративному усовершенствованию спецификаций путем их трансформации.
Шапкин П.А. (pashapkin@mephi.ru) - Национальный исследовательский ядерный университет «МИФИ» (доцент), кандидат технических наук;
8. Имитационное моделирование систем физической защиты в среде АКИМ[№1 за 2025 год] Авторы: Сениченков Ю.Б. (senyb@mail.ru) - Санкт-Петербургский политехнический университет Петра Великого (доцент, профессор), доктор технических наук; Шарков И.К. (shark2.1@mail.ru) - Санкт-Петербургский политехнический университет Петра Великого (исследователь, ведущий разработчик); Аннотация: В статье обсуждается методика построения имитационных моделей в отечественном программном комплексе АКИМ. Модели предназначены для решения задачи анализа защищенности существующих и проектируемых систем физической защиты объектов и для формирования оценок их эффективности с помощью статистического эксперимента. Приводится обзор существующих современных подходов к решению аналогичной задачи. Большинство из них применяют марковские цепи для поиска уязвимых путей и графы атак и защит для оценки эффективности системы. В качестве альтернативы предлагается строить имитационную модель без построения графа атак и защит, опираясь только на план системы физической защиты. Модель в среде АКИМ создается из экземпляров базовых классов, моделирующих реальные элементы системы физической защиты, в результате чего возникает план, по которому будут двигаться модели агентов и охранников, имитируя реальные атаки. Подход позволяет подробно описывать функции, реакции и возможности системы на уровне ее элементов и задавать фактические параметры нарушителей и охранников, что обеспечивает точность и полноту анализа без упрощений или исключения важных деталей. На демонстрационных примерах показано, что оценки эффективности моделей защиты систем, полученные с помощью программного комплекса АКИМ, близки к оценкам эффективности моделей систем, построенных с помощью марковских цепей. При этом рассматриваемый метод построения имитационных моделей позволяет преодолевать трудности, связанные с использованием марковских цепей: необходимость использовать экспертные оценки коэффициентов матрицы переходов, матрицы большого размера, сложности модификации модели.
Abstract: The paper discusses the methodology of building simulation models in the domestic software package AKIM. The models focus on solving the problem of analyzing the security level of existing and designed systems of physical protection of objects. They also use statistical experiment to form estimates of such systems’ effectiveness. The authors give a review of existing modern approaches to solving a similar problem. Most approaches apply Markov chains to search for vulnerable paths, as well as attack and defense graphs to assess the system effectiveness. Alternatively, it is suggested to build a simulation model without building an attack and defense graph, relying only on a physical defense system plan. The model in the AKIM environment consists of base class instances that model real elements of a physical protection system. As a result, there is a plan for models of agents and guards to move, simulating real attacks. The approach allows describing in detail the functions, reactions and capabilities of the system at the level of its elements and specifying the actual parameters of intruders and guards. This ensures accuracy and completeness of the analysis without simplification or exclusion of important details. Demonstration examples show that efficiency estimates of system protection models obtained by AKIM software package are close to efficiency estimates of system models built using Markov chains. In this case, the considered method of building simulation models allows overcoming the difficulties associated with using Markov chains: the need to use expert estimates of the coefficients of the transition matrix, large size matrices, the complexity of model modification.
В статье обсуждается методика построения имитационных моделей в отечественном программном комплексе АКИМ. Модели предназначены для решения задачи анализа защищенности существующих и проектируемых систем физической защиты объектов и для формирования оценок их эффективности с помощью статистического эксперимента. Приводится обзор существующих современных подходов к решению аналогичной задачи. Большинство из них применяют марковские цепи для поиска уязвимых путей и графы атак и защит для оценки эффективности системы. В качестве альтернативы предлагается строить имитационную модель без построения графа атак и защит, опираясь только на план системы физической защиты. Модель в среде АКИМ создается из экземпляров базовых классов, моделирующих реальные элементы системы физической защиты, в результате чего возникает план, по которому будут двигаться модели агентов и охранников, имитируя реальные атаки. Подход позволяет подробно описывать функции, реакции и возможности системы на уровне ее элементов и задавать фактические параметры нарушителей и охранников, что обеспечивает точность и полноту анализа без упрощений или исключения важных деталей. На демонстрационных примерах показано, что оценки эффективности моделей защиты систем, полученные с помощью программного комплекса АКИМ, близки к оценкам эффективности моделей систем, построенных с помощью марковских цепей. При этом рассматриваемый метод построения имитационных моделей позволяет преодолевать трудности, связанные с использованием марковских цепей: необходимость использовать экспертные оценки коэффициентов матрицы переходов, матрицы большого размера, сложности модификации модели.
Сениченков Ю.Б. (senyb@mail.ru) - Санкт-Петербургский политехнический университет Петра Великого (доцент, профессор), доктор технических наук; Шарков И.К. (shark2.1@mail.ru) - Санкт-Петербургский политехнический университет Петра Великого (исследователь, ведущий разработчик);
9. Авторская метрика оценки близости программ: приложение для поиска уязвимостей с помощью генетической деэволюции[№1 за 2025 год] Авторы: Буйневич М.В. (bmv1958@yandex.ru) - Санкт-Петербургский университет Государственной противопожарной службы МЧС России (профессор, профессор кафедры), доктор технических наук; Израилов К.Е. (konstantin.izrailov@mail.ru) - Санкт-Петербургский Федеральный исследовательский центр РАН (доцент, старший научный сотрудник), кандидат технических наук; Аннотация: Актуальность темы статьи обусловлена наличием в сфере информационной безопасности задач, требующих сравнения программ в их различных представлениях, таких, как текстовый ассемблерный код (например, для поиска уязвимостей или подтверждения авторства). В работе представлена метрика близости двух текстов
в виде списка строк из символов, являющаяся развитием ее предыдущей версии. Основным результатом текущего исследования (как части главного, направленного на генетическую деэволюцию программ) являются сама метрика, а также ее характеристики и особенности, выявленные с помощью проведенных экспериментов. Метрика представлена в аналитическом виде, программно реализована на языке Python, принимает на вход два списка символьных строк для сравнения и коэффициенты учета позиции ее элементов от начала списка и последовательности символов. Результатом ее вычисления является числовое значение в диапазоне от 0 до 1. Новизна метрики заключается в достаточно точной и чувствительной оценке близости двух текстов независимо от форматов представления данных; текущая версия метрики отличается от предыдущей учетом указанных коэффициентов. Теоретическая значимость заключается в развитии способов сравнения произвольных текстов, представляющих собой список символьных строк, содержащих информацию, последовательно излагаемую согласно определенной логике
(что требует учета позиции). Помимо общего назначения сравнительных инструментов такого рода, практическая значимость метрики состоит в возможности определения близости двух программ, имеющих бинарное представление машинного кода, предварительно преобразованное в текстовое представление ассемблерного кода.
Abstract: The paper is relevant due to the tasks in the field of information security that require comparison of programs in their different representations, for example, in text assembly code (e.g., for vulnerability search or authorship verification). The paper presents a proximity metric for two texts in the form of a character string list, which is a development of its previous author's version. The main result of the current study (as a part of the main study aimed at genetic de-evolution of programs) is the metric itself, as well as its characteristics and peculiarities revealed through experiments. The paper presents the metric in analytical form implemented in Python. The metric takes at the input two lists of character lines for comparison, and the coefficients of taking into account the element position from the beginning of the list and the character sequence. The calculation result is a numeric value in the range from 0 to 1. Metric's novelty is in a sufficiently accurate and sensitive assessment of two texts' proximity regardless of data representation formats. The current metric version differs from the previous one by taking into account the mentioned coefficients. Theoretical significance lies in the development of comparing methods for arbitrary texts that are a list of character lines containing information, which appears sequentially according to a certain logic (requires position consideration). Besides the general purpose of comparative tools like this, the metric is practically relevant due to the possibility of determining the proximity of two programs. These programs have a binary representation of the machine code. It is pre-transformed into a textual representation of an assembly code.
Актуальность темы статьи обусловлена наличием в сфере информационной безопасности задач, требующих сравнения программ в их различных представлениях, таких, как текстовый ассемблерный код (например, для поиска уязвимостей или подтверждения авторства). В работе представлена метрика близости двух текстов
в виде списка строк из символов, являющаяся развитием ее предыдущей версии. Основным результатом текущего исследования (как части главного, направленного на генетическую деэволюцию программ) являются сама метрика, а также ее характеристики и особенности, выявленные с помощью проведенных экспериментов. Метрика представлена в аналитическом виде, программно реализована на языке Python, принимает на вход два списка символьных строк для сравнения и коэффициенты учета позиции ее элементов от начала списка и последовательности символов. Результатом ее вычисления является числовое значение в диапазоне от 0 до 1. Новизна метрики заключается в достаточно точной и чувствительной оценке близости двух текстов независимо от форматов представления данных; текущая версия метрики отличается от предыдущей учетом указанных коэффициентов. Теоретическая значимость заключается в развитии способов сравнения произвольных текстов, представляющих собой список символьных строк, содержащих информацию, последовательно излагаемую согласно определенной логике
(что требует учета позиции). Помимо общего назначения сравнительных инструментов такого рода, практическая значимость метрики состоит в возможности определения близости двух программ, имеющих бинарное представление машинного кода, предварительно преобразованное в текстовое представление ассемблерного кода.
Буйневич М.В. (bmv1958@yandex.ru) - Санкт-Петербургский университет Государственной противопожарной службы МЧС России (профессор, профессор кафедры), доктор технических наук; Израилов К.Е. (konstantin.izrailov@mail.ru) - Санкт-Петербургский Федеральный исследовательский центр РАН (доцент, старший научный сотрудник), кандидат технических наук;
10. Фреймворк для автоматизации прогнозирования остаточного ресурса оборудования при построении проактивных систем поддержки принятия решений[№1 за 2025 год] Авторы: Задиран К.С. (konstantin.zadiran@gmail.com) - Волгоградский государственный технический университет (студент); Волкова Д.А. (d_volkova@vstu.ru) - Волгоградский государственный технический университет (студент); Щербаков М.В. (maxim.shcherbakov@vstu.ru) - Волгоградский государственный технический университет (старший научный сотрудник), доктор технических наук; Аннотация: В статье описан фреймворк, разработанный для автоматизации исследований в области проектирования проактивных систем поддержки принятия решений. В частности, исследуется задача анализа и прогнозирования временных рядов с целью создания инструментов автоматизации прогнозирования различных процессов в системах управления активами, в том числе технического обслуживания и ремонта. Определена роль процессов автоматизации в управлении активами в этих системах. В работе выделены основные факторы, влияющие на выбор программы для реализации системы предиктивной аналитики. Предложен алгоритм решения задачи прогнозирования оставшегося срока службы на основе анализа данных о производственных активах с использованием компонентов искусственного интеллекта. Предлагаемое программное решение, основанное на CRISP-DM, не является отдельным программным продуктом и может быть встроено в существующее программное обеспечение, поддерживая возможность модификации методов. Фреймворк выполняет следующие функции: загрузка и предобработка данных, построение моделей прогнозирования, прогнозирование временных рядов, оценка прогноза. Разработанный фреймворк обладает гибкой модульной архитектурой для добавления новых методов анализа и прогнозирования. Возможность на основе имеющихся базовых классов переопределить и реализовать собственные источники данных, стадии предобработки, модели прогнозирования и метрики расширяет вариативность и повышает эффективность его функционирования. В статье приведен пример использования фреймворка для решения задачи анализа временных рядов и определения оставшегося срока службы оборудования, демонстрирующий эффективность разработанного продукта в области исследования данных и искусственного интеллекта.
Abstract: The paper describes a framework for automating research in designing proactive decision support systems.
In particular, it investigates the problem of time series analysis and prediction in order to create tools for automating prediction of various processes in asset management systems, including maintenance and repair. The authors identify the role of automation processes in asset management in these systems. They highlight the main factors influencing the choice of
a program to implement a predictive analytics system. The authors propose an algorithm for solving the problem of predicting remaining useful life based on analyzing production asset data using artificial intelligence components. The proposed software solution is based on CRISP-DM. It is not a separate software product and can be embedded in existing software to support the possibility of modifying methods. The framework loads and preprocesses data, builds predicting models, predicts time series and evaluates the forecast. The developed framework has a flexible modular architecture for adding new methods of analysis and predicting. The possibility to redefine and implement own data sources, preprocessing stages, forecasting models and metrics on the basis of existing base classes extends the variability and increases the efficiency of its functioning. There is the example of using the framework to solve the problem of analyzing time series and determining equipment remaining useful life. It demonstrates the efficiency of the developed product in the field of data exploration and artificial intelligence.
В статье описан фреймворк, разработанный для автоматизации исследований в области проектирования проактивных систем поддержки принятия решений. В частности, исследуется задача анализа и прогнозирования временных рядов с целью создания инструментов автоматизации прогнозирования различных процессов в системах управления активами, в том числе технического обслуживания и ремонта. Определена роль процессов автоматизации в управлении активами в этих системах. В работе выделены основные факторы, влияющие на выбор программы для реализации системы предиктивной аналитики. Предложен алгоритм решения задачи прогнозирования оставшегося срока службы на основе анализа данных о производственных активах с использованием компонентов искусственного интеллекта. Предлагаемое программное решение, основанное на CRISP-DM, не является отдельным программным продуктом и может быть встроено в существующее программное обеспечение, поддерживая возможность модификации методов. Фреймворк выполняет следующие функции: загрузка и предобработка данных, построение моделей прогнозирования, прогнозирование временных рядов, оценка прогноза. Разработанный фреймворк обладает гибкой модульной архитектурой для добавления новых методов анализа и прогнозирования. Возможность на основе имеющихся базовых классов переопределить и реализовать собственные источники данных, стадии предобработки, модели прогнозирования и метрики расширяет вариативность и повышает эффективность его функционирования. В статье приведен пример использования фреймворка для решения задачи анализа временных рядов и определения оставшегося срока службы оборудования, демонстрирующий эффективность разработанного продукта в области исследования данных и искусственного интеллекта.