На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
14 Июня 2026

Сегментация бинарных изображений на основе их кодирования отрезками разной длины

Segmentation of binary images based on run-length encoding with variable-length segments
Дата подачи статьи: 28.04.2025
Дата после доработки: 23.06.2025
Дата принятия к публикации: 27.06.2025
УДК: 004.932
Группа специальностей ВАК: 2.3.5. Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей (технические науки, физико-математические науки)
Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 088-097 ]
Аннотация:В данном исследовании описана разработка метода компрессии, позволяющего сокращать размер файлов без ухудшения точности сегментации. Научная новизна работы заключается в интеграции локальной адаптивной фильтрации и морфологической коррекции с четырьмя вариантами алгоритма сжатия RLE (классический, Foreground-Only, дифференциальный и Z-order) и в использовании оптимизационной функции Ctotal, одновременно учитывающей длину кода, время (де)кодирования и метрики качества (accuracy, IoU, Dice). Исследовано 50 гетерогенных масок (медицинских и синтетических). Перед кодированием применялись блочная пороговая фильтрация с автоматическим выбором порога и операции closing/opening, повышающие связность сегментов. Производительность схем сравнивали по средней экономии объема, IoU, Dice и CPU-времени. Оптимальное сочетание локальной фильтрации, морфологии и диференциального RLE уменьшило размер файлов на 25–40 % по сравнению с глобальной бинаризацией совместно со стандартным RLE, при этом контуры объектов сохранены (IoU = 0,85 – 0,92; Dice = 0,86 – 0,93). При редких объектах режим Foreground-Only давал наилучший компромисс, тогда как Z-order обеспечивал максимальное сжатие приблизительно в 3 % падения IoU. Методика применима в биомедицине, видеоаналитике и системах хранения карт глубины. Она позволяет настраивать параметры фильтрации и кодирования под конкретные ограничения пропускной способности и требований к точности.
Abstract:This research describes the development of a compression method that reduces file size without degrading segmentation accuracy. The scientific novelty of the work lies in the integration of local adaptive filtering and morphological correction with four variants of the Run-Length Encoding (RLE) algorithm (classical, Foreground-Only, differential, and Z-order) and in the use of an optimization function C_total, which simultaneously accounts for code length, (de)coding time, and quality metrics (accuracy, IoU, Dice). Fifty heterogeneous masks (medical and synthetic) were investigated. Prior to encoding, block-based threshold filtering with automatic threshold selection and closing/opening operations were applied to enhance segment connectivity. The performance of the schemes was compared based on average volume savings, IoU, Dice, and CPU time. The optimal combination of local filtering, morphological operations, and differential RLE reduced file sizes by 25–40% compared to global binarization combined with standard RLE, while preserving object contours (IoU = 0.85 – 0.92; Dice = 0.86 – 0.93). For sparse objects, the Foreground-Only mode provided the best compromise, while Z-order achieved the highest compression at the cost of approximately a 3% drop in IoU. The methodology is applicable in biomedicine, video analytics, and depth map storage systems. It allows for customizing filtering and encoding parameters to meet specific bandwidth constraints and accuracy requirements.
Авторы: Краснов А.Е. (krasnovmgutu@yandex.ru) - Российский государственный социальный университет (профессор, доцент), Москва, Россия, доктор физико-математических наук, Турчинский К.А. (turchinskii.kirill@gmail.com) - Российский государственный социальный университет (инженер-программист), Москва, Россия, Аспирант
Ключевые слова: сегментация, бинарные изображения, кодирование отрезками переменной длины, локальная адаптивная пороговая фильтрация, морфологическая постобработка, оптимизация сжатия
Keywords: segmentation, binary images, run-length encoding, local adaptive threshold filtering, morphological post-processing, compression optimization
Количество просмотров: 2144
Статья в формате PDF

Сегментация бинарных изображений на основе их кодирования отрезками разной длины

DOI: 10.15827/0236-235X.153.088-097

Дата подачи статьи: 28.04.2025

Дата после доработки: 23.06.2025

Дата принятия к публикации: 27.06.2025

УДК: 004.932

Группа специальностей ВАК: 2.3.5. Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей (технические науки, физико-математические науки)

Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 088-097 ]

В данном исследовании описана разработка метода компрессии, позволяющего сокращать размер файлов без ухудшения точности сегментации. Научная новизна работы заключается в интеграции локальной адаптивной фильтрации и морфологической коррекции с четырьмя вариантами алгоритма сжатия RLE (классический, Foreground-Only, дифференциальный и Z-order) и в использовании оптимизационной функции Ctotal, одновременно учитывающей длину кода, время (де)кодирования и метрики качества (accuracy, IoU, Dice). Исследовано 50 гетерогенных масок (медицинских и синтетических). Перед кодированием применялись блочная пороговая фильтрация с автоматическим выбором порога и операции closing/opening, повышающие связность сегментов. Производительность схем сравнивали по средней экономии объема, IoU, Dice и CPU-времени. Оптимальное сочетание локальной фильтрации, морфологии и диференциального RLE уменьшило размер файлов на 25–40 % по сравнению с глобальной бинаризацией совместно со стандартным RLE, при этом контуры объектов сохранены (IoU = 0,85 – 0,92; Dice = 0,86 – 0,93). При редких объектах режим Foreground-Only давал наилучший компромисс, тогда как Z-order обеспечивал максимальное сжатие приблизительно в 3 % падения IoU. Методика применима в биомедицине, видеоаналитике и системах хранения карт глубины. Она позволяет настраивать параметры фильтрации и кодирования под конкретные ограничения пропускной способности и требований к точности.
Краснов А.Е. (krasnovmgutu@yandex.ru) - Российский государственный социальный университет (профессор, доцент), Москва, Россия, доктор физико-математических наук, Турчинский К.А. (turchinskii.kirill@gmail.com) - Российский государственный социальный университет (инженер-программист), Москва, Россия, Аспирант
Ключевые слова: сегментация, бинарные изображения, кодирование отрезками переменной длины, локальная адаптивная пороговая фильтрация, морфологическая постобработка, оптимизация сжатия
Размер шрифта:
      Шрифт:
Ссылка скопирована!

Введение. Современные приложения в области компьютерного зрения, обработки медицинских данных, карт глубины и иных цифровых изображений нередко используют бинарные маски для решения задач сегментации. Такие маски могут достигать значительных размеров, особенно при высоком разрешении исходных снимков или при необходимости многократного хранения промежуточных этапов обработки. Известные методы кодирования на основе отрезков (Run-Length Encoding, RLE) [1, 2] позволяют существенно сократить избыточность бинарных данных, однако в реальных сценариях эффективность и степень сжатия зависят от структурных особенностей самих масок, а также от выбранного способа сегментации [3].

В ряде работ, например [4–6], предложены различные модификации RLE (например, Fore- ground-Only, Z-order), однако каждый метод проявляет себя по-разному на данных с неоднородным фоном, тонкими деталями или большим количеством разрозненных объектов. При этом прямое использование RLE без предварительного улучшения маски может привести  к потере эффективности сжатия или к искаже- нию контуров объектов. Следовательно, воз- никает проблема совмещения высокоточного способа сегментации и оптимального кодирования полученных бинарных масок.

Отдельного внимания заслуживают методы локальной пороговой фильтрации и морфологической обработки (closing, opening и др.), позволяющие повысить связность сегментируемых областей и избавиться от шумов [3, 5]. Интеграция таких методов в конвейер формирования бинарной маски способна улучшить структуру результирующего изображения и, как следствие, повысить эффективность кодирования отрезками. Однако авторами не обнаружено детальное математическое обоснование выбора оптимального варианта RLE в сочетании с методами локальной пороговой фильтрации, поскольку требуется всесторонний учет параметров фильтрации, метрик точности (accuracy, IoU, Dice) и степени сжатия.

Таким образом, существует потребность  в комплексном исследовании, направленном на анализ различных схем кодирования бинарных изображений, включая их математическое обоснование и количественную оценку выгод от использования локальных методов фильтра- ции. Решение этой задачи имеет существенное прикладное значение, поскольку позволяет более эффективно хранить и обрабатывать большие массивы бинарных данных (биомедицинские изображения, маски сегментации в системах видеоаналитики и т.п.) [2, 3, 7].

Постановка задачи предполагает формирование формальной модели, которая позволит учитывать особенности структуры бинарных масок и определять оптимальный способ их кодирования отрезками разной длины. Требуется обосновать, каким образом изменение характеристик бинарного изображения (включая плотность и расположение объектов) влияет на выбор варианта RLE, а также как процедуры локальной пороговой фильтрации и морфологии отражаются на результатах сжатия и точности сегментации. Необходима количественная оценка взаимосвязи между объемом сжатых данных  и сохранением контура объекта, включая показатели accuracy, IoU и Dice.

В процессе исследования решаются следующие задачи:

-   построение математического описания пробеговых кодов с учетом их структуры  и принципов формирования бинарной маски;

-   анализ параметров локальной пороговой фильтрации и морфологической постобработки, влияющих на форму сегментируемых областей;

-   проверка эффективности различных вариантов RLE – стандартный, Foreground-Only, дифференциальный (DRLE), Z-order (Morton-перестановка) – в зависимости от структуры маски;

-   разработка комплексного метода выбора оптимальной конфигурации сегментации и кодирования, который учитывает качество и размер итогового представления.

Активное развитие задач компьютерного зрения, включая распознавание форм и анализ сцен, привело к появлению разнообразных способов уменьшения объема двоичных карт. Технология RLE, имеющая широкое применение благодаря простоте реализации, представляет изображение в виде набора пробегов одинаковых значений [1, 2, 6]. При работе с двоичным массивом p Î {0,1}N, где N равно произведению размеров исходного снимка, классическая схема кодирования строится на последовательном подсчете длины каждого фрагмента, наполненного битами 0 или 1. Пусть rk – число повторяю- щихся элементов (пробег); νk – соответствующее значение пикселя, также пусть сформировано всего K таких пар. Тогда итоговое представление R можно записать в виде

Когда преобладает фон и объекты редки, стандартное RLE способно экономить значительное пространство, но множественные разрозненные детали могут приводить к увеличению числа коротких пробегов, что уменьшает общую эффективность. На рисунке 1 показано, насколько различается длина кода одной и той же маски при четырех вариантах RLE.

Очевидно, что уход от классического построчного пробега уже дает приблизительно 30 % экономии.

Схема Foreground-Only [2] учитывает только области с пикселями 1, игнорируя скопления нулей. Вектор преобразуется в структуру, где фиксируются интервалы (sj, lj), обозначающие начало и длину очередной непрерывной последовательности единиц. Такая запись удобна, когда бинарная карта содержит небольшое число отдельных кластеров. При этом формаль- ное описание кодирования Foreground-Only сводится к поиску всех позиций n-векторного представления, где p[n] = 1, и дальнейшему группированию этих позиций в смежные участки. Если G – совокупность индексов, в которых элемент равен 1, то любую последовательную подпоследовательность

с условием gk+1 = gk +1 оформляют в виде одного пробега (sj, lj). Так создается компактное описание, когда фон преобладает в большинстве фрагментов изображения.

Схема DRLE [7] пытается устранить корреляцию между последовательными пробегами  и хранит не абсолютные длины, а их изменения, что снижает вариативность кодируемых чисел. Предположим, что стандартная последовательность RLE имеет набор пар {(r1, ν1), (r2, ν2), …, (rk, νk)}. При переходе к дифферен- циальной записи появляется цепочка {(r1, ν1), (d2, ν2), …, (dk, νk)}, где dk = rk – rk – 1 (для k ≥ 2). Если маска содержит устойчиво повторяющиеся блоки, то диапазон чисел {dk} становится уже, и сжатие может улучшиться после дополнительной упаковки [2, 5, 8].

Применение Z-order [4, 6], при котором пиксели обходятся нестрого по строкам, а следуют логике попеременного чередования координатных битов, добавляет иной ракурс на структуру двоичного поля. Построение такого порядка основывается на идее разложения координат точки (x, y) по разрядам:

где & – это побитовое «и»; << – сдвиг числа влево; m – бинарная карта, задающая верхнюю границу числа разрядов. Пиксели в выход- ном массиве упорядочиваются по возрастанию mr(x, y), формируя длинные однородные цепочки в пространственно близких регионах. Визуальное сравнение трех порядков обхода (row‑major (построчный), Z‑order, Hilbert) пред- ставлено на рисунке 2.

Показано, что методы Z‑order и Hilbert группируют соседние пиксели гораздо лучше, чем построчный обход, что потенциально сокращает число пробегов.

Параллельно с этими способами существует класс методов, где добавляются иерархические или блочные структуры [3, 9]. Там бинарные карты разбивают на прямоугольные сегменты, каждый из которых кодируют отдельно.

В работах [5, 7] подчеркивается, что корректная предварительная обработка (морфология, фильтрация) может повысить однородность объектов, чем упростит задачу RLE. Закрытие мелких пробелов объединяет соседние компоненты и увеличивает вероятность формирования длинного пробега.

Обзор достижений и публикаций

Эффективность кодирования напрямую зависит от того, насколько бинарная маска свободна от шумовых вкраплений, разрывов  и мелких артефактов. Предварительная обработка глобальным порогом быстро теряет точность на неравномерно освещенных сценах. Для таких случаев в [1] предложено двухэтапное адаптивное пороговое сегментирование: сначала грубая глобальная оценка, затем локальная коррекция по контрасту, в следствие которого отмечается прирост F-measure до 7 % на низкоконтрастных аэрофотоснимках. В работе [6] авторы интегрировали локальный контраст с морфологической реконструкцией, увеличив пиковое отношение сигнала к шуму документов на 2–3 дБ без заметного роста времени обработки. В обзоре [5] подчеркивается, что гибридные схемы локальный порог + морфология сегодня являются де-факто стандартом для сложных исторических рукописей. В настоящей работе авторы придерживаются той же парадигмы, совмещая блочную адаптивную фильтрацию и closing/opening.

Даже после тонкой бинаризации отдельные пиксельные шумы и неполные границы ухудшают связность объектов и тем самым увеличивают число коротких серий в RLE-коде.  В работе [3] показано, что целевая морфологическая коррекция (дилатация + эрозия с адаптивным ядром) уменьшает количество ложных граней бактериальных клеток, повышая площадь перекрытия (IoU) на 9 % по сравнению  с вариантом без постобработки. Похожие выводы приводятся в [7]: алгоритм структурного сглаживания дает до 12 % экономии на размере RLE-файла за счет более длинных серий.  В настоящей работе используется близкий прием, но авторы дополнительно оптимизируют параметр размера ядра по критерию Ctotal.

Базовое построчное RLE по-прежнему популярно, при этом активно развиваются его улучшенные версии.

– ΔRLE (delta + bit-level): кодирует серии разностей между соседними значениями, достигая выигрыша в 19 % на синтетических масках с повторяющимися шаблонами [2].

– DRLE: на гиперспектральных объемах показано, что дифференциальная запись длин  в сочетании с предиктивным сохранением знака уменьшает поток данных на 17 % при равной скорости декодирования [2].

– Z-order: при транслировании 2D-маски в кри- вую Мортона для компактного хранения разреженных карт на картографическом датасете достигнуто уменьшение размера относительно классической построчной схемы в 28 % [9].

В представленном исследовании задействованы все четыре перечисленных варианта – классический, Foreground-Only, DRLE и Z-order, что позволяет напрямую сравнить их на одном и том же наборе масок.

Совместная оптимизация препроцессинга  и кодирования подробно описана в [9]. Авторы доказали, что правильный выбор порядка операций (closing/opening) RLE дает 14 % экономии без потери IoU. Предложенный метод продолжает эту линию, но добавляет автоматический подбор порога и комплексный критерий, учитывающий время (де)кодирования.

Для медицинских изображений практическую полезность подобной связки подтверждает работа [4]: в ARCUNet бинарные маски предварительно сглаживаются, затем сохраняются как RLE-строки внутри JSON-метадан- ных. Такая стратегия уменьшила время обучения сети примерно в 1,3 раза при сохранении показателей точности сегментации кожных поражений.

Анализ рассмотренных работ показывает устойчивый переход от применения исключительно RLE к комбинированным схемам, включающим этапы предварительной обработки (адаптивная бинаризация, морфологическая коррекция) и последующее кодирование. Тем не менее остается нерешенным вопрос, как фор- мально взвешивать три конкурентных фактора: степень сжатия, качество сегментации (IoU/Dice) и вычислительные затраты. Ни одна из рассмо- тренных публикаций не предлагает единого многокритериального показателя, позволяющего автоматически выбирать сочетание параметров фильтрации и варианта RLE, удовлетворяющее заданным ограничениям.

Заполнить этот пробел – цель данной работы: авторы вводят комплексную функцию Ctotal, тестируют четыре варианта RLE на 50 гетерогенных масках и количественно показывают, при каких условиях каждая схема ока- зывается предпочтительней. Таким образом,  исследование одновременно актуализирует тен- денции последних лет и вносит научную новизну, формируя универсальный критерий  выбора.

Метод исследования

Сформулирован строгий критерий оптимизации при кодировании бинарных данных, которое предполагает задание функционала, учитывающего величину сжатого представления, вычислительные затраты на упаковку и распаковку, а также качество итоговой маски с точки зрения сохранения ключевых контуров. Пусть m Î {0, 1}H´W обозначает результирующую карту размером H × W, сформированную после сегментации. Необходимо выразить суммарную стоимость кодирования Ctotal как комбинацию длины записи l, оценок точности (accuracy, IoU, Dice), а также времени, которое затрачивается на процедуру (де)кодирования.

Подобный подход часто реализуется, если конечная цель заключается в поиске компромисса между степенью компрессии и стабильностью восстановления структур объектов [8].

Пусть lstd (m), lfg (m), ldrle (m), lz (m) отражают размеры данных при кодировании стандартным RLE, Foreground-Only, DRLE и Z-order-подходом соответственно. Пусть τenc(m) и τdec(m) характеризуют время (де)кодирования, при этом предполагается, что каждый метод дает различные значения для τenc и τdec. В качестве фундаментальной метрики качества будем рассматривать Dice-показатель D(m, mref), сопоставляющий полученную карту с эталонной mref. Модель может включать дополнительное слагаемое, связанное с сохранением точных контуров:

где A Î {std, fg, drle, z} означает выбранный способ упаковки; коэффициенты γ1, γ2, γ3, γ4 определяют вклад каждого фактора и отражают практические приоритеты системы. Формально для каждого изображения необходимо найти способ (A), минимизирующий Ctotal. Требуется уточнить, что m, возникает на выходе процесса локальной пороговой фильтрации  и морфологического преобразования. Эти операции могут менять форму и размер объектов, тем самым изменяя длину кода lA(m). Поэтому стоит расширить модель, учитывая параметры блоковой фильтрации, которые задаются вектором θ, и морфологической обработки, задаваемой Φ.

Оптимизационная задача может быть решена перебором или аналитическими методами, если заданы упрощающие допущения  о структуре маски [1]. Прямой перебор оце- нивает разные θ, Ф (блоки, пороги, размеры структурирующего элемента) и методы A, чтобы определить минимальное значение Ctotal. Предполагается, что итоговый выбор подходит именно к текущему классу изображений, поскольку слишком универсальное решение часто снижает качество кодирования. Параметр γ4 подбирают таким образом, чтобы штраф за потерю точности доминировал над выигрышем  в длине, если приоритетом является сохранение контуров. В некоторых сценариях γ4 уменьшают, когда легкая деформация формы объекта не критична, а ограниченные ресурсы памяти важнее [4].

Дополнительные метрические функции (accuracy, IoU) могут входить в обобщенную форму. Тогда общий критерий дополняется новыми слагаемыми, например –γ5IoU(m(θ, Φ), mref), если задача требует определенного уровня пересечения масок. Учет нескольких метрик возможно реализовать путем сведения их к одному числу через взвешенную сумму, когда каждая компонента отражает вклад конкретного аспекта (степень сжатия, время, границы объектов). Формально

где дополнительные слагаемые (например, по accuracy/IoU) вводятся при необходимости, здесь использованы Dice и IoU (и при анализе – accuracy).

Вычислительная стоимость τenc и τdec обыч- но оценивается экспериментально на основе скорости обработки конкретных реализаций кода. Теоретические оценки сложности показывают, что стандартный RLE требует O(N) операций для линейного обхода данных,  a DRLE предполагает лишь небольшой дополнительный шаг по вычитанию. Morton-перестановка может добавлять затраты О(N log N),  поскольку пиксели перестраиваются согласно  порядку morton(x, y). Эти различия отражаются в конкретном виде функции τenc, A(m(θ, Φ)) [3].

Предложенная модель дает формальную базу, где каждая конфигурация θ, Φ, A оценивается по единому критерию, учитывающему длину кода, время на упаковку и точность формы объекта.

Основным преимуществом является гибкость в выборе весовых коэффициентов и учет реальных метрик, которые важны для прикладной задачи. Такая постановка подходит для множества сфер, где необходимы сегментация и хранение больших объемов бинарных изображений: микроскопия, системы машинного зрения и картографические приложения.

Обработка двоичных масок, формируемых после простой глобальной пороговой процедуры, нередко сопровождается появлением шума или пропуском тонких деталей. Значительная часть методов, относящихся к глобальному бинарному преобразованию, опирается на единый порог, вычисленный из общей статистики кадра, что трудно применимо к изображениям с неоднородным фоном и варьирующейся яркостью. Локальная стратегия, базирующаяся на делении снимка на непересекающиеся блоки, решает эту проблему за счет выбора собственного порога для каждой ячейки с учетом ее яркостной и контрастной составляющих [5]. Бинаризация данного формата лучше адаптируется к локальным особенностям тканей или объектов, тем самым увеличивается непрерывность областей и улучшается позиционирование краев. Более корректная идентификация контуров отражается на структуре пробегов при кодировании: длинные участки, заполненные единицами или нулями, появляются чаще, что увеличивает коэффициент сжатия [4]. Пример пошагового преобразования, представленный на рисунке 3, показывает, как локальный порог и морфологическое закрытие устраняют градиентный фон и заполняют пробелы в объекте, формируя компактную и связную бинарные маски.

Снижение фрагментации и упорядочение регионов дополнительно достигается морфологическими операциями, которые корректи- руют форму объектов, сохраняя их топологию. Закрытие устраняет мелкие разрывы, зазоры  и пробелы внутри целостных областей, позволяя объединять расположенные рядом пиксели в общий кластер. Открытие, напротив, убирает мелкие шумовые фрагменты, которые могут исказить форму и повлиять на качество коди-рования [3]. Эти операции описываются посредством базовых действий эрозии (⊖) и дила- тации (⊕). Полезный эффект достигается тем, что после подобной коррекции кодирование отрезками (RLE, DRLE или Foreground-Only) получает более протяженные последовательности однородных значений, так как лишние мелкие вкрапления исчезают, а смежные зоны сливаются в единые блоки. Способ Z-order [6] еще сильнее подчеркивает эту связанность, ведь пространственные соседи, объединенные морфологией, переносятся в соседние позиции упорядоченного массива. Уточнения, представ- ленные в [1, 5, 7], доказывают важность рассмотрения морфологии в едином контексте  с методами RLE, поскольку присутствие даже небольших шумовых элементов может приводить к множественному увеличению числа коротких пробегов и уменьшению эффекта сжатия.

Другая существенная причина применения локальной пороговой фильтрации вкупе с морфологическими преобразованиями связана  с тем, что результат искажения контуров при глобальной бинаризации может приводить  к нарушениям формы целевых областей. Полезная информация в контуре объектов сохраняется лучше, если каждый фрагмент изображения анализируется отдельно, а возможные пропуски в силу вариаций освещенности блокируются на этапе морфологических действий. В исследованиях [2, 9] показано, что коррект- ные границы сегментируемых зон позволяют достичь более высоких показателей IoU и Dice, особенно при наличии неоднородного фона.  К тому же вероятность исказить диагностически важные участки, например, при анализе медицинских данных, снижается за счет детального учета особенностей каждого блока.

Описание экспериментов  и их результаты

Практическая значимость описанных исследований во многом определяется способностью методов сегментации и кодирования сохранять значимую структуру бинарных объектов при умеренном объеме конечных файлов. Для проверки теоретических положений и анализа поведения различных вариантов RLE  в условиях локальной пороговой фильтрации был выбран набор тестовых бинарных карт, включающих изображения с неоднородным фоном и варьирующимися размерами сегментируемых фрагментов. Каждая маска представляла результат первичной сегментации либо синтетической модели, либо реального снимка, где контролировалось соотношение площади объекта к площади фона.

В ходе экспериментов применялось несколько конфигураций локальной пороговой фильтрации. Использовались блоки разной величины для учета возможной крупной неоднородности или, наоборот, мелких локальных перепадов. При тестировании рассматривались все описанные ранее RLE-методы: стандартный, построчный, Foreground-Only, DRLE и Z-order. Проверка точности воспроизведения контура осуществлялась через Dice-метрику и IoU,  а также учитывались accuracy и структурная близость к эталонной маске. В дополнение  к этому фиксировался объем файлов после сжатия с помощью zlib со стандартным уровнем. Совокупные результаты представлены на рисунке 4: точка каждого алгоритма показывает компрессию относительно Dice‑метрики; оптимальный баланс в наборе дают стандартное RLE и DRLE, тогда как Z‑order выигрывает  в степени сжатия ценой небольшого падения точности.

Подготовительные опыты показали, что  у изображений, насыщенных шумовой компонентой, стандартное RLE может приводить  к заметно увеличенным записям, поскольку короткие пробеги повторяются многократно. Аналогичное поведение наблюдалось в тех сценариях, где не была оптимизирована локальная пороговая фильтрация или отсутствова- ла морфологическая обработка, а поверхность маски оставалась сильно фрагментированной. Усиление блоковой фильтрации и корректирующих операций часто объединяло близко- расположенные пиксели, что создавало более протяженные участки единиц и нулей и уменьшало риск многократных переключений значений.

Многочисленные эксперименты с адаптивным порогом и разными размерами структурирующего элемента подтвердили гипотезу о том, что грамотная локальная фильтрация дает  заметно более компактные записи при кодировании RLE, если выбранная морфология корректирует лишние детали без сильного изменения важных контуров. Morton-перестановка иногда давала противоположные результаты: на некоторых наборах данных наблюдалось укрупнение пробегов и повышение степени компрессии, но при сложной структуре объекта, состоящего из множества изолированных элементов, Z-порядок мог повышать число переключений. Схема DRLE оказывалась эффективной в ситуациях, где длины пробегов были достаточно стабильны от одного переключения к следующему. Подход Foreground-Only демонстрировал сильную зависимость от того, занимают ли объекты большую часть изображения или нет. Если фон преобладал, то, напротив, Foreground-Only мог выдавать крайне короткий итоговый объем, особенно при наличии всего нескольких скоплений сегментируемых точек. Однако при распределении объектов по всей площади маски данный прием занимал много места, так как требовалось хранить интервалы для каждого мелкого фрагмента.

Сопоставление результатов показало, что комплексный метод, включающий блоковую пороговую фильтрацию и морфологию, приводил к наилучшему сочетанию точности и мини- мального размера, когда дополнительно использовалось стандартное кодирование или DRLE. В большинстве примеров наблюдалось выгодное соотношение длины кодированной записи и сохранения формы объекта, подтвержденное высокими значениями Dice и IoU. Улучшение этих показателей указывало на снижение количества ложноположительных  и ложноотрицательных зон, вызванных некачественной пороговой обработкой или недоучетом локальных деталей.

Анализ результатов

Эксперименты выполнены на 50 бинарных масках (25 медицинских, 25 синтетических), каждая размером 2 048 × 2 048 пикселей. Для четырех схем кодирования (см. табл.) измерялись такие характеристики: относительное уменьшение размера файла по сравнению со стан- дартным RLE – S; качество совпадения с эталон- ной маской – IoU, Dice; среднее время кодирования (10-кратный замер на CPU i7-12700) – Tenc.

Значения приведены как среднее ± σ, где σ – стандартное отклонение по 50 маскам.

Статистическая проверка. Однофакторный дисперсионный анализ показал значимое влияние типа кодирования на S (p < 0,001)  и IoU (p = 0,013). Парные t-тесты с поправкой Бонферрони дали следующие результаты: DRLE vs Classic: Cohen’s d = 1,04 (крупный эффект) по S, d = 1,47 по IoU; Morton-RLE vs DRLE: d = 0,58 (средний) по S, d = –1,22 (отрицательный эффект) по Tenc.

Обсуждение

Полученные данные подтверждают, что комбинация локальной пороговой фильтрации + морфологии + выбор подходящей RLE-схемы критична для масок с мелкими объектами.

Качество маски важно не меньше схемы кодирования. Предварительные операции closing/ opening увеличили среднюю длину серий на 18 %, что напрямую отразилось на S всех схем.

Вариант DRLE стал универсальным компромиссом. При умеренной плотности объектов (маски медицинских снимков) DRLE дал максимальный выигрыш по S (≈ 31 %) без ухудшения IoU (рост на ≈ 5 пунктов). Выигрыш объясняется дифференцированным хранением длин, что особенно эффективно при чередовании коротких и длинных серий.

Z-order подходит для кластерных структур. На синтетических масках с плотными кластерами он достигал  снижения размера на 40 %, но время кодирования возрастало на 50 % из-за обхода по кривой Мортона.

Foreground-Only уместен при преобладании фона. Если объекты занимают менее 5 % площади (5 снимков из комплекта), он давал лучшую компрессию при минимальном Tenc.

В данной работе приняты определенные ограничения: скорость кодирования замерялась на CPU, при GPU-реализации Z-order может оказаться быстрее; маски более 16 Мпикс не тестировались.

На основании изложенного можно сделать практический вывод о том, что при внедрении в реальном хранилище достаточно автоматизировать выбор: если доля foreground менее 5 % – Foreground-Only; при кластерном распределении – Z-order; в остальных случаях – DRLE  с автоматическим подбором порога и ядра морфологии. Такое правило минимизирует Ctotal, что подтверждено приведенными статистическими данными.

Заключение

Комплекс теоретических и экспериментальных исследований демонстрирует значимость сочетания локальной адаптивной пороговой фильтрации с корректирующими морфологическими действиями при формировании бинарных масок, которые затем подвергаются кодированию отрезками разной длины. Обоснование выбора RLE-алгоритма с учетом структуры маски и свойств сегментированных объектов показывает, что стандартное кодирование или DRLE обеспечивает высокую компрессию в тех случаях, когда морфология устраняет шумовые вкрапления и объединяет соседние пиксели  в непрерывные регионы. Подходы Z-order и Fo- reground-Only хорошо себя проявляют при специальной конфигурации объектов или при существенном преобладании фона, однако эффективность заметно зависит от расположения  сегментированных фрагментов и степени их фрагментированности.

Математическая модель, учитывающая в общем виде длину кодированной записи, затраты на упаковку и распаковку, а также метрики точности, имеет перспективы для дальнейших исследований, поскольку позволяет подобрать оптимальный вариант кодирования и конфигурации фильтрации в зависимости от конкретных требований к объему хранения или сохранению контурной информации. Примерные рас- четы подтверждают, что грамотно выбранная стратегия морфологических операций напрямую влияет на формирование более протяженных пробегов единиц и нулей, а значит и на  конечную длину RLE-записи. Полученные результаты особенно перспективны в областях, где имеется большое число однотипных изображений, требующих долговременного хранения или быстрой передачи. Учет нескольких критериев качества и производительности создает гибкую основу для разработки систем,  в которых важны не только показатели компрессии, но и сохранение аутентичности структур, отражающих реальные объекты внутри бинарной карты.

Список литературы

1. Song J., Jiao W., Lankowicz K.M. et al. A two-stage adaptive thresholding segmentation for noisy low-contrast images. Ecological Informatics, 2022, vol. 69, art. 101632. doi: 10.1016/j.ecoinf.2022.101632.

2. Madoš B., Bilanovič A., Hrutuk M. ΔRLE: Lossless data compression algorithm using delta transformation and optimized bit-level run-length encoding. JIOS, 2021, vol. 45, no. 1, pp. 329–349. URL: https://jios.foi.hr/index.php/jios/article/view/1533 (дата обращения: 12.04.2025). doi: 10.31341/jios.45.1.15.

3. Abeyrathna D., Rauniyar S., Sani R.K., Huang P. A morphological post-processing approach for overlapped segmentation of bacterial cell images. Mach. Learn. Knowl. Extr., 2022, vol. 4, no. 4, pp. 1024–1041. doi: 10.3390/make4040052.

4. Soni T., Gupta S., Almogren A. et al. ARCUNet: Enhancing skin lesion segmentation with residual convolutions and attention mechanisms for improved accuracy and robustness. Scientific Reports, 2025, vol. 15, art. 9262. doi: 10.1038/s41598-025-09262.

5. Yang Z., Zuo S., Zhou Y. et al. A review of document binarization: Main techniques, new challenges, and trends. Electronics, 2024, vol. 13, no. 7, art. 1394. doi: 10.3390/electronics13071394.

6. Castellanos F.J., Gallego A.-J., Calvo-Zaragoza J. Unsupervised neural domain adaptation for document image binarization. Pattern Recognition, 2021, vol. 119, art. 108099. doi: 10.1016/j.patcog.2021.108099.

7. Alamoodi A.H., Zaidan B.B., Al-Masawa M. et al. Multi-perspectives systematic review on the applications of sentiment analysis for vaccine hesitancy. Comput. in Biology and Medicine, 2021, vol. 139, art. 104957. doi: 10.1016/j.compbiomed.2021.104957.

8. Турчинский К.А., Краснов А.Е. Автоматизация обработки изображений биологических клеток // Информатика, телекоммуникации и управление. 2025. Т. 18. № 3. С. 36–45.

9. Poriev V. Some aspects of improvement of the run length encoding compression method. Inf., Comput. and Intell. Syst. J., 2024, no. 4, pp. 47–59. doi: 10.20535/2786-8729.4.2024.292118.

References

1. Song, J., Jiao, W., Lankowicz, K.M. et al. (2022) ‘A two-stage adaptive thresholding segmentation for noisy low-contrast images’, Ecological Informatics, 69, art. 101632. doi: 10.1016/j.ecoinf.2022.101632.

2. Madoš, B., Bilanovič, A., Hrutuk, M. (2021) ‘ΔRLE: Lossless data compression algorithm using delta transformation and optimized bit-level run-length encoding’, JIOS, 45(1), pp. 329–349, available at: https://jios.foi.hr/index.php/jios/article/view/1533 (accessed April 12, 2025). doi: 10.31341/jios.45.1.15.

3. Abeyrathna, D., Rauniyar, S., Sani, R.K., Huang, P. (2022) ‘A morphological post-processing approach for overlapped segmentation of bacterial cell images’, Mach. Learn. Knowl. Extr., 4(4), pp. 1024–1041. doi: 10.3390/make4040052.

4. Soni, T., Gupta, S., Almogren, A. et al. (2025) ‘ARCUNet: Enhancing skin lesion segmentation with residual convolutions and attention mechanisms for improved accuracy and robustness’, Scientific Reports, 15, art. 9262. doi: 10.1038/s41598-025-09262.

5. Yang, Z., Zuo, S., Zhou, Y. et al. (2024) ‘A review of document binarization: Main techniques, new challenges, and trends’, Electronics, 13(7), art. 1394. doi: 10.3390/electronics13071394.

6. Castellanos, F.J., Gallego, A.-J., Calvo-Zaragoza, J. (2021) ‘Unsupervised neural domain adaptation for document image binarization’, Pattern Recognition, 119, art. 108099. doi: 10.1016/j.patcog.2021.108099.

7. Alamoodi, A.H., Zaidan, B.B., Al-Masawa, M. et al. (2021) ‘Multi-perspectives systematic review on the applications of sentiment analysis for vaccine hesitancy’, Comput. in Biology and Medicine, 139, art. 104957. doi: 10.1016/j.compbiomed.2021.104957.

8. Turchinsky, K.A., Krasnov, A.Ye. (2025) ‘Automation of biological cell image processing’, Computing, Telecommunications and Control, 18(3), pp. 36–45 (in Russ.).

9. Poriev, V. (2024) ‘Some aspects of improvement of the run length encoding compression method’, Inf., Comput. and Intell. Syst. J., (4), pp. 47–59. doi: 10.20535/2786-8729.4.2024.292118.


Постоянный адрес статьи:
http://www.swsys.ru/index.php?page=article&id=5228&lang=
Версия для печати
Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 088-097 ]

Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 088-097 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Возможно, Вас заинтересуют следующие статьи схожих тематик: