На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
16 Декабря 2025

Обучение нейронной сети для персонализированной генерации изображений лиц с помощью Stable Diffusion

Zero-shot personalized image generation with Stable Diffusion: Training a neural network
Дата подачи статьи: 27.06.2024
Дата после доработки: 01.10.2024
Дата принятия к публикации: 03.10.2024
УДК: 004.032.26
Группа специальностей ВАК: 2.3.8.
Статья опубликована в выпуске журнала № 2 за 2025 год. [ на стр. 280-286 ]
Аннотация:В настоящей статье предложен метод обучения дополнительных модулей для модели Stable Diffusion с целью решения задачи персонализированной генерации лиц. Метод позволяет применять основную диффузионную модель совместно с обученными модулями в режиме инференса на новых данных без какого-либо дообучения элементов модели под каждый отдельный пример. Обученные модели дают возможность генерировать изображения лиц с сохранением идентичности человека с референсного изображения. Они способны не только сохранять положение лица в кадре, но и использовать референсное фото для задания положения лица в кадре, при этом изменяя его стилистику и окружение согласно введенному текстовому запросу. В статье приведены детали процесса обучения, такие как сбор, фильтрация и обработка данных для дообучения, архитектура обучаемых нейросетевых модулей, использование общедоступных предобученных нейронных сетей для извлечения признаковых представлений входных изображений, метод аугментации данных для улучшения робастности модели и лучшей модифицируемости лицевых изображений на генерациях, а также модифицированная функция потерь. Сравнительный анализ генераций, полученных обученной моделью и моделями из конкурентных работ на фиксированном наборе текстовых запросов и входных изображений лиц, продемонстрировал существенное превосходство обученной модели над конкурентами. Рассматривались такие метрики, как косинусная близость сгенерированных изображений к соответствующим текстовым запросам (CLIP text-image score), косинусная близость между шаблонами лиц, извлеченных со сгенерированных изображений и с входных изображений. Также показаны результаты генераций, демонстрирующие повышенное качество генераций обученной модели по сравнению с конкурентными моделями.
Abstract:The paper proposes a method for training additional modules for the Stable Diffusion model in order to solve the problem of personalized face generation. The method allows applying the basic diffusion model together with trained modules in the inference mode on new data without additional training of model elements for each separate example. The trained models make it possible to generate face images while preserving the identity of the person from a reference image. They not only preserve the face position in the frame, but also use a reference photo to set a face position in the frame while changing its style and environment according to the entered text query. The paper provides following details of the training process: collection, filtering and processing of pre-training data, the architecture of the trained neural network modules, the use of publicly available pre-trained neural networks for extracting feature representations of input images, a data augmentation method to improve the model robustness and the modifiability of face images on generations, and a modified loss function. A com-parative analysis of the generations produced by the trained model and models from competitive works on a fixed set of text queries and input face images has demonstrated the significant superiority of the trained model over competitors. The authors considered such metrics as cosine proximity of generated images to the corresponding text queries (CLIP text-image score), cosine proximity between face templates extracted from generated images and from input images. There are also generation results demonstrating the improved generation quality of the trained model compared to competitive models.
Авторы: Лившиц Г.Б. (kpebedkoz@gmail.com) - Пензенский государственный университет, Пенза, Россия
Ключевые слова: нейросетевая модель, диффузионная модель, генерация изображений по текстовому запросу, генерация лиц, персонализированная генерация
Keywords: a neural network, diffusion model, image generation by text query, face generation, personalized generation
Количество просмотров: 1259
Статья в формате PDF

Обучение нейронной сети для персонализированной генерации изображений лиц с помощью Stable Diffusion

DOI: 10.15827/0236-235X.150.280-286

Дата подачи статьи: 27.06.2024

Дата после доработки: 01.10.2024

Дата принятия к публикации: 03.10.2024

УДК: 004.032.26

Группа специальностей ВАК: 2.3.8.

Статья опубликована в выпуске журнала № 2 за 2025 год. [ на стр. 280-286 ]

В настоящей статье предложен метод обучения дополнительных модулей для модели Stable Diffusion с целью решения задачи персонализированной генерации лиц. Метод позволяет применять основную диффузионную модель совместно с обученными модулями в режиме инференса на новых данных без какого-либо дообучения элементов модели под каждый отдельный пример. Обученные модели дают возможность генерировать изображения лиц с сохранением идентичности человека с референсного изображения. Они способны не только сохранять положение лица в кадре, но и использовать референсное фото для задания положения лица в кадре, при этом изменяя его стилистику и окружение согласно введенному текстовому запросу. В статье приведены детали процесса обучения, такие как сбор, фильтрация и обработка данных для дообучения, архитектура обучаемых нейросетевых модулей, использование общедоступных предобученных нейронных сетей для извлечения признаковых представлений входных изображений, метод аугментации данных для улучшения робастности модели и лучшей модифицируемости лицевых изображений на генерациях, а также модифицированная функция потерь. Сравнительный анализ генераций, полученных обученной моделью и моделями из конкурентных работ на фиксированном наборе текстовых запросов и входных изображений лиц, продемонстрировал существенное превосходство обученной модели над конкурентами. Рассматривались такие метрики, как косинусная близость сгенерированных изображений к соответствующим текстовым запросам (CLIP text-image score), косинусная близость между шаблонами лиц, извлеченных со сгенерированных изображений и с входных изображений. Также показаны результаты генераций, демонстрирующие повышенное качество генераций обученной модели по сравнению с конкурентными моделями.
Лившиц Г.Б. (kpebedkoz@gmail.com) - Пензенский государственный университет, Пенза, Россия
Ключевые слова: нейросетевая модель, диффузионная модель, генерация изображений по текстовому запросу, генерация лиц, персонализированная генерация
Размер шрифта:
      Шрифт:
Ссылка скопирована!

Введение. В последнее время наблюдается существенное развитие технологий генерации изображений, чему способствовало появление моделей для генерации изображений по текстовому запросу, основанных на диффузионных моделях. Их наиболее яркие представители – GLIDE, Imagen, Dall-E 2, Stable Diffusion, Raphael и eDiff-I. Одним из приложений таких моделей является создание персонализированных генераций, в которых происходят генерация объекта с референсного изображения и модификация его окружения согласно текстовому запросу. Эта технология имеет множество применений, например, виртуальная примерка одежды, улучшение изображений для увеличения конверсии в рекламе и электронной коммерции, а также генерация изображений лиц с использованием референсной личности, востребованная в сфере развлечений и в социальных сетях.

Главная проблема в сфере персонализированной генерации – сохранение идентичности объекта с референсного изображения на генерациях. Это касается как товаров (бренд и мел- кие атрибуты должны быть узнаваемы и максимально сохранены), так и лиц (иначе на генерации будет присутствовать другой человек). Более того, генерации должны быть достаточно модифицируемыми для того, чтобы генерировать объект в новых обличиях и в новом окружении, что значительно затруднено из-за присущего данной задаче переобучения. Хороший метод персонализации также должен иметь явный способ для изменения силы референсного изображения в случаях, когда требуется лучшая модифицируемость.

Можно выделить три метода персонифицированной генерации цифровых портретов.

1.    Дообучение диффузионной модели под каждую конкретную личность. Главными недос- татками являются большие временные и вычислительные затраты на дообучение модели,  а также высокая вероятность переобучения, в результате которого диффузионной модели не удается генерировать уникальные цифровые портреты, имеющие семантику, совпадающую с текстовым запросом.

2.    Генерация с помощью модели ControlNet, которая позволяет сохранять пространственную информацию о входном изображении, например, о градиентах (Canny, HED) или относительной дальности объектов на изображении (например, с помощью модели MiDaS). Недостатками этого метода являются неполное сохранение черт оригинала, а также очень сильная зависимость от текстуры входного изображения, которая может не позволить сгенерировать изображение, семантически соответствующее текстовому запросу. К тому же этот метод не гарантирует сохранение иден- тичности.

3.    Использование обученной нейронной се- ти как дополнительного модуля диффузионной модели, отображающей информацию об объекте на изображении во внутреннее пространство диффузионной модели. Это наиболее перспективный и жизнеспособный метод для генерации персонифицированных цифровых портретов, позволяющий осуществлять генерацию без длительного дообучения под каждый входной пример. Однако степень персонификации в большей части существующих работ оставляет желать лучшего, поскольку зачастую приводит к необходимости дообучения получаемых эмбеддингов.

Целью данного исследования является обучение нейронной сети для проецирования информации о личности во внутреннее пространство диффузионной модели, для которой не  потребовалось бы дообучение под каждый конкретный пример во время инференса.

Обзор существующих подходов

Ранние подходы по персонализированной генерации основаны на оптимизации псевдо- текстовых представлений (эмбеддингов) объектов. С помощью текстовой инверсии была продемонстрирована принципиальная возможность проекции информации об изображении во внутреннее пространство диффузионной модели. Однако этот метод склонен к существенному переобучению, в результате чего практически при любом текстовом входе генерируется одно из изображений обучающей  выборки с недостаточным сохранением черт лица. Метод Dreambooth [1] менее склонен  к переобучению благодаря предложенной в работе prior-preservation функции потерь, но при этом методе происходит дообучение всей диффузионной модели, в котором также используется большой набор данных для регуляриза- ции, что значительно затрудняет широкое применение этого метода. Использование низкоранговой адаптации совместно с методом Dre- amBooth позволяет снизить требуемое количество вычислительных ресурсов для оптимизации, однако время дообучения под каждую отдельную личность составляет от нескольких минут до получаса. Также были представлены методы Custom Diffusion [2] и Perfusion [3], требующие дообучения лишь небольшого количества параметров весов в слоях перекрестного внимания, время работы которых составляет 4–6 минут на графическом ускорителе Nvidia A100.

Известны также методы оптимизации, использующие предобученные кодировщики (энкодеры), такие как CLIP [4], для формирования стартового эмбеддинга для оптимизации. Например, может использоваться оптимизация специфического для объекта признака, инициализированного через текстовое описание и текстовый кодировщик CLIP, и признаков для каждого отдельного изображения объекта, инициализированных с помощью картиночного кодировщика CLIP. Тонкая комбинация функций потерь позволяет получить «распутанное» представление объекта, в котором содержится минимальное количество информации об изначальных изображениях.

Исследователи обратились и к обучению кодировщиков для экстракции информации об идентичности объектов с изображений. В работе [5] предложен подход, схожий с итеративным уточнением эмбеддинга объекта в сфере генеративно-состязательных сетей [6]. Авторы предлагают использование CLIP-признаков и усредненных промежуточных признаков с диф- фузионной модели для формирования эмбед- дингов с помощью обучаемой нейронной сети, а также дообучение полученного эмбеддинга  и параметров слоев перекрестного внимания диффузионной модели во время инференса. Более специфический метод для персонализации генераций лиц предложен в работе [7]: дообучение базовой диффузионной модели Stable Diffusion 1.4 и полносвязной сети, принимающей на вход признаки с VGGFace2 [8] и отображающей их во внутреннее пространство ба- зовой диффузионной модели. Похожий подход использован в работе [9]: модель CLIP дообучалась совместно с базовой диффузионной моделью (с помощью метода LoRA). Наконец,  в работе [10] в качестве кодировщика входного изображения выбрана модель для распознавания лиц на основе работы ArcFace [11] вместо модели CLIP.

Сбор и обработка данных для обучения

Для обучения нейронной сети были взяты порядка 1 млн изображений лиц из открытых наборов данных (LAION-Face [12]) и из сети Интернет. Фильтрация данных происходила  в четыре этапа.

1. Фильтрация изображений по качеству. Все изображения, ширина или высота которых менее 512 пикселей, а также изображения плохого качества были удалены из датасета. Оцен- ка их качества проводилась с помощью модели MANIQA [13].

2. Фильтрация изображений без лиц. Все оставшиеся после первого этапа фильтрации данные были обработаны моделью для детектирования лиц YOLO5Face [14]. В итоге оставлены те изображения, на которых найдено только одно лицо, размер которого составляет не менее 20 % от общей площади изображения. Площадь лица оценивалась через произведение векторов между левым и правым глазами и между левым глазом и левым уголком рта.

3. Получение текстовых описаний изображений. Большая часть изображений в полученном наборе данных уже имеет текстовые описания, однако они, как правило, достаточно слабо соотносятся с тем, что действительно показано на изображениях. Более того, в модели DALL-E 3 использование синтетических текстовых описаний (полученных с помощью  визуально-языковых моделей) улучшает соответствие сгенерированных изображений входному текстовому описанию. По этой причине для всех изображений моделью BLIP [15] получены синтетические текстовые описания. Эти описания были отфильтрованы таким образом, чтобы в них обязательно входило слово «person» и не содержались имена знаменитостей.

4. После фильтрации данных получение для всех изображений признаковых описаний с информацией об идентичности человека:

-      биометрический шаблон (набор из 512 чисел с информацией об идентичности лица че- ловека), полученный с помощью нейронной сети для распознавания лиц (vID); в качестве нейронной сети для распознавания лиц взята модель от InsightFace на основе архитектуры ResNet-50 [16], обученной на наборе данных MS1MV3;

-      промежуточное признаковое представление изображения лица, полученное из той же нейронной сети для распознавания лиц; для этого были взяты признаки после предпоследнего остаточного блока (vbulk);

-      признаковое описание лица (вектор из 768 чисел), извлеченное с помощью нейросети FaRL [12] (vFaRL).

Финальный объем данных составил порядка 1 миллиона изображений, сгруппированных по принадлежности к каждому отдельному человеку.

Обучение нейронной сети

В качестве базовой модели для обучения Stable Diffusion 2.1-base в открытом доступе взята диффузионная модель на основе архитектуры UNet от компании StabilityAI. Общий пайплайн для обучения и генерации показан на рисунке 1.

Разные признаки изображений в предложенной архитектуре обрабатываются раздельно. Шаблоны лица vID и vFaRL, содержащие  глобальную информацию о человеке (например, раса и идентичность), объединяются в единый вектор и обрабатываются обучаемой полносвязной нейронной сетью. Для преобразования промежуточного признака vbulk была выбрана архитектура QFormer [17], использующая ряд слоев самовнимания и перекрестного внимания для отображения входной последовательности произвольной длины в последовательность фиксированной длины.

Так как извлеченные признаки содержат информацию не только об идентичности человека, но и о других атрибутах изображения, таких как цветовая гамма, фон и геометрия лица, нейросети для извлечения признаков могут переобучиться для восстановления изображения в области лица. Для борьбы с этим используется следующая аугментация в данных: с вероятностью 50 % для расшумления изображения используются признаки, извлеченные со случайного изображения той же личности. Таким образом, полносвязная сеть и QFormer гораздо больше фокусируются именно на извлечении информации об идентичности, так как любая другая информация не предоставляет нужный сигнал для лучшего расшумления изображения.

Полученный признак, содержащий в себе информацию об идентичности, подается в обучаемую модель ControlNet, для которой в качестве пространственного обусловливания используется изображение точек, найденных детек- тором лиц. При этом текстовые признаки  подаются только в базовую диффузионную модель, которая недообучается.

В качестве функции потерь была выбрана взвешенная нижняя вариационная оценка [18]:

 (1)

где x – экземпляры тренировочного набора данных; ϵ – экземпляр шума из стандартного нормального распределения; ϵθ – шум, предсказанный диффузионной моделью; c – условие для генерации (текстовые и ID-признаки); t – номер шага диффузионного процесса [18]; αt – коэффициент диффузии.

Веса для функции потерь были выбраны на основе [19] с небольшой модификацией, которая состоит в том, что веса при малых шагах диффузии необязательно стремятся к нулю:

                   (2)

где SNR(t) – отношение сигнал/шум для шага диффузии t; β, γ – скалярные параметры.

Значения параметров β и γ выбраны равными 1.0 и 2.0 соответственно.

Обучение проводилось в течение 200 тысяч итераций с размером пакета, равным 16, и алгоритмом оптимизации Adam с параметрами  β1 = 0.9, β2 = 0.98 и скоростью обучения 0.00002.

Результаты

Для оценки качества работы были получены метрики соответствия сгенерированного изображения и текстового запроса с помощью модели CLIP (scoreCLIP), а также соответствия личности на входном и сгенерированном изоб- ражениях (scoreID). Обе метрики представляют собой косинус между соответствующими векторами. Также была посчитана агрегированная метрика scoretotal как геометрическое среднее scoreCLIP и scoreID. В таблице показаны метрики как для модели, представленной в текущей статье, так и для двух конкурентных работ – Face2Diffusion [9] и PhotoMaker [10]. Для генерации изображений обученной моделью была проведена кластеризация ключевых точек лиц обучающего набора данных, в процессе генерации выбирался случайный кластер для задания положения лица в кадре.

Как видно из таблицы, все модели генерируют изображения, соответствующие тексту  (о чем свидетельствует scoreCLIP, больший 0.3). Однако модель, обученная в данной работе, дает самое высокое качество в плане сохранения личности человека на входном изображении, практически в два раза превосходя по аналогичному показателю модель Face2Diffusion.

Метрики качества моделей

Model quality metrics

Модель

Метрика

scoreID

scoreCLIP

scoretotal

PhotoMaker

0.210

0.361

0.255

Face2Diffusion

0.371

0.321

0.337

Текущая модель

0.604

0.346

0.436

Примеры генераций с помощью текущей модели, а также моделей PhotoMaker и Fa- ce2Diffusion показаны на рисунке 2. Для каждой пары текст–изображение было сгенерировано 16 изображений, и из них выбрано лучшее по метрике scoretotal.

Метрики, полученные для обученной и конкурентных моделей, согласуются с результатами. Особенно стоит отметить стабильность качества генераций обученной модели, в том числе при использовании кластеров ключевых точек лица, что открывает также возможность использования второго референсного изображения для задания положения лица на сгенерированных изображениях.

Заключение

В настоящем исследовании был представлен способ обусловливания диффузионной модели для генерации изображений разных личностей, стилизованных с помощью входного текстового запроса. Продемонстрирован способ аугментации, улучшающий понимание диффузионной моделью пары текстовый запрос–входное изображение. Показано, что полученные метрики качества существенно превосходят ана- логичные метрики для конкурентных моделей.

Список литературы

1. Ruiz N., Li Yu., Jampani V., Pritch Ya. et al. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. Proc. IEEE/CVF Conf. CVPR, 2023, pp. 22500–22510.

2. Kumari N., Zhang B., Zhang R., Shechtman E. et al. Multi-concept customization of text-to-image diffusion. Proc. IEEE/CVF Conf. CVPR, 2023, pp. 1931–1941.

3. Tewel Y., Gal R., Chechik G., Atzmon Yu. Key-locked rank one editing for text-to-image personalization. Proc. SIGGRAPH, 2023, art. 12.

4. Radford A., Kim J.W., Hallacy Ch., Ramesh A. et al. Learning transferable visual models from natural language supervision. Proc. Int. Conf. PMLR, 2021, pp. 8748–8763.

5. Gal R., Arar M., Atzmon Y., Bermano A.H., Chechik G., Cohen-Or D. Encoder-based domain tuning for fast personalization of text-to-image models. ACM TOG, 2023, vol. 42, no. 4, art. 150. doi: 10.1145/3592133.

6. Alaluf Y., Patashnik O., Cohen-Or D. Restyle: A residual-based StyleGAN encoder via iterative refinement. Proc. IEEE/CVF ICCV, 2021, pp. 6711–6720.

7. Valevski D., Lumen D., Matias Y., Leviathan Y. Face0: Instantaneously conditioning a text-to-image model on a face. Proc. SA’23 Conf. Papers, 2023, art. 94. doi: 10.1145/3610548.3618249.

8. Cao Q., Shen L., Xie W., Parkhi O.M., Zisserman A. VGGFace2: A dataset for recognising faces across pose and age. Proc. IEEE Int. Conf. FG, 2018, pp. 67–74. doi: 10.1109/FG.2018.00020.

9. Li Z., Cao M., Wang X., Qi Z., Cheng M.-M., Shan Y. PhotoMaker: Customizing realistic human photos via stacked ID embedding. Proc. IEEE/CVF Conf. CVPR, 2024, pp. 8640–8650. doi: 10.1109/CVPR52733.2024.00825.

10. Shiohara K., Yamasaki T. Face2Diffusion for fast and editable face personalization. Proc. IEEE/CVF Conf. CVPR, 2024, pp. 6850–6859.

11. Deng J., Guo J., Xue N., Zafeiriou S. et al. ArcFace: Additive angular margin loss for deep face recognition. Proc. IEEE/CVF Conf. CVPR, 2019, pp. 4690–4699.

12. Zheng Y., Yang H., Zhang T., Bao J., Chen D. et al. General facial representation learning in a visual-linguistic manner. Proc. IEEE/CVF Conf. CVPR, 2022, pp. 18697–18709.

13. Yang S., Wu T., Shi Sh., Lao Sh., Gong Y., Cao M. et al. MANIQA: Multi-dimension attention network for no-reference image quality assessment. Proc. IEEE/CVF Conf. CVPR, 2022, pp. 1191–1200.

14. Qi D., Tan W., Yao Q., Liu J. YOLO5Face: Why reinventing a face detector. In: LNCS. Proc. ECCV, 2022, vol. 13805, pp. 228–244. doi: 10.1007/978-3-031-25072-9_15.

15. Li J., Li D., Xiong C., Hoi S. BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation. Proc. Int. Conf. PMLR, 2022, pp. 12888–12900.

16. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition. Proc. IEEE/CVF Conf. CVPR, 2016, pp. 770–778. doi: 10.1109/CVPR.2016.90.

17. Li J., Li D., Xiong C., Hoi S. BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. Proc. Int. Conf. PMLR, 2023, pp. 19730–19742.

18. Ho J., Jain A., Abbeel P. Denoising diffusion probabilistic models. Proc. NeurIPS, 2020, vol. 33, pp. 6840–6851.

19. Kingma D., Gao R. Understanding diffusion objectives as the ELBO with simple data augmentation. Proc. NeurIPS, 2024, vol. 36, pp. 1–33.

References

1. Ruiz, N., Li, Yu., Jampani, V., Pritch, Ya. et al. (2023) ‘Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation’, Proc. IEEE/CVF Conf. CVPR, pp. 22500–22510.

2. Kumari, N., Zhang, B., Zhang, R., Shechtman, E. et al. (2023) ‘Multi-concept customization of text-to-image diffusion’, Proc. IEEE/CVF Conf. CVPR, pp. 1931–1941.

3. Tewel, Y., Gal, R., Chechik, G., Atzmon, Yu. (2023) ‘Key-locked rank one editing for text-to-image personalization’, Proc. SIGGRAPH, art. 12.

4. Radford, A., Kim, J.W., Hallacy, Ch., Ramesh, A. et al. (2021) ‘Learning transferable visual models from natural language supervision’, Proc. Int. Conf. PMLR, pp. 8748–8763.

5. Gal, R., Arar, M., Atzmon, Y., Bermano, A.H., Chechik, G., Cohen-Or, D. (2023) ‘Encoder-based domain tuning for fast personalization of text-to-image models’, ACM TOG, 42(4), art. 150. doi: 10.1145/3592133.

6. Alaluf, Y., Patashnik, O., Cohen-Or, D. (2021) ‘Restyle: A residual-based StyleGAN encoder via iterative refinement’, Proc. IEEE/CVF ICCV, pp. 6711–6720.

7. Valevski, D., Lumen, D., Matias, Y., Leviathan, Y. (2023) ‘Face0: Instantaneously conditioning a text-to-image model on a face’, Proc. SA’23 Conf. Papers, art. 94. doi: 10.1145/3610548.3618249.

8. Cao, Q., Shen, L., Xie, W., Parkhi, O.M., Zisserman, A. (2018) ‘VGGFace2: A dataset for recognising faces across pose and age’, Proc. IEEE Int. Conf. FG, pp. 67–74. doi: 10.1109/FG.2018.00020.

9. Li, Z., Cao, M., Wang, X., Qi, Z., Cheng, M.-M., Shan, Y. (2024) ‘PhotoMaker: Customizing realistic human photos via stacked ID embedding’, Proc. IEEE/CVF Conf. CVPR, pp. 8640–8650. doi: 10.1109/CVPR52733.2024.00825 .

10. Shiohara, K., Yamasaki, T. (2024) ‘Face2Diffusion for fast and editable face personalization’, Proc. IEEE/CVF Conf. CVPR, pp. 6850–6859.

11. Deng, J., Guo, J., Xue, N., Zafeiriou, S. et al. (2019) ‘ArcFace: Additive angular margin loss for deep face recognition’, Proc. IEEE/CVF Conf. CVPR, pp. 4690–4699.

12. Zheng, Y., Yang, H., Zhang, T., Bao, J., Chen, D. et al. (2022) ‘General facial representation learning in a visual-linguistic manner’, Proc. IEEE/CVF Conf. CVPR, pp. 18697–18709.

13. Yang, S., Wu, T., Shi, Sh., Lao, Sh., Gong, Y., Cao, M. et al. (2022) ‘MANIQA: Multi-dimension attention network for no-reference image quality assessment’, Proc. IEEE/CVF Conf. CVPR, pp. 1191–1200.

14. Qi, D., Tan, W., Yao, Q., Liu, J. (2022) ‘YOLO5Face: Why reinventing a face detector’, in LNCS. Proc. ECCV, 13805, pp. 228–244. doi: 10.1007/978-3-031-25072-9_15.

15. Li, J., Li, D., Xiong, C., Hoi, S. (2022) ‘BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation’, Proc. Int. Conf. PMLR, pp. 12888–12900.

16. He, K., Zhang, X., Ren, S., Sun, J. (2016) ‘Deep residual learning for image recognition’, Proc. IEEE/CVF Conf. CVPR, pp. 770–778. doi: 10.1109/CVPR.2016.90.

17. Li, J., Li, D., Xiong, C., Hoi, S. (2023) ‘BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models’, Proc. Int. Conf. PMLR, pp. 19730–19742.

18. Ho, J., Jain, A., Abbeel, P. (2020) ‘Denoising diffusion probabilistic models’, Proc. NeurIPS, 33, pp. 6840–6851.

19. Kingma, D., Gao, R. (2024) ‘Understanding diffusion objectives as the ELBO with simple data augmentation’, Proc. NeurIPS, 36, pp. 1–33.


Постоянный адрес статьи:
http://www.swsys.ru/index.php?page=article&id=5165
Версия для печати
Статья опубликована в выпуске журнала № 2 за 2025 год. [ на стр. 280-286 ]

Статья опубликована в выпуске журнала № 2 за 2025 год. [ на стр. 280-286 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Возможно, Вас заинтересуют следующие статьи схожих тематик: