Авторитетность издания
Добавить в закладки
Следующий номер на сайте
Метод дистилляции знаний для языковых моделей на основе выборочного вмешательства в обучение
Аннотация:В статье обсуждается проблема оптимизации больших нейронных сетей на примере языковых моделей. Большой размер языковых моделей является препятствием для их практического применения в условиях ограниченных объемов вычислительных ресурсов и памяти. Одним из актуальных направлений в области компрессии моделей больших нейронных сетей является дистилляция знаний – передача знаний от большой модели учителя к меньшей модели ученика без существенной потери точности результата. При этом для ускорения обучения используются выходные данные модели ученика. Применение такого подхода приводит к уменьшению несоответствия между выводами при обучении и использовании модели и к повышению производительности. Однако это касается только коротких последовательностей языковых моделей, а для длинных задача остается нерешенной, как и остаются проблемы неточной передачи знаний и накопления ошибок. Для их решения предлагается выборочное вмешательство учителя в процесс обучения ученика. Идея заключается в выборочном переключении между моделью ученика и моделью учителя для генерации следующего токена при обнаружении значительных расхождений между их вероятностными распределениями. Решение о переключении принимается на основе достижения экспоненциально убывающего порога измерений расхождения между распределениями вероятностей учителя и ученика. Такая стратегия позволяет сбалансировать необходимость обучения ученика на своих данных и предотвращения накопления ошибок в длинных последовательностях. Практическая значимость метода дистилляции знаний, основанного на выборочном вмешательстве учителя в процесс обучения ученика, заключается в его возможном применении в задачах с ограниченными вычислительными ресурсами.
Abstract:The paper discusses the optimization problem of large neural networks on the example of language models. The large size of language models is an obstacle for their practical application under conditions of limited computational resources and memory. One relevant direction in the field of compressing large neural network models is knowledge distillation. It is knowledge transfer from a large teacher model to a smaller student model without significant loss of result accuracy. In this case, the student's model output is used to accelerate learning. Applying this approach leads to reducing in the mismatch be-tween the outputs of training and model usage and to improving performance. However, this is only applicable to short language model sequences. For long sequences, the problem remains unsolved, as do the problems of inaccurate knowledge transfer and error accumulation. The authors propose selective teacher intervention in a student's learning process to solve them. The idea is to switch selectively between the student's model and the teacher's model to generate the next token when significant discrepancies between their probability distributions are detected. The switch decision is based on reaching an exponentially decreasing measurement threshold of the divergence between teacher and student's probability distributions. This strategy balances the need to train a student on their data and to prevent error accumulation in long sequences. The knowledge distillation method is practically significant due to its possible application to tasks with limited computational resources.
| Авторы: Татарникова Т.М. (tm-tatarn@yandex.ru) - Санкт-Петербургский государственный университет аэрокосмического приборостроения (доцент, профессор), Санкт-Петербург, Россия, доктор технических наук, Мокрецов Н.С. (mokrecovnikita6374@gmail.com) - Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина), Санкт-Петербург, Россия, Аспирант | |
| Ключевые слова: дистилляция знаний, большие языковые модели, передача знаний, короткие и длинные последовательности, вмешательство учителя в обучение ученика |
|
| Keywords: knowledge distillation, large language models, knowledge transfer, short and long sequences, teacher intervention in student’s learning |
|
| Количество просмотров: 1039 |
Статья в формате PDF |
Метод дистилляции знаний для языковых моделей на основе выборочного вмешательства в обучение
DOI: 10.15827/0236-235X.150.361-365
Дата подачи статьи: 14.01.2025
Дата после доработки: 03.02.2025
Дата принятия к публикации: 14.02.2025
УДК: 004.258
Группа специальностей ВАК: 2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки, физико-математические науки)
Статья опубликована в выпуске журнала № 2 за 2025 год. [ на стр. 361-365 ]
Введение. Современные большие языковые модели (LLM – Large Language Model) демонстрируют высокие результаты в различных задачах обработки естественного языка [1, 2]. Однако размеры таких моделей являются препятствием для их практического применения в условиях ограниченных объемов вычислительных ресурсов и памяти [3, 4]. В данной статье обсуждаются подходы к компрессии модели нейронной сети с применением дистилляции знаний (Knowledge Distillation) – процесса передачи знаний от большой модели (учителя T) модели поменьше (ученика S) без существенной потери точности результата: £ = (p(y|x), q(y|x)), T = p(y|x), (1) S = q(y|x), где x - входной набор данных для обучения; y – вывод модели учителя. Идея дистилляции знаний заключается в том, что на выводе модели сравниваются логиты учителя и ученика при одних и тех же входных данных. Логит - это логарифмическая функция, используемая для преобразования вероятности в линейный интервал, то есть токены, для каждого слоя или группы слоев нейронной сети. Токены используются для предсказания класса объекта и обычно преобразуются в вероятности с помощью функции активации softmax [5]. Целью обучения модели ученика является минимизация расхождения D между распределениями токенов модели ученика и модели учителя [6]:
где p – вероятностное распределение токенов для модели учителя; q – вероятностное распределение токенов для модели ученика; y – целевая последовательность; x – запрос (входная последовательность); y
Для ускорения обучения языковых моделей при реализации дистилляции знаний предложены несколько методов, использующих выходные данные модели ученика (SGO - Student-Generated Outputs) [7]. Анализ источников [8, 9] показывает, что применение методов SGO приводит к уменьшению несоответствия между выводами при обучении и использовании модели, а также к повышению производительности. Однако такие выводы можно сделать лишь относительно коротких последовательностей языковых моделей, для длинных задача остается нерешенной. Этому есть несколько объяснений: - методы SGO направлены на эффективное обучение модели ученика, поэтому необходимость точного ответа со стороны модели учителя часто игнорируется; соответственно, ошибки при обучении, вызванные разрывом в размерах между моделями учителя и ученика, накапливаются в процессе обучения модели; - эффект неточной передачи знаний: метод дистилляции знаний основан на предположении, что учитель предоставляет надежные данные, поэтому некорректное руководство со стороны модели учителя перерастает в серьезную проблему, при которой ученик получает высокие штрафы за правильные прогнозы и низкие за неправильные; - авторегрессионная природа языковых моделей, способствующая тому, что ошибки ученика могут накапливаться в длинных последовательностях. Предлагается исследовать усовершенствование дистилляции знаний для длинных последовательностей: стратегическое вмешательство модели учителя в процесс генерации последовательностей знаний учеником. Решение о переключении принимается на основе достижения экспоненциально убывающего порога измерений расхождения между распределениями вероятностей учителя и ученика. Описание метода выборочного вмешательства учителя в процесс обучения ученика Идея данного подхода заключается в выборочном переключении между моделью ученика и моделью учителя для генерации следующего токена при обнаружении значительных расхождений между их вероятностными распределениями. Такая стратегия позволяет сбалансировать необходимость обучения ученика на сво- их данных, а также предотвращения накопления ошибок в длинных последовательностях [10]. Для управления этим процессом применяется экспоненциально убывающий порог, который увеличивает участие учителя по мере продвижения последовательности, предотвращая ошибочное руководство в длинных последовательностях:
где t0 - начальный порог (установлен равным 1); λ - скорость убывания, контролирующая, на- сколько быстро с течением времени уменьшается порог. Для определения момента вмешательства учителя используется расхождение Дженсена- Шеннона (JSD), которое предоставляет сим- метричную ограниченную меру различия между двумя распределениями вероятностей [1]:
где На каждом временном шаге t вычисляется JSD между распределениями ученика и учителя. Если расхождение превышает предопределенный порог Качество модели выборочного вмешательства учителя в процесс обучения ученика (SwitchLLM) оценим по Rogue-L (Recall-Orien- ted Understudy for Gisting Evaluation for Longest Common Subsequence) – метрике качества обобщения текста, используемой для оценки задач автоматического создания краткого содержания (заголовка, резюме, аннотации) исходного текста и генерации текста [11]. Метрика измеряет наибольшую последовательность слов, которая встречается как в выходном тексте модели, так и в эталонном, позволяя любой порядок слов. Чем выше значение ROUGE-L, тем лучше совпадение:
где LCS - длина наибольшей общей подпоследовательности между эталонным текстом S и текстом, который выдала модель S´; len(S) - длина эталонного текста S.
В таблице приведены значения среднеквадратичной ошибки обучения MSE (Mean Square Errore) для самой модели учителя и модели ученика методом SGO и методом выборочноговмешательства учителя в процесс обучения ученика. Анализ этих значений показал, что дистилляция знаний, а по факту сжатие модели нейронной сети, не повлияла на ошибку обучения. На рисунке 3 приведены гистограммы значений достоверности (Accuracy) и точности (Recall) обучения модели ученика на разных бэнчмарках. Как видим, достоверность и точность обучения модели ученика близки к этим же метрикам обучения учителя. Заключение В работе показано, что выборочное вмешательство учителя в процесс обучения ученика превосходит прочие современные методы дистилляции знаний, использующие выходные данные модели ученика по метрике Rogue-L. Результаты эксперимента указывают на то, что данный метод эффективно сокращает разрыв между моделями ученика и учителя, особенно когда количество параметров модели ученика значительно ниже, чем у модели учителя. Усовершенствование дистилляции знаний в части методов, использующих выходные данные модели ученика, демонстрирует потенциал в решении проблемы эффективного использования ресурсов при работе с большими языковыми моделями. Он заключается в возможном применении метода дистилляции знаний в задачах с ограниченными вычислительными ресурсами. Список литературы 1. Дудихин В.В., Кондрашов П.Е. Методология использования больших языковых моделей для решения задач государственного и муниципального управления по интеллектуальному реферированию и автоматическому формированию текстового контента // Государственное управление. Электронный вестн. 2024. № 105. С. 169–179. URL: https://spajournal.ru/index.php/spa/article/view/1728 (дата обращения: 10.01.2025). doi: 10.55959/MSU2070-1381-105-2024-169-179. 2. Кузнецов А.В. Цифровая история и искусственный интеллект: перспективы и риски применения больших языковых моделей // Новые информационные технологии в образовании и науке. 2022. № 5. С. 53–57. 3. Мокрецов Н.С., Татарникова Т.М. Алгоритм оптимизации моделей нейронных сетей для обработки текста на естественном языке // Прикладной искусственный интеллект: перспективы и риски: сб. докл. Междунар. науч. конф. 2024. C. 280–282. 4. Houlsby N., Giurgiu A., Jastrzebski S., Morrone B. et al. Parameter-efficient transfer learning for NLP. Proc. 36th Int. Conf. on Machine Learning, 2019, vol. 97, pp. 2790–2799. 5. Мокрецов Н.С., Татарникова Т.М. Оптимизация процесса обучения при ограниченном объеме вычислительных ресурсов // Междунар. конф. по мягким вычислениям и измерениям. 2024. Т. 1. C. 205–208. 6. Ouyang L., Wu J., Jiang X., Almeida D., Wainwright C. et al. Training language models to follow instructions with human feedback. NeurIPS, 2022, vol. 35, pp. 27730–27744. 7. Liao B., Meng Y., Monz C. Parameter-efficient fine-tuning without introducing new latency. Proc. 61st Annual Meeting of the Association for Computational Linguistics, 2023, vol. 1, pp. 4242–4260. doi: 10.18653/v1/2023.acl-long.233. 8. Lv K., Yang Y., Liu T., Guo Q., Qiu X. Full parameter fine-tuning for large language models with limited resources. Proc. 62nd Annual Meeting of the Association for Computational Linguistics, 2024, vol. 1, pp. 8187–8198. 9. Белякова А.Ю., Беляков Ю.Д. Обзор задачи автоматической суммаризации текста // Инженерный вестн. Дона. 2020. № 10. C. 142–159. URL: http://www.ivdon.ru/ru/magazine/archive/n10y2020/6651 (дата обращения: 10.01.2025). 10. Швыров В.В., Капустин Д.А., Кущенко А.В., Сентяй Р.Н. Дообучение больших языковых моделей с использованием техники LoRA для решения задач статического анализа программного кода // Вестн. ЛГУ им. В. Даля. 2023. № 12. C. 210–215. References 1. Dudikhin, V.V., Kondrashov, P.E. (2024) ‘Methodology of using large language models to solve tasks of state and municipal government for intelligent abstracting and automatic generation of text content’, Public Administration. E-j., (105), pp. 169–179, available at: https://spajournal.ru/index.php/spa/article/view/1728 (accessed January 10, 2025) (in Russ.). doi: 10.55959/MSU2070-1381-105-2024-169-179. 2. Kuznetsov, A.V. (2022) ‘Digital history and artificial intelligence: Perspectives and risks of pretrained language models’, New Information Technologies in Education and Science, (5), pp. 53–57 (in Russ.). 3. Mokretsov, N.S., Tatarnikova, T.M. (2024) ‘Algorithm for optimizing neural network models for natural language text processing’, Proc. Int. Sci. Conf. Applied artificial intelligence: prospects and risks, pp. 280–282 (in Russ.). 4. Houlsby, N., Giurgiu, A., Jastrzebski, S., Morrone, B. et al. (2019) ‘Parameter-efficient transfer learning for NLP’, Proc. 36th Int. Conf. on Machine Learning, 97, pp. 2790–2799. 5. Mokretsov, N.S., Tatarnikova, T.M. (2024) ‘Optimizing the learning process with limited computational resources’, Proc. Int. Conf. SCM, 1, pp. 159–162 (in Russ.). doi: 10.1109/SCM62608.2024.10554217. 6. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. et al. (2022) ‘Training language models to follow instructions with human feedback’, NeurIPS, 35, pp. 27730–27744. 7. Liao, B., Meng, Y., Monz, C. (2023) ‘Parameter-efficient fine-tuning without introducing new latency’, Proc. 61st Annual Meeting of the Association for Computational Linguistics, 1, pp. 4242–4260. doi: 10.18653/v1/2023.acl-long.233. 8. Lv, K., Yang, Y., Liu, T., Guo, Q., Qiu, X. (2024) ‘Full parameter fine-tuning for large language models with limited resources’, Proc. 62nd Annual Meeting of the Association for Computational Linguistics, 1, pp. 8187–8198. 9. Belyakova, A.Yu., Belyakov, Yu.D. (2020) ‘Overview of the automatic text summarization task’, Engineering J. of Don, (10), pp. 142–159, available at: http://www.ivdon.ru/ru/magazine/archive/n10y2020/6651 (accessed January 10, 2025) (in Russ.). 10. Shvyrov, V.V., Kapustin, D.A., Kushchenko, A.V., Sentyay, R.N. (2023) ‘Large language models fine-tuning with the LoRA technique to solve problems of static analysis of program code’, Vestn. of Lugansk Vladimir Dahl State University, (12), pp. 210–215 (in Russ.). |
| Постоянный адрес статьи: http://www.swsys.ru/index.php?page=article&id=5173 |
Версия для печати |
| Статья опубликована в выпуске журнала № 2 за 2025 год. [ на стр. 361-365 ] |
Статья опубликована в выпуске журнала № 2 за 2025 год. [ на стр. 361-365 ]
Возможно, Вас заинтересуют следующие статьи схожих тематик:Возможно, Вас заинтересуют следующие статьи схожих тематик:


(2)
(5)