Методы оптимизации процесса обучения и тонкой настройки больших языковых моделей

Самонов Александр Валерьянович

doi:doi:10.20295/2413-2527-2024-339-5-12

Главная / Журналы / Интеллектуальные технологии на транспорте / Номер 3 / Методы оптимизации процесса обучения и тонкой настройки больших языковых моделей

Методы оптимизации процесса обучения и тонкой настройки больших языковых моделей

Отправить рукопись Скачать PDF
Текст

Цитировать

Цитирований:

МЕТОДЫ ОПТИМИЗАЦИИ ПРОЦЕССА ОБУЧЕНИЯ И ТОНКОЙ НАСТРОЙКИ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ

Журнал: ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ НА ТРАНСПОРТЕ № 3 , 2024

Рубрики: ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ

УДК 004.85 Обучение

Самонов Александр Валерьянович ¹

Информация об авторах и публикации

Авторы:

1. Военно-космическая академия имени А. Ф. Можайского

Россия

Тип:

Статья

DOI:

https://doi.org/10.20295/2413-2527-2024-339-5-12

Страницы:

с 5 по 12

Статус:

Опубликован

Получено:

09.10.2024

Одобрено:

09.10.2024

Опубликовано:

09.10.2024

Классификаторы:

УДК 004.85 Обучение

Язык материала:

английский

Ключевые слова:

большая языковая модель, графический процессор, накопление градиента, смешанная точность, точная настройка LLM, Large Language Model, Low-Rank Adaptation

Аннотация и ключевые слова

Аннотация (русский):
Основными проблемными вопросами при разработке и специализации больших языковых моделей (Large Language Model — LLM, ) являются катастрофическое забывание, риск переобучения, галлюцинации, некорректная обработка исключительных ситуаций, а также исключительно высокие требования к производительности используемых при этом вычислительных средств. Целями исследования являются выбор и разработка методов оптимизации процесса обучения и настройки LLM, обеспечивающих существенное снижение необходимых для этого вычислительных ресурсов. Для достижения данной цели предложено использовать следующие методы оптимизации LLM и алгоритмов их обучения: LoRA и QLoRA, Batch size choice (выбор оптимального размера пакета), Gradient Accumulation (накопление градиента), Gradient Checkpointing (контрольные точки градиента), Mixed precision training (смешанная точность), FlashAttention 2. Для получения кумулятивного положительного эффекта при совместном использовании этих методов необходимо выполнить ряд практических экспериментов. При настройке гиперпараметров обучения LLM сначала следует определить, какой размер пакета дает наилучшие результаты, а затем выбрать адекватные методы оптимизации используемых вычислительных ресурсов. Применение представленных методов позволит повысить эффективность использования вычислительных ресурсов при настройке больших языковых моделей и обеспечит сокращение необходимых для этого временных и финансовых затрат.

Ключевые слова:
большая языковая модель, графический процессор, накопление градиента, смешанная точность, точная настройка LLM, Large Language Model, Low-Rank Adaptation

Текст

Текст (PDF): Читать Скачать

Список литературы

1. A Survey of Large Language Models / W. Zhao [et al.] // ArXiv. 2023. Vol. 2303.18223. 124 p. DOI: 10.48550/ arXiv.2303.18223

2. Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning / V. Lialin [et al.] // ArXiv. 2023. Vol. 2303.15647. 21 p. DOI:https://doi.org/10.48550/arXiv.2303.15647

3. Matrix Multiplication Background User’s Guide // NVIDIA Documentation Hub. URL: http://docs.nvidia.com/deeplearning/performance/dl-performance-matrix-multiplication (accessed 26 Mar 2024).

4. Bekman S. Benchmarking Transformers with HF Trainer on a Single A100 40GB // Github. URL: http://github.com/huggingface/transformers/issues/15026 (accessed 26 Mar 2024).

5. LORA: Low-Rank Adaptation of Large Language Models / E. Hu [et al.] // ArXiv. 2021. Vol. 2106.09685. 26 p. DOI:https://doi.org/10.48550/arXiv.2106.09685

6. LLaMA-Adapter: Efficient Fine-Tuning of Language Models with Zero-Init Attention / R. Zhang [et al.] // ArXiv. 2023. Vol. 2303.16199. 22 p. DOI:https://doi.org/10.48550/arXiv.2303.16199

7. Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-Trained Language Models / N. Ding [et al.] // ArXiv. 2022. Vol. 2203.06904. 49 p. DOI:https://doi.org/10.48550/arXiv.2203.06904

8. QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models / Y. Xu [et al.] // ArXiv. 2023. Vol. 2309.14717. 16 p. DOI:https://doi.org/10.48550/arXiv.2309.14717

9. QDyLoRA: Quantized Dynamic Low-Rank Adaptation for Efficient Large Language Model Tuning / H. Rajabzadeh [et al.] // ArXiv. 2024. Vol. 2402.10462. 6 p. DOI:https://doi.org/10.48550/arXiv.2402.10462

10. Methods and Tools for Efficient Training on a Single GPU // Hugging Face Community. URL: http://huggingface.co/docs/transformers/perf_train_gpu_one (accessed 26 Mar 2024).

11. Goodfellow I., Bengio Y., Courville A. Optimization for Training Deep Model // Deep Learning. Cambridge (MA): MIT Press, 2016. Pp. 267–320.

12. Bekman S. Benchmarking Transformers with HF Trainer on RTX-309 // Github. URL: http://github.com/huggingface/transformers/issues/14608 (accessed 26 Mar 2024).

13. Linear/Fully Connected Layers User’s Guide // NVIDIA Documentation Hub. URL: http://docs.nvidia.com/deeplearning/performance/dl-performance-fully-connected (accessed 26 Mar 2024).

14. Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models / M. Weyssow [et al.] // ArXiv. 2023. Vol. 2308.10462. 23 p. DOI:https://doi.org/10.48550/arXiv.2308.10462

15. PTraining FP8 Large Language Models / H. Peng [et al.] // ArXiv. 2023. Vol. 2310.18313. 23 p. DOI: 10.48550/ arXiv.2310.18313https://doi.org/10.48550/arXiv.2310.18313

Отправить рукопись Скачать PDF
Текст

Цитировать

Цитирований:

Подтверждение

Регистрация