Что такое fine-tuning-with-trl?
Точная настройка LLM с помощью обучения с подкреплением с помощью TRL — SFT для настройки инструкций, DPO для согласования предпочтений, PPO/GRPO для оптимизации вознаграждения и обучения модели вознаграждения. Используйте, когда необходимо RLHF, согласуйте модель с предпочтениями или тренируйтесь на основе отзывов людей. Работает с трансформерами HuggingFace. Источник: orchestra-research/ai-research-skills.