Что такое model_finetuning?
Точная настройка LLM с помощью обучения с подкреплением с помощью TRL — SFT для настройки инструкций, DPO для согласования предпочтений, PPO/GRPO для оптимизации вознаграждения и обучения модели вознаграждения. Используйте, когда необходимо RLHF, согласуйте модель с предпочтениями или тренируйтесь на основе отзывов людей. Работает с трансформерами HuggingFace. Источник: vuralserhat86/antigravity-agentic-skills.