fine-tuning-with-trl

Name: fine-tuning-with-trl
Author: orchestra-research

Что такое fine-tuning-with-trl?

Точная настройка LLM с помощью обучения с подкреплением с помощью TRL — SFT для настройки инструкций, DPO для согласования предпочтений, PPO/GRPO для оптимизации вознаграждения и обучения модели вознаграждения. Используйте, когда необходимо RLHF, согласуйте модель с предпочтениями или тренируйтесь на основе отзывов людей. Работает с трансформерами HuggingFace. Источник: orchestra-research/ai-research-skills.

Как установить fine-tuning-with-trl?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/orchestra-research/ai-research-skills --skill fine-tuning-with-trl После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/orchestra-research/ai-research-skills

Установка

Детали

Похожие навыки

fine-tuning-with-trl

Установка

Как установить fine-tuning-with-trl

SKILL.md

Факты (для цитирования)

Короткие ответы

Что такое fine-tuning-with-trl?

Как установить fine-tuning-with-trl?

Где находится исходный репозиторий?

Детали

Похожие навыки