fine-tuning-with-trl

Name: fine-tuning-with-trl
Author: orchestra-research

✓

Optimieren Sie LLMs mithilfe von Reinforcement Learning mit TRL – SFT zur Anweisungsoptimierung, DPO zur Präferenzausrichtung, PPO/GRPO zur Belohnungsoptimierung und Belohnungsmodelltraining. Verwenden Sie bei Bedarf RLHF, richten Sie das Modell an Präferenzen aus oder trainieren Sie anhand von menschlichem Feedback. Funktioniert mit HuggingFace Transformers.

orchestra-research·fine·tuning·with·trl

14Installationen·0Trend·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill fine-tuning-with-trl

Details

Kategorie: </>Entwicklung
Quelle: skills.sh
Erstes Auftreten: 2026-02-11

fine-tuning-with-trl

Installation

SKILL.md

Fakten (zitierbereit)

Schnelle Antworten

Was ist fine-tuning-with-trl?

Wie installiere ich fine-tuning-with-trl?

Wo ist das Quell-Repository?

Details

Verwandte Skills