fine-tuning-with-trl

Name: fine-tuning-with-trl
Author: ovachiever

✓

ovachiever/droid-tings

Optimieren Sie LLMs mithilfe von Reinforcement Learning mit TRL – SFT zur Anweisungsoptimierung, DPO zur Präferenzausrichtung, PPO/GRPO zur Belohnungsoptimierung und Belohnungsmodelltraining. Verwenden Sie bei Bedarf RLHF, richten Sie das Modell an Präferenzen aus oder trainieren Sie anhand von menschlichem Feedback. Funktioniert mit HuggingFace Transformers.

ovachiever·fine·tuning·with·trl

28Installationen·0Trend·@ovachiever

Installation

$npx skills add https://github.com/ovachiever/droid-tings --skill fine-tuning-with-trl

Details

Kategorie: </>Entwicklung
Quelle: skills.sh
Erstes Auftreten: 2026-03-03

fine-tuning-with-trl

Installation

So installieren Sie fine-tuning-with-trl

SKILL.md

Fakten (zitierbereit)

Schnelle Antworten

Was ist fine-tuning-with-trl?

Wie installiere ich fine-tuning-with-trl?

Wo ist das Quell-Repository?

Details

Verwandte Skills