fine-tuning-with-trl

Name: fine-tuning-with-trl
Author: orchestra-research

✓

orchestra-research/ai-research-skills

Ottimizza gli LLM utilizzando l'apprendimento per rinforzo con TRL - SFT per l'ottimizzazione delle istruzioni, DPO per l'allineamento delle preferenze, PPO/GRPO per l'ottimizzazione delle ricompense e la formazione sui modelli di ricompensa. Utilizza quando necessario RLHF, allinea il modello alle preferenze o addestralo in base al feedback umano. Funziona con i trasformatori HuggingFace.

orchestra-research·fine·tuning·with·trl

38Installazioni·2Tendenza·@orchestra-research