model_finetuning

Name: model_finetuning
Author: vuralserhat86

✓

vuralserhat86/antigravity-agentic-skills

Ottimizza gli LLM utilizzando l'apprendimento per rinforzo con TRL - SFT per l'ottimizzazione delle istruzioni, DPO per l'allineamento delle preferenze, PPO/GRPO per l'ottimizzazione delle ricompense e la formazione dei modelli di ricompensa. Utilizza quando necessario RLHF, allinea il modello alle preferenze o addestralo in base al feedback umano. Funziona con i trasformatori HuggingFace.

vuralserhat86·model·finetuning

11Installazioni·0Tendenza·@vuralserhat86