fine-tuning-with-trl

Name: fine-tuning-with-trl
Author: orchestra-research

✓

Ajuste los LLM mediante el aprendizaje por refuerzo con TRL - SFT para ajustar las instrucciones, DPO para la alineación de preferencias, PPO/GRPO para la optimización de recompensas y capacitación de modelos de recompensa. Úselo cuando necesite RLHF, alinee el modelo con las preferencias o entrene a partir de comentarios humanos. Funciona con transformadores HuggingFace.

orchestra-research·fine·tuning·with·trl

15Instalaciones·1Tendencia·@orchestra-research