·fine-tuning-with-trl
</>

fine-tuning-with-trl

orchestra-research/ai-research-skills

Ajuste los LLM mediante el aprendizaje por refuerzo con TRL - SFT para ajustar las instrucciones, DPO para la alineación de preferencias, PPO/GRPO para la optimización de recompensas y capacitación de modelos de recompensa. Úselo cuando necesite RLHF, alinee el modelo con las preferencias o entrene a partir de comentarios humanos. Funciona con transformadores HuggingFace.

15Instalaciones·1Tendencia·@orchestra-research

Instalación

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill fine-tuning-with-trl

SKILL.md

TRL provides post-training methods for aligning language models with human preferences.

Workflow 1: Full RLHF pipeline (SFT → Reward Model → PPO)

SFT training guide: See references/sft-training.md for dataset formats, chat templates, packing strategies, and multi-GPU training.

Ajuste los LLM mediante el aprendizaje por refuerzo con TRL - SFT para ajustar las instrucciones, DPO para la alineación de preferencias, PPO/GRPO para la optimización de recompensas y capacitación de modelos de recompensa. Úselo cuando necesite RLHF, alinee el modelo con las preferencias o entrene a partir de comentarios humanos. Funciona con transformadores HuggingFace. Fuente: orchestra-research/ai-research-skills.

Ver original

Datos (listos para citar)

Campos y comandos estables para citas de IA/búsqueda.

Comando de instalación
npx skills add https://github.com/orchestra-research/ai-research-skills --skill fine-tuning-with-trl
Categoría
</>Desarrollo
Verificado
Primera vez visto
2026-02-11
Actualizado
2026-02-18

Respuestas rápidas

¿Qué es fine-tuning-with-trl?

Ajuste los LLM mediante el aprendizaje por refuerzo con TRL - SFT para ajustar las instrucciones, DPO para la alineación de preferencias, PPO/GRPO para la optimización de recompensas y capacitación de modelos de recompensa. Úselo cuando necesite RLHF, alinee el modelo con las preferencias o entrene a partir de comentarios humanos. Funciona con transformadores HuggingFace. Fuente: orchestra-research/ai-research-skills.

¿Cómo instalo fine-tuning-with-trl?

Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/orchestra-research/ai-research-skills --skill fine-tuning-with-trl Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor

¿Dónde está el repositorio de origen?

https://github.com/orchestra-research/ai-research-skills