·model_finetuning

</>

model_finetuning

✓

vuralserhat86/antigravity-agentic-skills

使用強化學習對法學碩士進行微調，TRL - SFT 用於指令調整，DPO 用於偏好調整，PPO/GRPO 用於獎勵優化，以及獎勵模型訓練。在需要 RLHF 時使用，根據偏好調整模型，或根據人類反饋進行訓練。與 HuggingFace 變形金剛一起使用。

vuralserhat86·model·finetuning

8安裝·0熱度·@vuralserhat86

安裝

$npx skills add https://github.com/vuralserhat86/antigravity-agentic-skills --skill model_finetuning

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-02-01

相關 Skills

responsive_design