·simpo-training

تحسين التفضيلات البسيطة لمحاذاة LLM. بديل خالٍ من المراجع لـ DPO مع أداء أفضل (+6.4 نقطة في AlpacaEval 2.0). لا حاجة إلى نموذج مرجعي، فهو أكثر كفاءة من DPO. يُستخدم لمحاذاة التفضيلات عندما تريد تدريبًا أبسط وأسرع من DPO/PPO.

40التثبيتات·2الرائج·@orchestra-research

التثبيت

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training

كيفية تثبيت simpo-training

ثبّت مهارة الذكاء الاصطناعي simpo-training بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: orchestra-research/ai-research-skills.

SimPO is a reference-free preference optimization method that outperforms DPO without needing a reference model.

Loss functions: See references/loss-functions.md for sigmoid vs hinge loss, mathematical formulations, and when to use each.

Hyperparameter tuning: See references/hyperparameters.md for beta, gamma, learning rate selection guide, and model-size-specific recommendations.

تحسين التفضيلات البسيطة لمحاذاة LLM. بديل خالٍ من المراجع لـ DPO مع أداء أفضل (+6.4 نقطة في AlpacaEval 2.0). لا حاجة إلى نموذج مرجعي، فهو أكثر كفاءة من DPO. يُستخدم لمحاذاة التفضيلات عندما تريد تدريبًا أبسط وأسرع من DPO/PPO. المصدر: orchestra-research/ai-research-skills.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-02-11
آخر تحديث
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

إجابات سريعة

ما هي simpo-training؟

تحسين التفضيلات البسيطة لمحاذاة LLM. بديل خالٍ من المراجع لـ DPO مع أداء أفضل (+6.4 نقطة في AlpacaEval 2.0). لا حاجة إلى نموذج مرجعي، فهو أكثر كفاءة من DPO. يُستخدم لمحاذاة التفضيلات عندما تريد تدريبًا أبسط وأسرع من DPO/PPO. المصدر: orchestra-research/ai-research-skills.

كيف أثبّت simpo-training؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/orchestra-research/ai-research-skills

التفاصيل

الفئة
</>أدوات التطوير
المصدر
skills.sh
أول ظهور
2026-02-11