·simpo-training
</>

simpo-training

تحسين التفضيلات البسيطة لمحاذاة LLM. بديل خالٍ من المراجع لـ DPO مع أداء أفضل (+6.4 نقطة في AlpacaEval 2.0). لا حاجة إلى نموذج مرجعي، فهو أكثر كفاءة من DPO. يُستخدم لمحاذاة التفضيلات عندما تريد تدريبًا أبسط وأسرع من DPO/PPO.

27التثبيتات·0الرائج·@ovachiever

التثبيت

$npx skills add https://github.com/ovachiever/droid-tings --skill simpo-training

كيفية تثبيت simpo-training

ثبّت مهارة الذكاء الاصطناعي simpo-training بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/ovachiever/droid-tings --skill simpo-training
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: ovachiever/droid-tings.

SimPO is a reference-free preference optimization method that outperforms DPO without needing a reference model.

Loss functions: See references/loss-functions.md for sigmoid vs hinge loss, mathematical formulations, and when to use each.

Hyperparameter tuning: See references/hyperparameters.md for beta, gamma, learning rate selection guide, and model-size-specific recommendations.

تحسين التفضيلات البسيطة لمحاذاة LLM. بديل خالٍ من المراجع لـ DPO مع أداء أفضل (+6.4 نقطة في AlpacaEval 2.0). لا حاجة إلى نموذج مرجعي، فهو أكثر كفاءة من DPO. يُستخدم لمحاذاة التفضيلات عندما تريد تدريبًا أبسط وأسرع من DPO/PPO. المصدر: ovachiever/droid-tings.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/ovachiever/droid-tings --skill simpo-training
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-03-03
آخر تحديث
2026-03-10

Browse more skills from ovachiever/droid-tings

إجابات سريعة

ما هي simpo-training؟

تحسين التفضيلات البسيطة لمحاذاة LLM. بديل خالٍ من المراجع لـ DPO مع أداء أفضل (+6.4 نقطة في AlpacaEval 2.0). لا حاجة إلى نموذج مرجعي، فهو أكثر كفاءة من DPO. يُستخدم لمحاذاة التفضيلات عندما تريد تدريبًا أبسط وأسرع من DPO/PPO. المصدر: ovachiever/droid-tings.

كيف أثبّت simpo-training؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/ovachiever/droid-tings --skill simpo-training بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/ovachiever/droid-tings