·simpo-training
</>

simpo-training

Простая оптимизация предпочтений для согласования LLM. Безреференсная альтернатива DPO с лучшей производительностью (+6,4 балла по AlpacaEval 2.0). Эталонная модель не требуется, она более эффективна, чем DPO. Используйте для согласования предпочтений, если хотите более простое и быстрое обучение, чем DPO/PPO.

39Установки·1Тренд·@orchestra-research

Установка

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training

Как установить simpo-training

Быстро установите AI-навык simpo-training в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: orchestra-research/ai-research-skills.

SimPO is a reference-free preference optimization method that outperforms DPO without needing a reference model.

Loss functions: See references/loss-functions.md for sigmoid vs hinge loss, mathematical formulations, and when to use each.

Hyperparameter tuning: See references/hyperparameters.md for beta, gamma, learning rate selection guide, and model-size-specific recommendations.

Простая оптимизация предпочтений для согласования LLM. Безреференсная альтернатива DPO с лучшей производительностью (+6,4 балла по AlpacaEval 2.0). Эталонная модель не требуется, она более эффективна, чем DPO. Используйте для согласования предпочтений, если хотите более простое и быстрое обучение, чем DPO/PPO. Источник: orchestra-research/ai-research-skills.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training
Категория
</>Разработка
Проверено
Впервые замечено
2026-02-11
Обновлено
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

Короткие ответы

Что такое simpo-training?

Простая оптимизация предпочтений для согласования LLM. Безреференсная альтернатива DPO с лучшей производительностью (+6,4 балла по AlpacaEval 2.0). Эталонная модель не требуется, она более эффективна, чем DPO. Используйте для согласования предпочтений, если хотите более простое и быстрое обучение, чем DPO/PPO. Источник: orchestra-research/ai-research-skills.

Как установить simpo-training?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/orchestra-research/ai-research-skills

Детали

Категория
</>Разработка
Источник
skills.sh
Впервые замечено
2026-02-11