·rlhf

</>

rlhf

✓

itsmostafa/llm-engineering-skills

언어 모델 정렬을 위한 인간 피드백(RLHF)의 강화 학습 이해 선호도 데이터, 보상 모델링, 정책 최적화 또는 DPO와 같은 직접 정렬 알고리즘에 대해 학습할 때 사용합니다.

itsmostafa·rlhf

5설치·1트렌드·@itsmostafa

설치

$npx skills add https://github.com/itsmostafa/llm-engineering-skills --skill rlhf

상세

카테고리: </>개발 도구
출처: skills.sh
최초 등록: 2026-02-11

관련 Skills

context-engineering

prompt-engineering