advanced-evaluation이란?
이 기술은 사용자가 "판사로서 LLM 구현", "모델 출력 비교", "평가 루브릭 생성", "평가 편향 완화"를 요청하거나 직접 채점, 쌍별 비교, 위치 편향, 평가 파이프라인 또는 자동화된 품질 평가를 언급할 때 사용해야 합니다. 출처: chakshugautam/games.
이 기술은 사용자가 "판사로서 LLM 구현", "모델 출력 비교", "평가 루브릭 생성", "평가 편향 완화"를 요청하거나 직접 채점, 쌍별 비교, 위치 편향, 평가 파이프라인 또는 자동화된 품질 평가를 언급할 때 사용해야 합니다.
명령줄에서 advanced-evaluation AI 스킬을 개발 환경에 빠르게 설치
출처: chakshugautam/games.
This skill covers production-grade techniques for evaluating LLM outputs using LLMs as judges. It synthesizes research from academic papers, industry practices, and practical implementation experience into actionable patterns for building reliable evaluation systems.
Key insight: LLM-as-a-Judge is not a single technique but a family of approaches, each suited to different evaluation contexts. Choosing the right approach and mitigating known biases is the core competency this skill develops.
Evaluation approaches fall into two primary categories with distinct reliability profiles:
이 기술은 사용자가 "판사로서 LLM 구현", "모델 출력 비교", "평가 루브릭 생성", "평가 편향 완화"를 요청하거나 직접 채점, 쌍별 비교, 위치 편향, 평가 파이프라인 또는 자동화된 품질 평가를 언급할 때 사용해야 합니다. 출처: chakshugautam/games.
AI/검색 인용용 안정적인 필드와 명령어.
npx skills add https://github.com/chakshugautam/games --skill advanced-evaluation이 기술은 사용자가 "판사로서 LLM 구현", "모델 출력 비교", "평가 루브릭 생성", "평가 편향 완화"를 요청하거나 직접 채점, 쌍별 비교, 위치 편향, 평가 파이프라인 또는 자동화된 품질 평가를 언급할 때 사용해야 합니다. 출처: chakshugautam/games.
터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/chakshugautam/games --skill advanced-evaluation 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code, Cursor, OpenClaw에서 사용할 수 있습니다
https://github.com/chakshugautam/games