·evaluating-llms-harness
</>

evaluating-llms-harness

60개 이상의 학술 벤치마크(MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag)에서 LLM을 평가합니다. 모델 품질 벤치마킹, 모델 비교, 학업 결과 보고 또는 교육 진행 상황 추적에 사용합니다. EleutherAI, HuggingFace 및 주요 연구소에서 사용하는 산업 표준입니다. HuggingFace, vLLM, API를 지원합니다.

26설치·0트렌드·@ovachiever

설치

$npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness

evaluating-llms-harness 설치 방법

명령줄에서 evaluating-llms-harness AI 스킬을 개발 환경에 빠르게 설치

  1. 터미널 열기: 터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다
  2. 설치 명령어 실행: 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
  3. 설치 확인: 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code, Cursor, OpenClaw에서 사용할 수 있습니다

출처: ovachiever/droid-tings.

lm-evaluation-harness evaluates LLMs across 60+ academic benchmarks using standardized prompts and metrics.

Benchmark descriptions: See references/benchmark-guide.md for detailed description of all 60+ tasks, what they measure, and interpretation.

Custom tasks: See references/custom-tasks.md for creating domain-specific evaluation tasks.

60개 이상의 학술 벤치마크(MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag)에서 LLM을 평가합니다. 모델 품질 벤치마킹, 모델 비교, 학업 결과 보고 또는 교육 진행 상황 추적에 사용합니다. EleutherAI, HuggingFace 및 주요 연구소에서 사용하는 산업 표준입니다. HuggingFace, vLLM, API를 지원합니다. 출처: ovachiever/droid-tings.

인용 가능한 정보

AI/검색 인용용 안정적인 필드와 명령어.

설치 명령어
npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness
카테고리
</>개발 도구
인증됨
최초 등록
2026-03-03
업데이트
2026-03-10

Browse more skills from ovachiever/droid-tings

빠른 답변

evaluating-llms-harness이란?

60개 이상의 학술 벤치마크(MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag)에서 LLM을 평가합니다. 모델 품질 벤치마킹, 모델 비교, 학업 결과 보고 또는 교육 진행 상황 추적에 사용합니다. EleutherAI, HuggingFace 및 주요 연구소에서 사용하는 산업 표준입니다. HuggingFace, vLLM, API를 지원합니다. 출처: ovachiever/droid-tings.

evaluating-llms-harness 설치 방법은?

터미널 또는 명령줄 도구(Terminal, iTerm, Windows Terminal 등)를 엽니다 이 명령어를 복사하여 실행합니다: npx skills add https://github.com/ovachiever/droid-tings --skill evaluating-llms-harness 설치 후 스킬은 자동으로 AI 코딩 환경에 설정되어 Claude Code, Cursor, OpenClaw에서 사용할 수 있습니다

소스 저장소는 어디인가요?

https://github.com/ovachiever/droid-tings