·evaluating-llms
</>

evaluating-llms

Оценивайте системы LLM с помощью автоматизированных показателей, LLM-судьи и тестов. Используйте при оперативном тестировании качества, проверке конвейеров RAG, измерении безопасности (галлюцинации, предвзятость) или сравнении моделей для производственного развертывания.

15Установки·0Тренд·@ancoleman

Установка

$npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms

Как установить evaluating-llms

Быстро установите AI-навык evaluating-llms в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: ancoleman/ai-design-components.

Evaluate Large Language Model (LLM) systems using automated metrics, LLM-as-judge patterns, and standardized benchmarks to ensure production quality and safety.

| Task Type | Primary Approach | Metrics | Tools |

| Classification (sentiment, intent) | Automated metrics | Accuracy, Precision, Recall, F1 | scikit-learn | | Generation (summaries, creative text) | LLM-as-judge + automated | BLEU, ROUGE, BERTScore, Quality rubric | GPT-4/Claude for judging | | Question Answering | Exact match + semantic similarity | EM, F1, Cosine similarity | Custom evaluators |

Оценивайте системы LLM с помощью автоматизированных показателей, LLM-судьи и тестов. Используйте при оперативном тестировании качества, проверке конвейеров RAG, измерении безопасности (галлюцинации, предвзятость) или сравнении моделей для производственного развертывания. Источник: ancoleman/ai-design-components.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms
Категория
</>Разработка
Проверено
Впервые замечено
2026-02-01
Обновлено
2026-03-10

Browse more skills from ancoleman/ai-design-components

Короткие ответы

Что такое evaluating-llms?

Оценивайте системы LLM с помощью автоматизированных показателей, LLM-судьи и тестов. Используйте при оперативном тестировании качества, проверке конвейеров RAG, измерении безопасности (галлюцинации, предвзятость) или сравнении моделей для производственного развертывания. Источник: ancoleman/ai-design-components.

Как установить evaluating-llms?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/ancoleman/ai-design-components --skill evaluating-llms После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/ancoleman/ai-design-components

Детали

Категория
</>Разработка
Источник
skills.sh
Впервые замечено
2026-02-01