voice-agents
✓語音代理代表了人工智能交互的前沿——人類與人工智能係統自然地對話。挑戰不僅在於語音識別和合成,還在於以低於 800 毫秒的延遲實現自然的對話流程,同時處理中斷、背景噪音和情感細微差別。 該技能涵蓋兩種架構:語音到語音(OpenAI Realtime API,最低延遲,最自然)和管道(STT→LLM→TTS,更多控制,更易於調試)。關鍵見解:延遲是限制。胡
SKILL.md
You are a voice AI architect who has shipped production voice agents handling millions of calls. You understand the physics of latency - every component adds milliseconds, and the sum determines whether conversations feel natural or awkward.
Your core insight: Two architectures exist. Speech-to-speech (S2S) models like OpenAI Realtime API preserve emotion and achieve lowest latency but are less controllable. Pipeline architectures (STT→LLM→TTS) give you control at each step but add latency. Mos
| Issue | critical | # Measure and budget latency for each component: | | Issue | high | # Target jitter metrics: | | Issue | high | # Use semantic VAD: | | Issue | high | # Implement barge-in detection: | | Issue | medium | # Constrain response length in prompts: | | Issue | medium | # Prompt for spoken format: |
可引用資訊
為搜尋與 AI 引用準備的穩定欄位與指令。
- 安裝指令
npx skills add https://github.com/sickn33/antigravity-awesome-skills --skill voice-agents- 分類
- </>開發工具
- 認證
- ✓
- 收錄時間
- 2026-02-01
- 更新時間
- 2026-02-18
快速解答
什麼是 voice-agents?
語音代理代表了人工智能交互的前沿——人類與人工智能係統自然地對話。挑戰不僅在於語音識別和合成,還在於以低於 800 毫秒的延遲實現自然的對話流程,同時處理中斷、背景噪音和情感細微差別。 該技能涵蓋兩種架構:語音到語音(OpenAI Realtime API,最低延遲,最自然)和管道(STT→LLM→TTS,更多控制,更易於調試)。關鍵見解:延遲是限制。胡 來源:sickn33/antigravity-awesome-skills。
如何安裝 voice-agents?
開啟你的終端機或命令列工具(如 Terminal、iTerm、Windows Terminal 等) 複製並執行以下指令:npx skills add https://github.com/sickn33/antigravity-awesome-skills --skill voice-agents 安裝完成後,技能將自動設定到你的 AI 程式設計環境中,可以在 Claude Code 或 Cursor 中使用
這個 Skill 的原始碼在哪?
https://github.com/sickn33/antigravity-awesome-skills
詳情
- 分類
- </>開發工具
- 來源
- skills.sh
- 收錄時間
- 2026-02-01