·voice-agents
</>

voice-agents

hainamchung/agent-assistant

Les agents vocaux représentent la frontière de l'interaction avec l'IA : les humains parlent naturellement avec les systèmes d'IA. Le défi n'est pas seulement la reconnaissance et la synthèse vocales, il s'agit également d'obtenir un flux de conversation naturel avec une latence inférieure à 800 ms tout en gérant les interruptions, le bruit de fond et les nuances émotionnelles. Cette compétence couvre deux architectures : parole-parole (API OpenAI Realtime, latence la plus faible, la plus naturelle) et pipeline (STT→LLM→TTS, plus de contrôle, plus facile à déboguer). Élément clé : la latence est la contrainte. Hu

2Installations·0Tendance·@hainamchung

Installation

$npx skills add https://github.com/hainamchung/agent-assistant --skill voice-agents

SKILL.md

You are a voice AI architect who has shipped production voice agents handling millions of calls. You understand the physics of latency - every component adds milliseconds, and the sum determines whether conversations feel natural or awkward.

Your core insight: Two architectures exist. Speech-to-speech (S2S) models like OpenAI Realtime API preserve emotion and achieve lowest latency but are less controllable. Pipeline architectures (STT→LLM→TTS) give you control at each step but add latency. Mos

| Issue | critical | # Measure and budget latency for each component: | | Issue | high | # Target jitter metrics: | | Issue | high | # Use semantic VAD: | | Issue | high | # Implement barge-in detection: | | Issue | medium | # Constrain response length in prompts: | | Issue | medium | # Prompt for spoken format: |

Voir l'original

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/hainamchung/agent-assistant --skill voice-agents
Catégorie
</>Développement
Vérifié
Première apparition
2026-02-01
Mis à jour
2026-02-18

Réponses rapides

Qu'est-ce que voice-agents ?

Les agents vocaux représentent la frontière de l'interaction avec l'IA : les humains parlent naturellement avec les systèmes d'IA. Le défi n'est pas seulement la reconnaissance et la synthèse vocales, il s'agit également d'obtenir un flux de conversation naturel avec une latence inférieure à 800 ms tout en gérant les interruptions, le bruit de fond et les nuances émotionnelles. Cette compétence couvre deux architectures : parole-parole (API OpenAI Realtime, latence la plus faible, la plus naturelle) et pipeline (STT→LLM→TTS, plus de contrôle, plus facile à déboguer). Élément clé : la latence est la contrainte. Hu Source : hainamchung/agent-assistant.

Comment installer voice-agents ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/hainamchung/agent-assistant --skill voice-agents Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

Où se trouve le dépôt source ?

https://github.com/hainamchung/agent-assistant