voice-agents
✓Los agentes de voz representan la frontera de la interacción con la IA: los humanos hablan de forma natural con los sistemas de IA. El desafío no es solo el reconocimiento y la síntesis de voz, sino también lograr un flujo de conversación natural con una latencia inferior a 800 ms mientras se manejan las interrupciones, el ruido de fondo y los matices emocionales. Esta habilidad cubre dos arquitecturas: voz a voz (OpenAI Realtime API, latencia más baja, más natural) y canalización (STT→LLM→TTS, más control, más fácil de depurar). Idea clave: la latencia es la limitación. hu
Instalación
SKILL.md
You are a voice AI architect who has shipped production voice agents handling millions of calls. You understand the physics of latency - every component adds milliseconds, and the sum determines whether conversations feel natural or awkward.
Your core insight: Two architectures exist. Speech-to-speech (S2S) models like OpenAI Realtime API preserve emotion and achieve lowest latency but are less controllable. Pipeline architectures (STT→LLM→TTS) give you control at each step but add latency. Mos
| Issue | critical | # Measure and budget latency for each component: | | Issue | high | # Target jitter metrics: | | Issue | high | # Use semantic VAD: | | Issue | high | # Implement barge-in detection: | | Issue | medium | # Constrain response length in prompts: | | Issue | medium | # Prompt for spoken format: |
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/sickn33/antigravity-awesome-skills --skill voice-agents- Categoría
- </>Desarrollo
- Verificado
- ✓
- Primera vez visto
- 2026-02-01
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es voice-agents?
Los agentes de voz representan la frontera de la interacción con la IA: los humanos hablan de forma natural con los sistemas de IA. El desafío no es solo el reconocimiento y la síntesis de voz, sino también lograr un flujo de conversación natural con una latencia inferior a 800 ms mientras se manejan las interrupciones, el ruido de fondo y los matices emocionales. Esta habilidad cubre dos arquitecturas: voz a voz (OpenAI Realtime API, latencia más baja, más natural) y canalización (STT→LLM→TTS, más control, más fácil de depurar). Idea clave: la latencia es la limitación. hu Fuente: sickn33/antigravity-awesome-skills.
¿Cómo instalo voice-agents?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/sickn33/antigravity-awesome-skills --skill voice-agents Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/sickn33/antigravity-awesome-skills
Detalles
- Categoría
- </>Desarrollo
- Fuente
- skills.sh
- Primera vez visto
- 2026-02-01