audio-language-models
✓Gemini Live API、Grok Voice Agent、GPT-4o-Transcribe、リアルタイム音声、Speech-to-Text、および TTS 用の AssemblyAI パターン。音声エージェント、音声転写、または会話型 AI を実装する場合に使用します。
SKILL.md
Build real-time voice agents and audio processing using the latest native speech-to-speech models.
| Model | Latency | Languages | Price | Best For |
| Grok Voice Agent | <1s TTFA | 100+ | $0.05/min | Fastest, #1 Big Bench | | Gemini Live API | Low | 24 (30 voices) | Usage-based | Emotional awareness | | OpenAI Realtime | 1s | 50+ | $0.10/min | Ecosystem integration |
Gemini Live API、Grok Voice Agent、GPT-4o-Transcribe、リアルタイム音声、Speech-to-Text、および TTS 用の AssemblyAI パターン。音声エージェント、音声転写、または会話型 AI を実装する場合に使用します。 ソース: yonatangross/orchestkit。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/yonatangross/orchestkit --skill audio-language-models- カテゴリ
- *クリエイティブ
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
audio-language-models とは?
Gemini Live API、Grok Voice Agent、GPT-4o-Transcribe、リアルタイム音声、Speech-to-Text、および TTS 用の AssemblyAI パターン。音声エージェント、音声転写、または会話型 AI を実装する場合に使用します。 ソース: yonatangross/orchestkit。
audio-language-models のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/yonatangross/orchestkit --skill audio-language-models インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/yonatangross/orchestkit
詳細
- カテゴリ
- *クリエイティブ
- ソース
- skills.sh
- 初回登録
- 2026-02-01