ما هي audio-language-models؟
Gemini Live API، وGrok Voice Agent، وGPT-4o-Transcribe، وأنماط AssemblyAI للصوت في الوقت الفعلي، وتحويل الكلام إلى نص، وTTS. يُستخدم عند تنفيذ برامج الوكلاء الصوتيين أو النسخ الصوتي أو الذكاء الاصطناعي للمحادثة. المصدر: yonatangross/orchestkit.