optimizing-attention-flash

Name: optimizing-attention-flash
Author: orchestra-research

✓

orchestra-research/ai-research-skills

يعمل على تحسين انتباه المحولات من خلال Flash Attention لتسريع 2-4x وتقليل الذاكرة 10-20x. يُستخدم عند تدريب/تشغيل المحولات بتسلسلات طويلة (> 512 رمزًا)، أو عند مواجهة مشكلات في ذاكرة وحدة معالجة الرسومات (GPU) مع الانتباه، أو عند الحاجة إلى استنتاج أسرع. يدعم PyTorch الأصلي SDPA ومكتبة flash-attn وH100 FP8 وانتبه النافذة المنزلقة.

orchestra-research·optimizing·attention·flash

39التثبيتات·2الرائج·@orchestra-research