optimizing-attention-flash

Name: optimizing-attention-flash
Author: orchestra-research

✓

orchestra-research/ai-research-skills

Ottimizza l'attenzione del trasformatore con Flash Attention per un aumento della velocità di 2-4 volte e una riduzione della memoria di 10-20 volte. Da utilizzare quando si addestrano/eseguono trasformatori con sequenze lunghe (>512 token), si riscontrano problemi di memoria della GPU con attenzione o è necessaria un'inferenza più rapida. Supporta SDPA nativo PyTorch, libreria flash-attn, H100 FP8 e attenzione tramite finestra scorrevole.

orchestra-research·optimizing·attention·flash

39Installazioni·2Tendenza·@orchestra-research