¿Qué es optimizing-attention-flash?
Optimiza la atención del transformador con Flash Attention para una aceleración de 2 a 4 veces y una reducción de memoria de 10 a 20 veces. Úselo cuando entrene/ejecute transformadores con secuencias largas (>512 tokens), encuentre problemas de memoria de GPU con atención o necesite una inferencia más rápida. Admite SDPA nativo de PyTorch, biblioteca flash-attn, H100 FP8 y atención de ventana deslizante. Fuente: ovachiever/droid-tings.