optimizing-attention-flash

Name: optimizing-attention-flash
Author: ovachiever

✓

ovachiever/droid-tings

Optimiza la atención del transformador con Flash Attention para una aceleración de 2 a 4 veces y una reducción de memoria de 10 a 20 veces. Úselo cuando entrene/ejecute transformadores con secuencias largas (>512 tokens), encuentre problemas de memoria de GPU con atención o necesite una inferencia más rápida. Admite SDPA nativo de PyTorch, biblioteca flash-attn, H100 FP8 y atención de ventana deslizante.

ovachiever·optimizing·attention·flash

27Instalaciones·0Tendencia·@ovachiever