optimizing-attention-flash

Name: optimizing-attention-flash
Author: orchestra-research

✓

Optimiza la atención del transformador con Flash Attention para una aceleración de 2 a 4 veces y una reducción de memoria de 10 a 20 veces. Úselo cuando entrene/ejecute transformadores con secuencias largas (>512 tokens), encuentre problemas de memoria de GPU con atención o necesite una inferencia más rápida. Admite SDPA nativo de PyTorch, biblioteca flash-attn, H100 FP8 y atención de ventana deslizante.

orchestra-research·optimizing·attention·flash

15Instalaciones·0Tendencia·@orchestra-research