Was ist optimizing-attention-flash?
Optimiert die Aufmerksamkeit des Transformators mit Flash Attention für eine 2- bis 4-fache Beschleunigung und eine 10- bis 20-fache Speicherreduzierung. Verwenden Sie diese Option, wenn Sie Transformatoren mit langen Sequenzen (> 512 Token) trainieren/ausführen, wenn Sie auf GPU-Speicherprobleme stoßen oder eine schnellere Inferenz benötigen. Unterstützt PyTorch natives SDPA, Flash-Attn-Bibliothek, H100 FP8 und Sliding Window Attention. Quelle: ovachiever/droid-tings.