optimizing-attention-flash

Name: optimizing-attention-flash
Author: orchestra-research

✓

Optimiert die Aufmerksamkeit des Transformators mit Flash Attention für eine 2- bis 4-fache Beschleunigung und eine 10- bis 20-fache Speicherreduzierung. Verwenden Sie diese Option, wenn Sie Transformatoren mit langen Sequenzen (> 512 Token) trainieren/ausführen, wenn Sie auf GPU-Speicherprobleme stoßen oder eine schnellere Inferenz benötigen. Unterstützt PyTorch natives SDPA, Flash-Attn-Bibliothek, H100 FP8 und Sliding Window Attention.

orchestra-research·optimizing·attention·flash

15Installationen·0Trend·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash

Details

Kategorie: </>Entwicklung
Quelle: skills.sh
Erstes Auftreten: 2026-02-11

optimizing-attention-flash

Installation

SKILL.md

Fakten (zitierbereit)

Schnelle Antworten

Was ist optimizing-attention-flash?

Wie installiere ich optimizing-attention-flash?

Wo ist das Quell-Repository?

Details

Verwandte Skills