·optimizing-attention-flash
</>

optimizing-attention-flash

orchestra-research/ai-research-skills

Optimiert die Aufmerksamkeit des Transformators mit Flash Attention für eine 2- bis 4-fache Beschleunigung und eine 10- bis 20-fache Speicherreduzierung. Verwenden Sie diese Option, wenn Sie Transformatoren mit langen Sequenzen (> 512 Token) trainieren/ausführen, wenn Sie auf GPU-Speicherprobleme stoßen oder eine schnellere Inferenz benötigen. Unterstützt PyTorch natives SDPA, Flash-Attn-Bibliothek, H100 FP8 und Sliding Window Attention.

15Installationen·0Trend·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash

SKILL.md

Flash Attention provides 2-4x speedup and 10-20x memory reduction for transformer attention through IO-aware tiling and recomputation.

Flash Attention uses float16/bfloat16 for speed. Float32 not supported.

Integration with HuggingFace Transformers: See references/transformers-integration.md for enabling Flash Attention in BERT, GPT, Llama models.

Optimiert die Aufmerksamkeit des Transformators mit Flash Attention für eine 2- bis 4-fache Beschleunigung und eine 10- bis 20-fache Speicherreduzierung. Verwenden Sie diese Option, wenn Sie Transformatoren mit langen Sequenzen (> 512 Token) trainieren/ausführen, wenn Sie auf GPU-Speicherprobleme stoßen oder eine schnellere Inferenz benötigen. Unterstützt PyTorch natives SDPA, Flash-Attn-Bibliothek, H100 FP8 und Sliding Window Attention. Quelle: orchestra-research/ai-research-skills.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-11
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist optimizing-attention-flash?

Optimiert die Aufmerksamkeit des Transformators mit Flash Attention für eine 2- bis 4-fache Beschleunigung und eine 10- bis 20-fache Speicherreduzierung. Verwenden Sie diese Option, wenn Sie Transformatoren mit langen Sequenzen (> 512 Token) trainieren/ausführen, wenn Sie auf GPU-Speicherprobleme stoßen oder eine schnellere Inferenz benötigen. Unterstützt PyTorch natives SDPA, Flash-Attn-Bibliothek, H100 FP8 und Sliding Window Attention. Quelle: orchestra-research/ai-research-skills.

Wie installiere ich optimizing-attention-flash?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/orchestra-research/ai-research-skills