·optimizing-attention-flash
</>

optimizing-attention-flash

orchestra-research/ai-research-skills

Optimise l'attention du transformateur avec Flash Attention pour une accélération de 2 à 4x et une réduction de mémoire de 10 à 20x. À utiliser lors de l'entraînement/de l'exécution de transformateurs avec de longues séquences (> 512 jetons), lorsque vous rencontrez des problèmes de mémoire GPU avec attention ou lorsque vous avez besoin d'une inférence plus rapide. Prend en charge le SDPA natif de PyTorch, la bibliothèque flash-attn, le H100 FP8 et l'attention des fenêtres coulissantes.

15Installations·0Tendance·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash

SKILL.md

Flash Attention provides 2-4x speedup and 10-20x memory reduction for transformer attention through IO-aware tiling and recomputation.

Flash Attention uses float16/bfloat16 for speed. Float32 not supported.

Integration with HuggingFace Transformers: See references/transformers-integration.md for enabling Flash Attention in BERT, GPT, Llama models.

Optimise l'attention du transformateur avec Flash Attention pour une accélération de 2 à 4x et une réduction de mémoire de 10 à 20x. À utiliser lors de l'entraînement/de l'exécution de transformateurs avec de longues séquences (> 512 jetons), lorsque vous rencontrez des problèmes de mémoire GPU avec attention ou lorsque vous avez besoin d'une inférence plus rapide. Prend en charge le SDPA natif de PyTorch, la bibliothèque flash-attn, le H100 FP8 et l'attention des fenêtres coulissantes. Source : orchestra-research/ai-research-skills.

Voir l'original

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash
Catégorie
</>Développement
Vérifié
Première apparition
2026-02-11
Mis à jour
2026-02-18

Réponses rapides

Qu'est-ce que optimizing-attention-flash ?

Optimise l'attention du transformateur avec Flash Attention pour une accélération de 2 à 4x et une réduction de mémoire de 10 à 20x. À utiliser lors de l'entraînement/de l'exécution de transformateurs avec de longues séquences (> 512 jetons), lorsque vous rencontrez des problèmes de mémoire GPU avec attention ou lorsque vous avez besoin d'une inférence plus rapide. Prend en charge le SDPA natif de PyTorch, la bibliothèque flash-attn, le H100 FP8 et l'attention des fenêtres coulissantes. Source : orchestra-research/ai-research-skills.

Comment installer optimizing-attention-flash ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

Où se trouve le dépôt source ?

https://github.com/orchestra-research/ai-research-skills

Détails

Catégorie
</>Développement
Source
skills.sh
Première apparition
2026-02-11