optimizing-attention-flash
✓Optimise l'attention du transformateur avec Flash Attention pour une accélération de 2 à 4x et une réduction de mémoire de 10 à 20x. À utiliser lors de l'entraînement/de l'exécution de transformateurs avec de longues séquences (> 512 jetons), lorsque vous rencontrez des problèmes de mémoire GPU avec attention ou lorsque vous avez besoin d'une inférence plus rapide. Prend en charge le SDPA natif de PyTorch, la bibliothèque flash-attn, le H100 FP8 et l'attention des fenêtres coulissantes.
Installation
SKILL.md
Flash Attention provides 2-4x speedup and 10-20x memory reduction for transformer attention through IO-aware tiling and recomputation.
Flash Attention uses float16/bfloat16 for speed. Float32 not supported.
Integration with HuggingFace Transformers: See references/transformers-integration.md for enabling Flash Attention in BERT, GPT, Llama models.
Optimise l'attention du transformateur avec Flash Attention pour une accélération de 2 à 4x et une réduction de mémoire de 10 à 20x. À utiliser lors de l'entraînement/de l'exécution de transformateurs avec de longues séquences (> 512 jetons), lorsque vous rencontrez des problèmes de mémoire GPU avec attention ou lorsque vous avez besoin d'une inférence plus rapide. Prend en charge le SDPA natif de PyTorch, la bibliothèque flash-attn, le H100 FP8 et l'attention des fenêtres coulissantes. Source : orchestra-research/ai-research-skills.
Faits (prêts à citer)
Champs et commandes stables pour les citations IA/recherche.
- Commande d'installation
npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash- Catégorie
- </>Développement
- Vérifié
- ✓
- Première apparition
- 2026-02-11
- Mis à jour
- 2026-02-18
Réponses rapides
Qu'est-ce que optimizing-attention-flash ?
Optimise l'attention du transformateur avec Flash Attention pour une accélération de 2 à 4x et une réduction de mémoire de 10 à 20x. À utiliser lors de l'entraînement/de l'exécution de transformateurs avec de longues séquences (> 512 jetons), lorsque vous rencontrez des problèmes de mémoire GPU avec attention ou lorsque vous avez besoin d'une inférence plus rapide. Prend en charge le SDPA natif de PyTorch, la bibliothèque flash-attn, le H100 FP8 et l'attention des fenêtres coulissantes. Source : orchestra-research/ai-research-skills.
Comment installer optimizing-attention-flash ?
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor
Où se trouve le dépôt source ?
https://github.com/orchestra-research/ai-research-skills
Détails
- Catégorie
- </>Développement
- Source
- skills.sh
- Première apparition
- 2026-02-11