optimizing-attention-flash
✓フラッシュ アテンションによりトランス アテンションを最適化し、2 ~ 4 倍のスピードアップと 10 ~ 20 倍のメモリ削減を実現します。長いシーケンス (>512 トークン) を使用してトランスフォーマーをトレーニング/実行する場合、GPU メモリの問題に注意が必要な場合、またはより高速な推論が必要な場合に使用します。 PyTorch ネイティブ SDPA、フラッシュ attn ライブラリ、H100 FP8、およびスライディング ウィンドウ アテンションをサポートします。
SKILL.md
Flash Attention provides 2-4x speedup and 10-20x memory reduction for transformer attention through IO-aware tiling and recomputation.
Flash Attention uses float16/bfloat16 for speed. Float32 not supported.
Integration with HuggingFace Transformers: See references/transformers-integration.md for enabling Flash Attention in BERT, GPT, Llama models.
フラッシュ アテンションによりトランス アテンションを最適化し、2 ~ 4 倍のスピードアップと 10 ~ 20 倍のメモリ削減を実現します。長いシーケンス (>512 トークン) を使用してトランスフォーマーをトレーニング/実行する場合、GPU メモリの問題に注意が必要な場合、またはより高速な推論が必要な場合に使用します。 PyTorch ネイティブ SDPA、フラッシュ attn ライブラリ、H100 FP8、およびスライディング ウィンドウ アテンションをサポートします。 ソース: orchestra-research/ai-research-skills。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-11
- 更新日
- 2026-02-18
クイックアンサー
optimizing-attention-flash とは?
フラッシュ アテンションによりトランス アテンションを最適化し、2 ~ 4 倍のスピードアップと 10 ~ 20 倍のメモリ削減を実現します。長いシーケンス (>512 トークン) を使用してトランスフォーマーをトレーニング/実行する場合、GPU メモリの問題に注意が必要な場合、またはより高速な推論が必要な場合に使用します。 PyTorch ネイティブ SDPA、フラッシュ attn ライブラリ、H100 FP8、およびスライディング ウィンドウ アテンションをサポートします。 ソース: orchestra-research/ai-research-skills。
optimizing-attention-flash のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/orchestra-research/ai-research-skills --skill optimizing-attention-flash インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/orchestra-research/ai-research-skills
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-11