optimizing-attention-flash이란?
2~4배 속도 향상 및 10~20배 메모리 감소를 위한 Flash Attention으로 변환기 주의를 최적화합니다. 긴 시퀀스(512개 이상의 토큰)로 변환기를 훈련/실행하거나 GPU 메모리 문제가 주의를 끌거나 더 빠른 추론이 필요한 경우에 사용합니다. PyTorch 기본 SDPA, 플래시 attn 라이브러리, H100 FP8 및 슬라이딩 윈도우 어텐션을 지원합니다. 출처: ovachiever/droid-tings.