Single-paragraph summaries optimized for social sharing. Insight over information.
Transformer의 attention은 "어떤 토큰을 얼마나 볼지"를 결정하는데, 이 논문은 softmax attention을 Entropic Optimal Transport(EOT)라는 최적화 문제의 해로 재해석한다. 이 관점이 주는 통찰은: attention 계산에는 암묵적으로 "모든 위치가 동등하게 중요하다"는 uniform prior가 숨어있다는 것이다. 이게 왜 문제인가? LLM에서 첫 번째 토큰이 의미와 무관하게 엄청난 attention을 받는 attention sink 현상이 있다. Softmax는 합이 1인 확률을 출력해야 하므로, query가 마땅히 볼 토큰이 없을 때 attention을 "버릴 곳"이 필요한데, uniform prior 하에서 이를 구현하려면 첫 토큰의 key vector가 "나는 쓰레기통이야"라는...
Implication: EOT 관점은 attention의 숨겨진 가정을 드러내고, 그 가정을 바꿀 수 있다는 설계 자유도를 열어준다—attention sink는 uniform prior의 부산물이며, prior를 명시적으로 모델링하면 해결된다.
Создавайте общие бумажные сводки для Discord/Slack/Twitter. Используйте, когда пользователь предоставляет документы в формате arxiv и хочет поделиться удобочитаемым резюме. Запускается по таким фразам, как «논문 요약», «резюме статьи», «поделиться этой статьей», «디스코드에 공유», «подвести итоги для обмена». Составляет краткие описания, состоящие из одного абзаца, которые объясняют, ПОЧЕМУ исследование имеет значение, а не только ЧТО оно делает. Источник: iamseungpil/claude-for-dslab.