TransformerLens is the de facto standard library for mechanistic interpretability research on GPT-style language models. Created by Neel Nanda and maintained by Bryce Meyer, it provides clean interfaces to inspect and manipulate model internals via HookPoints on every activation.
The main class that wraps transformer models with HookPoints on every activation:
| GPT-2 | gpt2, gpt2-medium, gpt2-large, gpt2-xl | | LLaMA | llama-7b, llama-13b, llama-2-7b, llama-2-13b | | EleutherAI | pythia-70m to pythia-12b, gpt-neo, gpt-j-6b | | Mistral | mistral-7b, mixtral-8x7b | | Others | phi, qwen, opt, gemma |
Содержит рекомендации по исследованию механистической интерпретируемости с использованием TransformerLens для проверки и управления внутренними компонентами трансформатора с помощью HookPoints и кэширования активации. Используйте при обратном проектировании алгоритмов модели, изучении моделей внимания или проведении экспериментов по исправлению активации. Источник: orchestra-research/ai-research-skills.