Что такое distributed-llm-pretraining-torchtitan?
Обеспечивает предварительное обучение распределенному LLM на основе PyTorch с использованием torchtitan с 4D-параллелизмом (FSDP2, TP, PP, CP). Используйте при предварительном обучении Llama 3.1, DeepSeek V3 или пользовательских моделей в масштабе от 8 до 512+ графических процессоров с Float8, torch.compile и распределенными контрольными точками. Источник: orchestra-research/ai-research-skills.