Что такое miles-rl-training?
Содержит рекомендации по обучению RL корпоративного уровня с использованием миль, готовой к производству версии слизи. Используйте при обучении больших моделей MoE с помощью FP8/INT4, когда требуется согласование вывода поезда или требуется спекулятивный RL для максимальной пропускной способности. Источник: orchestra-research/ai-research-skills.