miles-rl-training

Name: miles-rl-training
Author: orchestra-research

✓

orchestra-research/ai-research-skills

Fornisce indicazioni per la formazione RL di livello aziendale utilizzando miglia, una forchetta di melma pronta per la produzione. Da utilizzare durante l'addestramento di modelli MoE di grandi dimensioni con FP8/INT4, che necessitano di allineamento dell'inferenza del treno o di RL speculativo per la massima produttività.

orchestra-research·miles·rl·training

38Installazioni·1Tendenza·@orchestra-research