
)与 MTP(多 token 预测)结合的长文本高效训练,上下文拓展至 256K,通过亲和国产芯片的算子和分布式训练策略深度优化实现训练效率相比同规模 A800 集群从 20% 提升到 90%,解决了智能体长上下文在国产芯片训练慢的难题。在智能体强化学习训练场景,星火 X2-Flash 通过上述的算法创新 + 工程创新,大幅提升了采样推理效率,相对于非 DSA 结构的采样解码效率最高可以提升 2
当前文章:http://fajed.yueduhe.cn/ml3/m5k.html
发布时间:17:56:57
关于我们 | 蜘蛛资讯网 版权所有
Copyright ? 2019 蜘蛛资讯网 All Rights Reserved