元象发布-XVERSE
编号:22705 分类:技术教程 阅读: 时间:2024-04-04
alt="MoE" src="https://img.hkspa.top/zdmsl/20240404034345_77385.jpg"/ loading="lazy">

本文介绍的模型具有两大优势,即压缩和超凡性能。它采用了稀疏激活技术,已经在效果上超越了多个业界顶流模型,并且接近超大模型的性能水平。该模型引入了元象MoE技术,经过自研创新,包括研发高效融合算子、细粒度专家设计、以及负载均衡损失项等关键步骤,最终采用了实验4对应的架构设置。

网址推荐 网址推荐