性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

关注+2024-04-17作者：清晨

JetMoE-8B由24个块组成，每个块包含两个MoE层:注意力头混合（MoA）和MLP专家混合(MoE)。每个MoA和MoE层有8个专家，并且每个输入令牌激活2个专家。这种独特的设计使得在不牺牲性能的情况下显著降低了计算成本。

值得一提的是，尽管JetMoE-8B的总参数量达到80亿，但由于其特殊的架构设计，每个输入令牌仅激活约22亿参数，从而大大减少了总体的计算需求。

此外，JetMoE-8B的训练完全依赖于公开数据，并且整个训练过程，包括代码，都是完全开源的，这无疑为AI领域的研究和应用提供了极大的便利。

在与Open LLM排行榜相同的评估方法下，JetMoE-8B的性能表现优于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B，这一结果无疑是对其高效性能的最好证明。

与此同时，与具有类似训练和推理计算的模型（如Gemma-2B）相比，JetMoE-8B展示了更优异的表现。这不仅证明了其在性能上的优势，也展示了其在成本效益上的显著优势。