英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

关注+2024-06-16作者：路西蓝

刚刚，英伟达全新发布的开源模型Nemotron-4 340B，有可能彻底改变训练LLM的方式！从此，或许各行各业都不再需要昂贵的真实世界数据集了。而且，Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，甚至可以和GPT- 4 掰手腕！

就在刚刚，英伟达再一次证明了自己的AI创新领域的领导地位。

它全新发布的Nemotron-4 340B，是一系列具有开创意义的开源模型，有可能彻底改变训练LLM的合成数据生成方式！

论文地址：https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf

这一突破性进展，标志着AI行业的一个重要里程碑——

从此，各行各业都无需依赖大量昂贵的真实世界数据集了，用合成数据，就可以创建性能强大的特定领域大语言模型！

现在，Nemotron-4 340B已经取得了辉煌战绩，直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，甚至可以和GPT- 4 一较高下！

其实，以前这个模型就曾登上大模型竞技场LMSys Chatbot Arena，当时它的别名是「june-chatbot」

具体来说，Nemotron-4 340B包括基础模型Base、指令模型Instruct和奖励模型Reward，并构建了一个高质量合成数据生成的完整流程。

模型支持4K上下文窗口、 50 多种自然语言和 40 多种编程语言，训练数据截止到 2023 年 6 月。

训练数据方面，英伟达采用了高达 9 万亿个token。其中， 8 万亿用于预训练， 1 万亿用于继续训练以提高质量。

值得一提的是，指令模型的训练是在98%的合成数据上完成的。

结果显示，Nemotron-4-340B-Base在常识推理任务，如ARC-Challenge、MMLU和BigBench Hard基准测试中，可以和Llama-3 70B、Mixtral 8x22B和Qwen-2 72B模型媲美。

而Nemotron-4-340B-Instruct，在指令跟随和聊天能力方面也超越了相应的指令模型。

Nemotron-4-340B-Reward在发表时，在RewardBench上实现了最高准确性，甚至超过了GPT-4o- 0513 和Gemini 1.5 Pro- 0514 这样的专有模型。

在BF16 精度下，模型的推理需要 8 块H200，或 16 块H100/A100 80GB。如果是在FP8 精度下，则只需 8 块H100。

除此之外，Nemotron-4 340B还有一个非常显著的特点——对商用十分友好的许可。

高级深度学习研究工程师Somshubra Majumdar对此表示大赞：「是的，你可以用它生成你想要的所有数据」

无与伦比的合成数据生成

LLM无法获得大规模、多样化标注数据集，怎么破？

Nemotron-4 340B指令模型，可以帮助开发者生成合成训练数据。

这些多样化的合成数据，模仿了真实世界的数据特征，因而数据质量明显提升，从而提升了各领域定制LLM的性能和稳定性。

而且，为了进一步提高AI生成数据的质量，开发者还可以用Nemotron-4 340B 奖励模型，来筛选高质量的响应。

它会根据有用性、正确性、一致性、复杂性和冗长性这 5 个属性，对响应评分。

另外，研究者可以使用自己的专用数据，再结合HelpSteer2 数据集，定制Nemotron-4 340B 基础模型，以创建自己的指令或奖励模型。

用NeMo微调，用TensorRT-LLM优化推理

利用开源的NVIDIA NeMo和NVIDIA TensorRT-LLM，开发者可以优化指令模型和奖励模型的效率，从而生成合成数据，并对响应进行评分。

所有Nemotron-4 340B模型都利用张量并行性经过TensorRT-LLM优化，这种模型并行性可以将单个权重矩阵分割到多个GPU和服务器上，从而实现大规模高效推理。

其中，基础模型可以使用NeMo框架进行定制，以适应特定的用例或领域。广泛的预训练数据使得我们可以对它进行微调，并且为特定的下游任务提供更准确的输出。

通过NeMo框架，英伟达提供了多种定制方法，包括监督微调和参数高效微调方法，如低秩适应（LoRA）。

为了提高模型质量，开发者可以使用NeMo Aligner和由Nemotron-4 340B奖励模型标注的数据集来对齐模型。

在各行业的潜在影响：从医疗到金融及其他领域

显然，Nemotron-4 340B对各行业的潜在影响是巨大的。

在医疗领域，如果能生成高质量合成数据，可能会带来药物发现、个性化医疗和医学影像方面的突破。

在金融领域，基于合成数据训练的定制大语言模型，则可能会彻底改变欺诈检测、风险评估和客户服务。

在制造业和零售业方面，特定领域的LLM可以实现预测性维护、供应链优化和个性化客户体验。

不过，Nemotron-4 340B的发布，也提出了一些隐忧，比如数据隐私和安全怎样保证？

随着以后合成数据的普及，企业是否有防护措施来保护敏感信息，并防止滥用？

如果用合成数据训练AI模型，是否会引发伦理问题，比如数据中的偏见和不准确可能引发意料外的后果？

但至少在目前，越来越多迹象表明，只有合成数据才是未来。