谷歌发布新RL方法，性能提升巨大，o1模型已证明

关注+2024-09-23作者：路西蓝

谷歌DeepMind的研究人员提出了一种创新多轮强化学习方法——SCoRe。

目前，多数大模型不具备自我纠错或能力较差，尤其是在数学和代码领域在给出错误答案后，会一直坚持错误答案，影响模型的准确率。而SCoRe通过避免训练数据与模型实际响应分布不匹配以及多轮反馈奖励机制，来帮助大模型及时纠正自己的错误。

OpenAI最近发布的o1模型便使用了类似的技术，主要亮点之一便是模型的自我纠错能力，其数学和代码能力也获得了大幅度提升。也就是说，强化学习确实能帮助大模型提升输出性能和准确率。

fmt=png&from=appmsg" data-type="png" data-w="554" data-original-="" data-index="1" src="https://pic.chinaz.com/2024/0923/2024092308502410470.jpg" _width="554px" alt="图片" data-fail="0" style="margin: 0px auto; padding: 0px; box-sizing: border-box; outline: 0px; border: 1px solid rgb(238, 238, 238); --tw-shadow: 0 0 #0000; --tw-ring-inset: var(--tw-empty, ); --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(41, 110, 228, 0.5); --tw-ring-offset-shadow: 0 0 #0000; --tw-ring-shadow: 0 0 #0000; max-width: 700px; background: url("../img/bglogo2.svg") center center no-repeat rgb(247, 248, 249); box-shadow: rgba(27, 95, 160, 0.1) 0px 1px 3px; display: inline-block;"/>

在传统的大模型训练过程中，模型通常通过监督学习来优化其对特定任务的性能。但这种方法主要依赖于大量的标注数据，并且在训练和推理之间存在巨大的数据分布差异，导致模型在实际应用中难以有效纠正错误。

例如，在图像识别任务中，模型在训练时主要使用的是风景领域的图像，并且对这些图像的标注信息进行了学习。但在实际应用中，遇到一些与训练数据差异较大的图像，光照条件不同、拍摄角度不同以及具备不同物体特征的医学图像时。模型可能就会无法识别这些新图像，并且难以通过自我纠正来改进性能。

最重要的是，传统的监督学习方法在训练过程中，并没有明确地教导模型如何自我纠正错误。一旦模型在推理阶段产生错误的结果，只能依赖外部反馈或手动干预来纠正这些错误。这对于需要高度准确率的法律、金融等应用场景来说是一个重大缺陷。

而SCoRe则是在模型自己生成的数据上进行多轮强化训练，使模型能够学习到如何根据奖励信号来调整自己的输出实现自我纠正。

在训练过程中，SCoRe 会鼓励模型尝试不同的输出，并根据奖励信号来判断哪些输出是最准确的。帮助模型就能够逐渐学习到如何在不同的情况下做出正确的决策。

例如，在文本生成任务中，如果模型生成的句子不符合语法或是病句，SCoRe 会给予模型一个负面的奖励信号，促使模型调整自己的输出直到生成符合要求的句子。

VRQaYfxopE1X60nyMF4zT8LHGWIVFNYic5Q/640?wx_FMt=png&from=appmsg" data-type="png" data-w="554" data-original-="" data-index="2" src="https://pic.chinaz.com/2024/0923/2024092308502410471.jpg" _width="554px" alt="图片" data-fail="0" style="margin: 0px auto; padding: 0px; box-sizing: border-box; outline: 0px; border: 1px solid rgb(238, 238, 238); --tw-shadow: 0 0 #0000; --tw-ring-inset: var(--tw-empty, ); --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(41, 110, 228, 0.5); --tw-ring-offset-shadow: 0 0 #0000; --tw-ring-shadow: 0 0 #0000; max-width: 700px; background: url("../img/bglogo2.svg") center center no-repeat rgb(247, 248, 249); box-shadow: rgba(27, 95, 160, 0.1) 0px 1px 3px; display: inline-block;"/>

SCoRe的强化学习方法主要分为两大阶段:在第一阶段，SCoRe通过强化学习对基础模型进行初始化训练。目标是训练模型在第一次尝试时产生高质量的回答，并在第二次尝试时能够对第一次的回答进行有效的纠正。为了实现这一目标，研究人员会在模型的输出上施加一种正则化约束，以避免模型在第一次尝试中产生与基础模型差异过大的回答。

这种约束通过计算模型输出与基础模型输出之间的KL散度来实现。通过调整KL散度的权重，可以在保持模型第一次尝试质量的同时，鼓励模型在第二次尝试中进行更大胆的纠正。

qqWZWUnbwXOh2iaW2pcscVShvk8QJIOLP3XMDjRSyFsfevA6oc8KA/640?wx_fmt=png&from=appmsg" data-type="png" data-w="453" data-original-="" data-index="3" src="https://pic.chinaz.com/2024/0923/2024092308502410472.jpg" _width="453px" alt="图片" data-fail="0" style="margin: 0px auto; padding: 0px; box-sizing: border-box; outline: 0px; border: 1px solid rgb(238, 238, 238); --tw-shadow: 0 0 #0000; --tw-ring-inset: var(--tw-empty, ); --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(41, 110, 228, 0.5); --tw-ring-offset-shadow: 0 0 #0000; --tw-ring-shadow: 0 0 #0000; max-width: 700px; background: url("../img/bglogo2.svg") center center no-repeat rgb(247, 248, 249); box-shadow: rgba(27, 95, 160, 0.1) 0px 1px 3px; display: inline-block;"/>

在模型初始化训练完成后，SCoRe进入第二阶段多轮强化学习与奖励塑造。在这一阶段，模型在每一轮尝试中都会接收到一个奖励信号，该信号基于模型当前尝试与正确答案之间的匹配程度。通过最大化这些奖励信号，模型可以逐步学习如何改进其答案。

为了进一步引导模型学习有效的自我纠正能力，研究人员为模型在第二次尝试中正确纠正错误的行为提供了额外的奖励。

如果第二次尝试的响应从错误变为正确，那么这个奖励项会给模型较大的正奖励;如果第二次尝试将正确的响应变为错误，那么会给予模型严重的负惩罚。

这样的奖励塑造使得模型更倾向于学习到自我纠正的策略，因为那些没有改变响应正确性或导致崩溃的轨迹对整体损失的贡献较小。

为了验证SCoRe的性能，研究人员在谷歌自研的Gemini1.0Pro和Gemini1.5Flash两款大模型进行了数学和代码测试。结果显示，其自我纠正能力分别提升了15.6%和9.1%。