00274 通过自动过程监督改进语言模型中的数学推理 (论文学习笔记)


前言

DeepMind 通过自动过程监督改进语言模型中的数学推理论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目:Improve Mathematical Reasoning in Language Models by Automated Process Supervision

发表年份:2024

论文地址:https://arxiv.org/abs/2406.06592

pdf 地址:https://arxiv.org/pdf/2406.06592

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00039-Automated-Process-Supervision.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00039-Automated-Process-Supervision.pdf

内容

摘要

复杂的多步骤推理任务,如解决数学问题或生成代码,即使是最先进的大型语言模型(LLM)也仍然是一个重要的障碍。使用结果奖励模型(ORM)验证LLM输出是一种标准的推理时间技术,旨在提高LLM的推理性能。然而,这仍然证明了具有冗长或多跳推理链的推理任务的先见之明,其中中间结果既没有得到适当的奖励也没有受到惩罚。过程监督通过在推理过程中分配中间奖励来解决这一限制。迄今为止,用于收集过程监督数据的方法要么依赖于人工注释,要么依赖于每一步蒙特卡罗估计,这两种方法的规模都非常昂贵,因此阻碍了该技术的广泛应用。为了应对这一挑战,我们提出了一种新的分而治之风格的蒙特卡罗树搜索(MCTS)算法,名为OmegaPRM,用于收集高质量的过程监督数据。该算法通过二分搜索快速识别思想链(CoT)中的第一个错误,并平衡正负示例,从而确保了准确性和质量。因此,我们能够收集150万过程监督注释来训练过程奖励模型(PRM)。这种全自动的过程监督和加权自洽算法能够提高LLM的数学推理性能。我们将指令调整的Gemini Pro模型在MATH500上的成功率从51%提高到69.4%,在GSM8K上从86.4%提高到93.6%。同样,我们将Gemma2 27B在MATH500上的成功率从42.3%提高到58.2%,在GSM8K上从74.0%提高到92.2%。整个过程在没有任何人工干预或监督的情况下运行,使我们的方法在财务和计算成本上都比现有方法更有效。

结语

第二百七十四篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录