5月1日的Home报道说,DeepSeek昨天(4月30日)(4月30日)在AI开源社区拥抱面孔上发布了一种名为DeepSeek-Prover-V2-671B的新模型,然后在Github等平台上发布了纸质信息。它在家里指出,介绍DeepSeek-Prover-V2是专门用于正式数学推理的大型语言模型的开源。基于DeepSeek-V3-0324,它通过递归定理管道生成初步数据。 DeepSeek推出了两个模型,即DeepSeek-Prover-V2-671B(伴随V3基本模型),DeepSeek-Prover-V2-7B(改进的模型)和DeepSeek-ProverBench数据集。 DeepSeek-Prover-V2-671b采用了与DeepSeek V3-0324相同的架构。它不是用于常规对话或推理,而是用于正式的定理证明并特别改善了Matem能力。 Deptseek团队首先指导Deviceek-V3模型以一系列子目标分解复杂定理,包括非正式和正式推理,以及福尔ZE证明步骤在精益4平台上。接下来,使用较小的7b参数模型来处理搜索子目标以减轻计算负担。最后,逐步证明和DeepSeek-V3 thefttt链被合并,以开发“冷启动”数据进行增强研究。在培训期间,团队筛选了一批未直接解决的7B型号,但被证明了子目标。通过合并子目标证明,可以生成完整的形式证明并连接到认知的DeepSeek-V3过程,以生成合成数据。然后,该模型然后通过研究增强力来调整数据并进一步提高其功能,并使用二进制反馈(对或错)作为奖励机制。最终,DeepSeek-Prover-V2-671B在神经定理的领域中达到了新的高度,在minif2f-test数据集中的传球速率为88.9%,在Putnammench数据集中解决的658个问题中有49个。该团队还发布了Croverbench BencHmark数据集,其中包含325个正式数学问题。其中,来自Aime(Aime 24和25)的最新比赛涉及的15个问题,涉及该理论和代数编号,这代表了高中竞赛的困难。其余310个问题来自精选的书籍和教学内容,涵盖了许多领域,例如线性代数,微积分和可能性。该数据集的清洁工作是为了为高中和本科数学家提供全面的评估标准,在不同情况下促进模型的测试和应用。