ARPO：智能体强化策略优化让Agent在关键时刻多探索一步Kaiyun中国大陆智能科技股份有限公司

Kaiyun（中国大陆智能科技）股份有限公司-官网

P核心方案PRODUCT

行业动态RECENT NEWS查看更多

联系我们CONTACT US

地址：盖州市西海工业园区
手机：13364175009
电话：0417-7630288
邮箱：sysgtg001@163.com

R行业动态RECENT NEWS

你的位置：首页 > 行业动态

ARPO：智能体强化策略优化让Agent在关键时刻多探索一步

发布时间：2025-08-10 01:03:26　　点击量：

ARPO：智能体强化策略优化让Agent在关键时刻多探索一步(图1)

　　本文的第一作者是董冠霆，目前就读于中国人民大学高瓴人工智能学院，博士一年级，导师为窦志成教授和文继荣教授。他的研究方向主要包括大语言模型推理，多智能体强化学习、深度搜索智能体等。在国际顶级会议如 ICLR、ACL、AAAI 等发表了多篇论文，并在快手大模型应用组、阿里通义千问组等大模型团队进行实习。其代表性工作包括 AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。本文的通信作者为中国人民大学的窦志成教授与快手科技的周国睿。

　　在可验证强化学习（RLVR）的推动下，大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

　　ARPO 首次发现模型在调用外部工具后会推理不确定性（高熵）显著增加的现象，并基于此引入了熵驱动的自适应 rollout 策略，增强对高熵工具调用步骤的探索。同时，通过引入优势归因估计，模型能够更有效地理解工具交互中各步骤的价值差异。在 13 个计算推理、知识推理和深度搜索等高难基准上，ARPO 在仅使用一半工具调用预算的情况下，仍显著优于现有样本级 RL 方法，为多轮推理智能体的高效训练提供了可扩展的新方案。

　　目前不仅在 X 上收获了超高的关注度，同时荣登Huggingface Paper 日榜，周榜第一名

上一篇 : 华东师大设32个微专业：为毕业生“补能”为求职“加分”

下一篇: 汽车行业研究周报：深圳发布低空基础设施高质量建设方案目标“第一城”

【返回列表页】

顶部

网站首页关于我们核心方案行业动态产品中心资质专利合作案例加入我们在线咨询联系我们

友情链接：