Kaiyun(中国大陆智能科技)股份有限公司-官网

联系我们CONTACT US
地址:盖州市西海工业园区
手机:13364175009
电话:0417-7630288
邮箱:sysgtg001@163.com
查看更多
R行业动态RECENT NEWS
你的位置: 首页 > 行业动态

ARPO:智能体强化策略优化让Agent在关键时刻多探索一步

发布时间:2025-08-10 01:03:26  点击量:

  

ARPO:智能体强化策略优化让Agent在关键时刻多探索一步(图1)

  本文的第一作者是董冠霆,目前就读于中国人民大学高瓴人工智能学院,博士一年级,导师为窦志成教授和文继荣教授。他的研究方向主要包括大语言模型推理,多智能体强化学习、深度搜索智能体等。在国际顶级会议如 ICLR、ACL、AAAI 等发表了多篇论文,并在快手大模型应用组、阿里通义千问组等大模型团队进行实习。其代表性工作包括 AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。本文的通信作者为中国人民大学的窦志成教授与快手科技的周国睿。

  在可验证强化学习(RLVR)的推动下,大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中,LLM 往往需要结合外部工具进行多轮交互,现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

  ARPO 首次发现模型在调用外部工具后会推理不确定性(高熵)显著增加的现象,并基于此引入了熵驱动的自适应 rollout 策略,增强对高熵工具调用步骤的探索。同时,通过引入优势归因估计,模型能够更有效地理解工具交互中各步骤的价值差异。在 13 个计算推理、知识推理和深度搜索等高难基准上,ARPO 在仅使用一半工具调用预算的情况下,仍显著优于现有样本级 RL 方法,为多轮推理智能体的高效训练提供了可扩展的新方案。

  目前不仅在 X 上收获了超高的关注度,同时荣登Huggingface Paper 日榜,周榜第一名

【返回列表页】

顶部

地址:盖州市西海工业园区  电话:0417-7630288 手机:13364175009
Copyright © 2025 Kaiyun中国大陆智能科技股份有限公司 版权所有   ICP备案编:辽ICP备09016534号-1