国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布Kaiyun中国大陆智能科技股份有限公司

Kaiyun（中国大陆智能科技）股份有限公司-官网

P核心方案PRODUCT

行业动态RECENT NEWS查看更多

联系我们CONTACT US

地址：盖州市西海工业园区
手机：13364175009
电话：0417-7630288
邮箱：sysgtg001@163.com

R行业动态RECENT NEWS

你的位置：首页 > 行业动态

国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布

发布时间：2025-11-14 06:35:31　　点击量：

　　这也是智一科技在大湾区举办的首届机器人大会。今年以来，智一科技旗下智猩猩分别联合智东西、芯东西已先后成功举办2025中国生成式AI大会、2025中国AI算力大会、2025全球AI芯片峰会等大型会议。

　　2025中国具身智能机器人大会（EAIRCon 2025）为期一天，由主论坛+专题论坛+研讨会+展览区组成，将以“具身启智机器觉醒”为主题，邀请近40位嘉宾带来致辞、报告、演讲和对话，全方位解构具身智能掀起的新一轮机器人革命。

　　主论坛将于上午在主会场+分会场一拉开帷幕，将邀请知名学者、产业领袖、创业者、技术大咖和顶级投资人带来分享，并将进行一场高端对话。

　　具身智能人形机器人专题论坛则将于下午在主会场进行，将聚焦人形机器人这一具身智能最佳载体及产业链层面的技术产品创新。

　　机器人模仿学习与强化学习研讨会、具身世界模型技术研讨会、具身VLA大模型技术研讨会则会在分会场一、二进行，将邀请来自高校、工业界的研究人员和技术专家带来主题报告和技术分享。其中，研讨会主要面向持有闭门专享票、贵宾通票的观众开放。

　　今天，将为大家公布具身VLA大模型技术研讨会的完整议程。已经迫不及待报名的朋友，可以先扫描下方二维码添加小助手报名啦！

　　短短三年，从零星探索到主流浪潮，VLA已经成为连接大模型与具身智能的关键桥梁，不仅是当下最受关注的具身大模型技术范式，更被认为是最具潜力的机器人基础大模型技术路线，有望开启具身智能的GPT时刻。

　　在这一背景下，2025中国具身智能机器人大会同期的具身VLA大模型技术研讨会将于下午的分会场二进行，由主题报告和圆桌Panel两个环节组成。

　　上海交通大学长聘教轨助理教授穆尧，上海人工智能实验室具身智能中心青年研究员曾嘉，美的AIRC具身基础模型负责人文俊杰，北京大学计算机学院副研究员兼信息技术高等研究院视觉智能实验室主任王钊，OpenHelix-Team负责人、VLA-Adapter一作丁鹏翔，Alluxio首席架构师傅正佳，清华大学在读博士、SimpleVLA-RL一作李昊展等七位知名青年学者与技术专家出席并带来报告。曾嘉博士也将主持本次研讨会以及圆桌Panel。

　　在人工智能迈向真实世界应用的关键节点，具身智能领域正面临数据稀缺与泛化能力不足的双重困境。穆尧老师将以《人-数字人-机器人三元一体具身智能》为主题带来报告，分享一项突破性解决方案——人-数字人-机器人三元一体具身智能架构，通过充分挖掘互联网海量人类行为数据、利用先进仿真引擎大规模生成策略合成数据、并将虚拟学习成果迁移至物理机器人，实现从专用机器人到通用智能体的质的飞跃。

　　曾嘉博士是上海人工智能实验室具身智能中心操作智能方向负责人，研究方向为机械臂操作、视觉-语言-动作大模型。本次报告的题目为《理解、想象、执行一体化的具身操作大模型》，将重点介绍最新推出的具身操作大模型InternVLA-A1。该模型在操作任务的成功率显著超越π0、GR00T N1.5等模型，尤其在涉及传送带动态抓取、多机协作的高动态场景表现出很强的适应性。

　　文俊杰老师现担任美的AIRC具身基础模型负责人。他认为：让机器人具备多模态大模型通用智能的关键难点在于语言与动作之间的“模态鸿沟”。本次研讨会将重点探讨VLA模型从“对齐”到“统一”的根本转变，通过重构模型架构与训练范式，使模型在同一表示/参数空间中同时学会理解与执行，进而将思维链式推理用于未知任务求解。

　　具身视觉导航大脑让机器人摆脱遥控器与激光雷达建图，仅使用视觉摄像头让机器人拥有眼睛一般看懂眼前世界，进行通行度理解和内容理解从而自主决策导航点，并结合时空域感知构建短期记忆地图完善路径规划。曾任职于阿里巴巴达摩院的王钊老师将以《开放世界具身视觉导航大脑》为主题带来报告。

　　丁鹏翔博士的研究主要专注于多构型本体的VLA模型基座模型设计。他以一作身份发表的VLA-Adapter目前GitHub Star已经达到1.6k，是国内开源VLA中最高的，也是业内第五个过千Star的工作。丁鹏翔博士致力于解决VLA模型的加速推理，数据利用效率以及推动VLA模型真正落地应用效果。本次报告将围绕《多构型VLA如何破局》展开，将探讨如何针对多种机器人形态（如机械臂、四足机器人、人形机器人）结合其结构特性，分别设计和设置不同的VLA基座模型。

　　Alluxio首席架构师傅正佳博士也将在此次研讨会上带来分享，主题为《构建面向具身智能数据闭环的高性能数据访问平台》。傅正佳博士加入Alluxio前，曾在新加坡科技公司Bigo Technology担任机器学习研发总监。

　　目前，VLA模型的发展仍受限于数据稀缺与泛化能力不足等问题。本次报告李昊展博士将解读以一作身份提出的专为VLA模型设计的高效强化学习框架SimpleVLA-RL。该框架基于veRL构建，引入了VLA专用轨迹采样、可扩展并行化、多环境渲染及优化的损失计算方法。实验表明，SimpleVLA-RL能缓解数据稀缺问题并大幅增强VLA的泛化能力，还能使VLA自主发现更高效的策略。这种 “突破人类演示数据模式” 的现象被定义为 “Pushcut”。

国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布(图1)

国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布(图2)

　　内容概要：在人工智能迈向真实世界应用的关键节点，具身智能领域正面临数据稀缺与泛化能力不足的双重困境。本次演讲将分享一项突破性解决方案——人-数字人-机器人三元一体具身智能架构，通过充分挖掘互联网海量人类行为数据、利用先进仿真引擎大规模生成策略合成数据、并将虚拟学习成果迁移至物理机器人，实现从专用机器人到通用智能体的质的飞跃。这一创新范式不仅将具身智能的数据获取成本降低数个量级，更通过多源数据融合与虚实结合的迁移学习机制，让AI真正具备跨模态、跨场景的泛化能力。演讲将深入阐述三层协同架构的技术细节、数据驱动的泛化方法论，以及在快递包裹处理、柔性分拣、自动化科学实验等实际场景的验证成果，探讨具身智能从实验室走向产业应用的可行路径。

国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布(图3)

　　内容概要：本报告将介绍上海人工智能实验室具身智能中心最新推出的具身操作大模型InternVLA-A1。该模型以InternVL3为基座，基于一个统一的Transformer架构，集场景理解、任务想象与精准执行能力于一体。其中，场景理解模块以图像和文本为输入，用于解析任务指令并理解任务场景；基于场景理解的解析结果，任务想象模块通过预测未来图像的形式，想象执行任务的未来演变；最终，动作执行模块在任务想象的指导下，通过Flow Matching过程输出机器人控制指令。该模型融合了上海人工智能实验室的虚实混合操作数据集InternData-A1、上海国地中心实训场数据及互联网多源异构数据进行联合训练，从多源异构机器人、多场景数据中获取了广泛、通用的操作知识。在物流、家居、商超等多场景的真机评测基准上，InternVLA-A1显著优于pi0及gr00t n1.5，且模型已适配方舟无限、松灵、国地青龙人形机器人、智元Genie、Franka等多款机器人本体。

国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布(图4)

　　内容概要：如何让机器人具备多模态大模型的通用智能？关键难点在于语言与动作之间的“模态鸿沟”：传统的表层对齐往往只在训练分布内表现良好，一到开放世界便失灵。为此，我们推动从“对齐”到“统一”的根本转变，通过重构模型架构与训练范式，使模型在同一表示/参数空间中同时学会理解与执行，进而将思维链式推理用于未知任务求解。该研究为机器人走向真实应用场景提供了坚实技术支撑，使其在多变环境下更鲁棒、更可靠。

国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布(图5)

　　报告嘉宾：北京大学计算机学院副研究员兼信息技术高等研究院视觉智能实验室主任王钊

　　内容概要：开放世界具身视觉导航大脑面向人形机器人、机器狗、无人车、消费级移动设备等各类具身实体提供开放环境中纯视觉自主导航方案。具身视觉导航大脑让机器人摆脱遥控器与激光雷达建图，仅使用视觉摄像头让机器人拥有眼睛一般看懂眼前世界，进行通行度理解和内容理解从而自主决策导航点，并结合时空域感知构建短期记忆地图完善路径规划。技术亮点：1）纯视觉导航、无需激光雷达；2）无需建图、随时随地可用；3）适应动态开放世界，不论室内还是室外、小区、道路、野外等场景。技术应用场景有面向B端大区域的电子地图导航，如巡逻、物流、清扫机器人和面向C端的主动式/跟随式导航，如陪伴机器人。具身视觉导航大脑已应用在江苏某清扫无人车、深圳某人型机器人、上海某消费级移动机器人等客户场景，在公安场景的数字警犬示范应用被《人民日报》、《浙江日报》等媒体报道。

国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布(图6)

　　内容概要：端到端视觉-语言-动作模型旨在实现将数字世界中的通用智能迁移到物理世界，从而全面提升具身体的智能水平。本报告将从多模态大模型在空间智能方面的不足切入，结合基础视觉策略网络的推理速度的瓶颈，探讨如何针对多种机器人形态（如机械臂、四足机器人、人形机器人）结合其结构特性，分别设计和设置不同的VLA基座模型。该研究为实现新一代智能机器人、智能家居、智慧工厂等场景提供关键技术支撑，加速人机共融智能时代的到来，推动具身智能技术的创新与应用。

国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布(图7)

　　内容概要：大语言模型（LLM）的飞速发展，为通用人工智能（AGI）的实现带来了希望。然而，LLM 本身无法与物理世界进行真实交互，这一局限正是具身智能（Embodied AI）致力于研究与弥合的关键鸿沟。在具身智能领域，若想重现LLM“大数据 + 大模型”的成功路径，一方面依赖海量交互数据作为VLA基础预训练，另一方面，需要克服在物理世界中的交互带来的天然局限：效率低、风险高、难以复现。因此，构建一个可规模化扩展（Scalable）的世界模型作为具身智能模型的闭环交互环境，已成为该领域发展的关键路径。本次分享将重点介绍地平线在该领域的最新研究进展，涵盖以下核心模块：可交互场景重建、前馈式3D重建、具身3D生成引擎以及具身视频生成。

国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布(图8)

　　内容概要：VLA模型已成为使机器人在真实环境中解决各类复杂操作任务极具前景的新范式，其发展仍受限于数据稀缺与泛化能力不足等 Kaiyun研究所问题，而强化学习能缓解数据依赖并显著提升模型性能与泛化性，正受到广泛关注。本次报告将解读所提出的专为VLA模型设计的高效强化学习框架SimpleVLA-RL，内容主要分为三部分：首先概述VLA训练范式，并阐述引入强化学习的必要性；接着将详解SimpleVLA-RL架构设计；最后，展望VLA强化学习领域的未来发展趋势。

　　大会设置了四类电子门票，分别是论坛观众票、论坛VIP票、闭门专享票和贵宾通票。会场座位分布如下。

国内开源VLA最高star一作开讲！具身VLA大模型技术研讨会最终议程公布(图9)