VLA已死?这家公司想用 VLOA 给机器人装上“物理直觉”

作者|李沐蓉
今年5月,英伟达机器人负责人 Jim Fan 在红杉峰会上抛出一句话:「VLA已死」。
这四个字,把具身智能行业积压已久的焦虑推上了台面。
机器人泛化这道题,究竟该怎么解?
完成 10 亿元 A 轮融资的 RoboScience,给出了自己的答案:VLOA(Vision-Language-Object-Action)。
VLOA,相比于 VLA 它在视觉和动作之间嵌入 Object,聚焦物体该怎样动,模型不只是「看到并执行」,而是能够在一定程度上理解「动作如何在物理世界中发生与演化」。
VLOA 将任务转化为对物体运动轨迹的理解,再据此生成动作,这就从底层逻辑上一定程度上解决了泛化难题。
据了解,本轮融资主要用于持续深化 VLOA 模型,以及推进自研机器人本体的工程化与量产。
10亿融资背后,
资本押的是什么?
资本对 RoboScience 的关注,其实在去年就已经开始。
天使轮阶段,京东、招商局创投、零一创投,便用两亿投出信任票。
到了今年 A 轮,融资规模进一步扩大,累计融资超过 13 亿元,投资方包含多家国内外知名产业巨头和一线财务机构。
资本持续追投的背后,是对团队能力和 VLOA 模型的押注。
RoboScience 团队的稀缺之处,在于它不仅拥有工程落地能力,更有前沿的学术研究成果。
创始人田野,本科毕业于中科大物理学院,后进入斯坦福 AI Lab,师从吴恩达。
在苹果工作的七年时间里,他担任 Apple AI Platform 技术负责人,参与 Apple Intelligence、端侧动态神经网络、编译融合系统等核心项目研发落地,具备成熟的 AI 技术部署及生态构建经验。
这意味着,他并不仅理解模型,更理解如何把模型部署到硬件系统里。
团队另一位关键人物,首席科学家邵林,不仅是新加坡国立大学计算机系助理教授,还是 IEEE 机器人与自动化学会机器学习技术委员会的联合主席。
他长期深耕于机器人感知与操作、强化学习、机器人操作模型等前沿领域,在 ICRA、IROS、IEEE 等顶会顶刊中发表过超 35 篇论文,技术成果走在行业前沿。
深受苹果产品哲学的影响,这支团队从一开始就选择了「模型自研+本体自研」的全栈路线。
他们认为,如果模型和硬件脱节,将永远无法真正理解机器人在真实世界里的失败到底出在哪儿,是感知错了,还是执行不了?闭环迭代必须自己掌控两端。
这种「软硬一体化」的布局正好契合了资本对硬科技闭环能力的偏好。
普华资本在领投 Pre-A 轮时的评价,精准概括了市场对这条路线的期待:
RoboScience 独创的 VLOA 大模型架构,以及快慢脑分层系统,不仅解决了行业长期存在的泛化性难题,更通过自研的 RoboMirage 仿真引擎构建了高效的数据闭环,为通用机器人的实现铺平了道路。
VLOA模型,
突破具身智能泛化瓶颈
过去两年,VLA 模型几乎成为整个机器人行业最主流的大脑模型,视觉看见环境、语言理解任务、动作执行指令。
它给机器人提供了一套简单、统一、易于讲述的「大脑范式」,第一次让机器人具备了任务理解能力。
优必选 Walker S2、智平方 AlphaBot 2,都在不同程度上搭载或强调 VLA 模型。
但问题逐渐暴露,VLA 似乎只能理解任务,不能理解物理世界。
4 月,一篇发表在 arXiv 上的论文用因果干预实验论证了 VLA 模型在动态场景中「灾难性地失败」。
当环境发生变化时,模型倾向于重复先前的动作,而不是根据新状态调整,更严重的是,在复杂场景下,多模态语义特征会发生「语义坍塌」,导致模型失去区分能力。
Covariant 联合创始人 Peter Chen 曾直言:
「VLA 擅长回答『这是什么』,却不擅长回答『这样做之后会发生什么』——它缺乏对物理因果链的理解。」
VLOA 模型,在传统 VLA 的基础上,将「Object」单独抽离出来,作为视觉-语言到动作之间的核心中间层。
RoboScience 认为机器人所有操作,本质上都是在改变物体在三维空间中的位置、姿态和交互关系。
无论是拧瓶盖、叠衣服还是端起水杯,任务不管多复杂,最终都可以统一描述为「物体轨迹的变化」。
整个模型架构拆成两层:
上层是从 V→O(Vision to Object),由具身世界模型负责语义规划,理解场景中的对象和指令意图,回答物体应该发生怎样的状态变化才算完成任务;
下层 O→A(Object to Action),由通用操作模型负责物理执行,让机器人依据物理规律操作物体,使其产生期望的运动变化。
两层之间传递的,是以 3D 点云轨迹形式表达的物体轨迹(Object Trajectory),包括物体的位置、姿态、运动方向以及预测置信度。
换句话说,VLOA 试图把「物体运动」变成机器人理解世界的基础语言。
这样的路线,相比 VLA 有三个优势。
第一,泛化基础更接近真实物理操作。
传统 VLA 更像「动作记忆」,而 VLOA 关注的是物体运动规律,它更接近真实世界操作本质。
第二,实现跨本体泛化。
上层世界模型并不绑定具体机器人形态,因此,同一套模型理论上可以迁移到不同机器人本体上,包括单臂、双臂、人形、轮式机器人。
第三,更少的数据实现更优的效果。
模型分层使得数据的收集和处理更有条理,他们抓住了机器人与物理世界交互的本质,关注物体运动的轨迹,让使得海量视频数据都能成为训练资源,降低对真机数据的依赖。
据团队披露,目前具身世界模型已经积累数百万小时多模态操作数据集,并以每周数十万小时速度持续增长。
不久前,马斯克也提到要用视频训练替代真机数据,这也说明 RoboScience 路线的前瞻性。
泛化的终极答案,依然在路上
今天,整个具身智能行业,其实都在围绕同一个终极目标展开竞争:通用机器人。
真正的通用机器人,不是只会完成一个任务,而是能够像人类一样,在无限变化的世界中持续适应。
当前,具身智能泛化面临着三重挑战:
任务泛化,机器人能否理解并执行从未见过的新任务指令,而不是只能重复训练过的固定流程;
场景泛化,机器人能否在陌生环境中维持稳定工作,从实验室走向真实世界之后,依然保持可靠性;
对象泛化,机器人能否操作训练中从未出现过的新物体,从不同材质、形状,到重量、摩擦力、柔性结构都发生变化时,依然具备稳定操作能力。。
三重挑战,让具身智能从「可用」迈向「可靠」,异常艰难。
VLOA 模型的出现为破解泛化瓶颈提供了一条极具想象力的技术路径,其实目前整个行业都在多条技术路线上,对泛化难题进行攻坚。
今年 4 月,Physical Intelligence 发布了最新的π0.7 模型,展示出一种令研究团队自己都感到意外的「组合泛化能力」。
在训练数据中,模型几乎没有见过空气炸锅相关操作,仅存在两个极其边缘的关联片段。
但模型最终却能够通过拼合不同机器人操作片段、网页预训练知识以及历史动作经验,形成对「空气炸锅如何工作」的功能性理解,并完成相应任务。
利用组合泛化,模型不再死记硬背特定任务的解决方案,可以通过已有经验迁移解决未知问题。
还有部分公司在推进世界模型与 VLA 的融合路线。
智平方作为国内最早布局端到端 VLA 的创业团队之一,在去年 11 月发布了 Video2Act 融合架构,将世界模型与 VLA 结合。
不仅让机器人「理解任务」,还让机器人能够预测物理变化过程,从而提升复杂环境下的推理与决策能力。
京东 Joy Future Academy 在 VLA 的框架下,提出了 JoyAI-RA 0.1 模型,引入了统一动作空间,为不同形态的机器人提供一套统一的动作接口。
模型可以在同一个空间内学习人类视频、仿真轨迹和真实机器人动作,显著提升了跨实体知识迁移的效率。
这背后,其实反映出行业另一个重要趋势:机器人正在尝试摆脱「一机一模型」的割裂状态。
还有,魔法原子发布自研世界模型 Magic-Mix。
该模型由两个核心引擎构成,Magic-Mix WAM 负责物理环境理解、空间推演与动作决策;
Magic-Mix Creator 则作为离线数据生成引擎,通过合成大批量训练数据,降低对昂贵、周期长的真机数据采集的依赖,为模型提供持续的数据供给,形成一个「数据生成-训练-反馈」的闭环。
本质上,这套架构直指 VLA 模型在真实世界中泛化不足和执行不稳定的长期痛点,让机器人能够理解物理世界、预测未来并做出决策。
行业针对 VLA 模型的争议,在 5 月英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 峰会上的发言中达到顶点。
他给出的论断「VLA 已死」引发激烈讨论。
虽然不少研究者认为 VLA 仍在诸多场景中发挥着不可替代的作用,但这一声音至少折射出整个行业对现有模型泛化能力的担忧。
智源研究院院长王仲远指出,最现实的路径是通过「VLA +强化学习」攻克具体场景,让机器人先干起来,在真机运行中积累更多数据,形成数据闭环,最后再解决泛化性难题。
而智平方创始人郭彦东的判断则是:
VLA 远远没有结束,它是通往物理世界智能的最强主航道,行业正快速向「世界模型+VLA」的混合路线靠拢,下一代机器人大脑是类脑 VLA。
在这样的行业背景下,RoboScience 的 10 亿元 A 轮融资,其实是资本对「AI 大脑路线」的投票。
VLOA ,不是让模型记住更多场景,而是让模型理解操作的物理本质,把「物体怎么动」学会,其泛化能力,最终必须让成百上千台机器人在真实环境中的持续运行中得到验证。
目前陷入概念之争,VLA是否已死、端到端还是分层、世界模型是终点还是过渡方案,还为时过早,也尚无必要。
最重要的是,如何通过架构的创新去不断提升模型的能力。
泛化这道题没有标准答案,但方向是清晰的,无论哪条路,最终都必须让模型从「看过什么做什么」,进化到「理解了什么都能做」。
这场竞赛的胜负手,不取决于谁先喊出下一个口号,而取决于谁先让模型真正理解物理世界。
0
分享
好文章,需要你的鼓励












参与评论
请您注册或者登录星河频率社区账号即可发表回复
去登录
相关评论(共0条)
查看更多评论