当前位置：首页 > 详情

VLA已死？这家公司想用 VLOA 给机器人装上“物理直觉”

李沐蓉 2026-05-14 15:11:36 1072

作者｜李沐蓉

今年5月，英伟达机器人负责人 Jim Fan 在红杉峰会上抛出一句话：「VLA已死」。

这四个字，把具身智能行业积压已久的焦虑推上了台面。

机器人泛化这道题，究竟该怎么解？

完成 10 亿元 A 轮融资的 RoboScience，给出了自己的答案：VLOA（Vision-Language-Object-Action)。

VLOA，相比于 VLA 它在视觉和动作之间嵌入 Object，聚焦物体该怎样动，模型不只是「看到并执行」，而是能够在一定程度上理解「动作如何在物理世界中发生与演化」。

VLOA 将任务转化为对物体运动轨迹的理解，再据此生成动作，这就从底层逻辑上一定程度上解决了泛化难题。

据了解，本轮融资主要用于持续深化 VLOA 模型，以及推进自研机器人本体的工程化与量产。

10亿融资背后，

资本押的是什么？

资本对 RoboScience 的关注，其实在去年就已经开始。

天使轮阶段，京东、招商局创投、零一创投，便用两亿投出信任票。

到了今年 A 轮，融资规模进一步扩大，累计融资超过 13 亿元，投资方包含多家国内外知名产业巨头和一线财务机构。

资本持续追投的背后，是对团队能力和 VLOA 模型的押注。

RoboScience 团队的稀缺之处，在于它不仅拥有工程落地能力，更有前沿的学术研究成果。

创始人田野，本科毕业于中科大物理学院，后进入斯坦福 AI Lab，师从吴恩达。

在苹果工作的七年时间里，他担任 Apple AI Platform 技术负责人，参与 Apple Intelligence、端侧动态神经网络、编译融合系统等核心项目研发落地，具备成熟的 AI 技术部署及生态构建经验。

这意味着，他并不仅理解模型，更理解如何把模型部署到硬件系统里。

团队另一位关键人物，首席科学家邵林，不仅是新加坡国立大学计算机系助理教授，还是 IEEE 机器人与自动化学会机器学习技术委员会的联合主席。

他长期深耕于机器人感知与操作、强化学习、机器人操作模型等前沿领域，在 ICRA、IROS、IEEE 等顶会顶刊中发表过超 35 篇论文，技术成果走在行业前沿。

深受苹果产品哲学的影响，这支团队从一开始就选择了「模型自研+本体自研」的全栈路线。

他们认为，如果模型和硬件脱节，将永远无法真正理解机器人在真实世界里的失败到底出在哪儿，是感知错了，还是执行不了？闭环迭代必须自己掌控两端。

这种「软硬一体化」的布局正好契合了资本对硬科技闭环能力的偏好。

普华资本在领投 Pre-A 轮时的评价，精准概括了市场对这条路线的期待：

RoboScience 独创的 VLOA 大模型架构，以及快慢脑分层系统，不仅解决了行业长期存在的泛化性难题，更通过自研的 RoboMirage 仿真引擎构建了高效的数据闭环，为通用机器人的实现铺平了道路。

VLOA模型，

突破具身智能泛化瓶颈

过去两年，VLA 模型几乎成为整个机器人行业最主流的大脑模型，视觉看见环境、语言理解任务、动作执行指令。

它给机器人提供了一套简单、统一、易于讲述的「大脑范式」，第一次让机器人具备了任务理解能力。

优必选 Walker S2、智平方 AlphaBot 2，都在不同程度上搭载或强调 VLA 模型。

但问题逐渐暴露，VLA 似乎只能理解任务，不能理解物理世界。

4 月，一篇发表在 arXiv 上的论文用因果干预实验论证了 VLA 模型在动态场景中「灾难性地失败」。

当环境发生变化时，模型倾向于重复先前的动作，而不是根据新状态调整，更严重的是，在复杂场景下，多模态语义特征会发生「语义坍塌」，导致模型失去区分能力。

Covariant 联合创始人 Peter Chen 曾直言：

「VLA 擅长回答『这是什么』，却不擅长回答『这样做之后会发生什么』——它缺乏对物理因果链的理解。」

VLOA 模型，在传统 VLA 的基础上，将「Object」单独抽离出来，作为视觉-语言到动作之间的核心中间层。

RoboScience 认为机器人所有操作，本质上都是在改变物体在三维空间中的位置、姿态和交互关系。

无论是拧瓶盖、叠衣服还是端起水杯，任务不管多复杂，最终都可以统一描述为「物体轨迹的变化」。

整个模型架构拆成两层：

上层是从 V→O（Vision to Object），由具身世界模型负责语义规划，理解场景中的对象和指令意图，回答物体应该发生怎样的状态变化才算完成任务；

下层 O→A（Object to Action），由通用操作模型负责物理执行，让机器人依据物理规律操作物体，使其产生期望的运动变化。

两层之间传递的，是以 3D 点云轨迹形式表达的物体轨迹（Object Trajectory），包括物体的位置、姿态、运动方向以及预测置信度。

换句话说，VLOA 试图把「物体运动」变成机器人理解世界的基础语言。

这样的路线，相比 VLA 有三个优势。

第一，泛化基础更接近真实物理操作。

传统 VLA 更像「动作记忆」，而 VLOA 关注的是物体运动规律，它更接近真实世界操作本质。

第二，实现跨本体泛化。

上层世界模型并不绑定具体机器人形态，因此，同一套模型理论上可以迁移到不同机器人本体上，包括单臂、双臂、人形、轮式机器人。

第三，更少的数据实现更优的效果。

模型分层使得数据的收集和处理更有条理，他们抓住了机器人与物理世界交互的本质，关注物体运动的轨迹，让使得海量视频数据都能成为训练资源，降低对真机数据的依赖。

据团队披露，目前具身世界模型已经积累数百万小时多模态操作数据集，并以每周数十万小时速度持续增长。

不久前，马斯克也提到要用视频训练替代真机数据，这也说明 RoboScience 路线的前瞻性。

泛化的终极答案，依然在路上

今天，整个具身智能行业，其实都在围绕同一个终极目标展开竞争：通用机器人。

真正的通用机器人，不是只会完成一个任务，而是能够像人类一样，在无限变化的世界中持续适应。

当前，具身智能泛化面临着三重挑战：

任务泛化，机器人能否理解并执行从未见过的新任务指令，而不是只能重复训练过的固定流程；

场景泛化，机器人能否在陌生环境中维持稳定工作，从实验室走向真实世界之后，依然保持可靠性；

对象泛化，机器人能否操作训练中从未出现过的新物体，从不同材质、形状，到重量、摩擦力、柔性结构都发生变化时，依然具备稳定操作能力。。

三重挑战，让具身智能从「可用」迈向「可靠」，异常艰难。

VLOA 模型的出现为破解泛化瓶颈提供了一条极具想象力的技术路径，其实目前整个行业都在多条技术路线上，对泛化难题进行攻坚。

今年 4 月，Physical Intelligence 发布了最新的π0.7 模型，展示出一种令研究团队自己都感到意外的「组合泛化能力」。

在训练数据中，模型几乎没有见过空气炸锅相关操作，仅存在两个极其边缘的关联片段。

但模型最终却能够通过拼合不同机器人操作片段、网页预训练知识以及历史动作经验，形成对「空气炸锅如何工作」的功能性理解，并完成相应任务。

利用组合泛化，模型不再死记硬背特定任务的解决方案，可以通过已有经验迁移解决未知问题。

还有部分公司在推进世界模型与 VLA 的融合路线。

智平方作为国内最早布局端到端 VLA 的创业团队之一，在去年 11 月发布了 Video2Act 融合架构，将世界模型与 VLA 结合。

不仅让机器人「理解任务」，还让机器人能够预测物理变化过程，从而提升复杂环境下的推理与决策能力。

京东 Joy Future Academy 在 VLA 的框架下，提出了 JoyAI-RA 0.1 模型，引入了统一动作空间，为不同形态的机器人提供一套统一的动作接口。

模型可以在同一个空间内学习人类视频、仿真轨迹和真实机器人动作，显著提升了跨实体知识迁移的效率。

这背后，其实反映出行业另一个重要趋势：机器人正在尝试摆脱「一机一模型」的割裂状态。

还有，魔法原子发布自研世界模型 Magic-Mix。

该模型由两个核心引擎构成，Magic-Mix WAM 负责物理环境理解、空间推演与动作决策；

Magic-Mix Creator 则作为离线数据生成引擎，通过合成大批量训练数据，降低对昂贵、周期长的真机数据采集的依赖，为模型提供持续的数据供给，形成一个「数据生成-训练-反馈」的闭环。

本质上，这套架构直指 VLA 模型在真实世界中泛化不足和执行不稳定的长期痛点，让机器人能够理解物理世界、预测未来并做出决策。

行业针对 VLA 模型的争议，在 5 月英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 峰会上的发言中达到顶点。

他给出的论断「VLA 已死」引发激烈讨论。

虽然不少研究者认为 VLA 仍在诸多场景中发挥着不可替代的作用，但这一声音至少折射出整个行业对现有模型泛化能力的担忧。

智源研究院院长王仲远指出，最现实的路径是通过「VLA +强化学习」攻克具体场景，让机器人先干起来，在真机运行中积累更多数据，形成数据闭环，最后再解决泛化性难题。

而智平方创始人郭彦东的判断则是：

VLA 远远没有结束，它是通往物理世界智能的最强主航道，行业正快速向「世界模型+VLA」的混合路线靠拢，下一代机器人大脑是类脑 VLA。

在这样的行业背景下，RoboScience 的 10 亿元 A 轮融资，其实是资本对「AI 大脑路线」的投票。

VLOA ，不是让模型记住更多场景，而是让模型理解操作的物理本质，把「物体怎么动」学会，其泛化能力，最终必须让成百上千台机器人在真实环境中的持续运行中得到验证。

目前陷入概念之争，VLA是否已死、端到端还是分层、世界模型是终点还是过渡方案，还为时过早，也尚无必要。

最重要的是，如何通过架构的创新去不断提升模型的能力。

泛化这道题没有标准答案，但方向是清晰的，无论哪条路，最终都必须让模型从「看过什么做什么」，进化到「理解了什么都能做」。

这场竞赛的胜负手，不取决于谁先喊出下一个口号，而取决于谁先让模型真正理解物理世界。

本文为星河频率原创文章，作者：李沐蓉，如需转载，请联系授权。违规转载法律必究。

好文章，需要你的鼓励

参与评论

请您注册或者登录星河频率社区账号即可发表回复

去登录

登录或注册

绑定手机

VLA已死？这家公司想用 VLOA 给机器人装上“物理直觉”

作者｜李沐蓉

10亿融资背后，

资本押的是什么？

VLOA模型，

突破具身智能泛化瓶颈

泛化的终极答案，依然在路上

参与评论

相关评论(共0条)

相关推荐