中国公司开团,挑战最强具身智能大脑
编者按:
具身智能并非单一技术的突破,而是一场由资本、工程与场景合力推动的全球浪潮。这正如五百年前的地理大发现,我们正在智能的驱动下,重新绘制物理世界的边界。
星河频率特别策划「具身智能大航海」系列文章,立足全球视野,锚定通用机器人、陪伴机器人、机器狗、机器人大模型等核心赛道,深度剖析行业内的头号玩家们。
以「大航海」为名,记录探索者们如何驾驭算法、硬件与资本的浪潮,寻找属于自己的新大陆。
正如每一次大航海都重塑世界格局,具身智能的征程也在重新定义机器与人的关系、技术与社会的关系。在这个系列里,我们不仅关注谁能率先靠岸,更关心谁在指引航向、如何穿越泡沫、何处才有真正值得登陆的未来。
往期文章:
作者 | 毛心如
时隔 7 个月,Physical Intelligence 接连放出两条重磅消息:先是推出了新模型 π*0.6,随后又宣布完成 6 亿美元的新一轮融资。
继 4 月份发布的π0.5 让机器人在陌生环境里做家务后,新一代的 π*0.6 进一步具备了更智能的自我进化能力。
为实现这一突破,PI 团队采用了一种名为 Recap 的全新方法,该方法基于优势条件策略,通过经验回放与纠错机制进行强化学习,从而对原有的端到端 VLA 模型进行了升级。
Recap 融合了三个类似人类的学习阶段:初始演示、机器人出错时的实时专家纠正,以及通过自主试验中的强化学习进行自我改进。
这有效解决了模仿学习在机器人学中的关键缺陷:避免小错误在现实世界交互中像滚雪球一样累积,从而降低可靠性。
从结果来看,π*0.6 在处理高难度任务时,吞吐量翻倍,故障率降低了 2 倍以上。机器人甚至能数小时不间断连续运行,挑战包括全天 18 小时内制作意式浓缩咖啡、在新的家庭环境里折叠 50 件新衣物等等。
从π0 到π0.5 再到这次的π*0.6,Physical Intelligence 展示了一套极为清晰的范式:
先用大规模跨机器人数据,教会机器人「会干活」
再用异构同训,让它能在陌生环境里也能「看懂局」
最后把机器人丢回现实世界里,让它通过纠错和自我练级,慢慢长成一个 Embodied Agent
这次升级十分迅速,不少科研人士表示,刚开源的π0.5 还没玩透彻,又出了 0.6。
毫不夸张的讲,在具身智能行业,Physical Intelligence 是造机器人大脑领域当之无愧的佼佼者,甚至有公司直接对其开源模型进行微调,再对外宣称是「技术升级」。
在这一背景下,也有四家中国公司在今年模型性能的对外宣传上直接对标了 PI,分别是星海图、自变量机器人、智平方和千诀科技。
行业头部 PI,天然的参照系
截至目前,在这场以中美为核心的具身智能竞赛里,美国的 Figure AI 以 390 亿美元的估值位列全球第一,紧随其后的 Physical Intelligence,估值已达 56 亿美元。
作为被 OpenAI、红杉资本以及亚马逊创始人贝索斯共同押注的公司,Physical Intelligence 已经收获了 10.7 亿美元的融资。
与 Figure AI 以及中国的头部公司打造全栈式软硬一体的产品路线不同,Physical Intelligence 选择只做机器人大脑。
选择这样独特的路径离不开其创始团队强悍的学术背景。
团队 5 名核心成员中,1 名是知名科技投资人,另外 4 名则是来自斯坦福、加州伯克利等名校的科学家,曾深度参与过谷歌 RT 系列机器人模型研发、谷歌 Aloha 机器人等项目。
作为初创公司,Physical Intelligence 选择聚焦软件,是想通过提供通用的机器人智能解决方案,快速适配不同硬件和应用场景,实现技术的规模化应用。
PI 团队认为,行业的真正瓶颈在软件而不在硬件,专注软件更能集中资源攻克算法和数据难题。
现阶段,PI 模型展示采用「机械臂+轮式」的机器人形态,这被团队视为现有技术中比较成熟,且具备完成复杂任务基础能力的硬件组合。

尽管成立不足两年,PI 已经发布了端到端 VLA 模型 π0、π0.5 和 π*0.6。前两款模型都已经开源,其中 π0 更是被称为开源领域最强的 VLA 模型之一。
π0 和π0.5 同样作为端到端 VLA 模型,核心区别主要在架构设计、训练策略和泛化能力上。
π0 采用的是 VLM+Action Expert 的基础架构,前者负责理解场景和指令,后者通过流匹配技术预测连续动作序列。
值得一提的是,流匹配是扩散模型的一种变体,因其简单、好用的特点,已成为机器人底层操作策略的主流手段,并被广泛应用在先进的 VLA 模型里。
无论是π0、π0.5,还是 LeRobot 的 SmolVLA,英伟达的 GR00T,均采用了这一技术。
训练策略上,π0 主要依赖机器人演示数据,通过端到端训练优化动作预测,其动作表示全程依赖连续动作空间,通过流匹配生成动作轨迹。
尽管π0 模型在已知任务和环境里表现不错,但在开放环境里泛化能力有限。
为了突破这一核心瓶颈,PI 团队推出了π0.5,通过分层推理机制和多源数据协同训练,首次实现了在陌生家庭环境里执行长时序任务。
π0.5 在π0 的基础上引入了分层推理机制,其中高层推理负责预测抽象语义子任务,例如拿起盘子、打开抽屉这样的指令,底层推理则基于子任务生成关节级连续动作。
通过整合多种类型的机器人数据、网络多模态数据、语言指导数据及语义标签,机器人训练不再依赖单一的演示数据,学会了从多元数据中汲取养分。
除此之外,π0.5 在动作表示上也采用了离散与连续动作结合的方式,机器人预训练用离散动作来提升效率,后训练引入流匹配来生成高精度连续动作,以平衡训练速度与控制精度。
目前,PI 也与中国公司建立了合作。硬件端,其机械臂由方舟无限提供,软件端其与智元机器人、星尘智能有深度合作。
此外,广和通的开发平台 Fibot 也已应用在模型π0.5 的数据采集中。
4 家中国公司公开对标 PI
随着中国公司在具身智能领域的崛起,多家企业纷纷推出了各自的基础模型,并在性能宣传上表示超越了 PI 的π0、π0.5。
星海图 G0 模型:评测结果在多个基准任务上全面优于π0 模型
自变量机器人 Wall-OSS 模型:在多个维度上对标并超越了π0
智平方开源模型 FiS-VLA:在三方评测中综合性能超越π0 达 30%
千诀科技类脑大模型:机器人接收模糊指令,可自主决策执行任务,执行时间远超π0.5
总的来看,目前具身智能行业已基本形成以 VLA 范式为核心的技术共识。
在这一共识下,五位玩家也依据自身优势,形成了差异化的定位:PI 是结果导向、技术驱动的典范;星海图代表了数据驱动+开源生态的路径;自变量深耕软硬一体协同发展;智平方是场景优先派,注重模型实际应用价值;千诀科技则是前沿理论派。

从模型架构的顶层设计来看,这些模型呈现出统一端到端与分层决策两种鲜明路径。
PI 的π0、π0.5 体现了前者追求简洁高效的思路,即通过一个统一模型直接输出从高级动作文本到低级关节控制的完整指令,在单一框架内完成从语义理解到物理执行的映射。
自变量的 WALL-OSS 则更注重深层次的统一性,其共享注意力与专家分流架构让语言、视觉和动作在同一个表示空间中交叉处理,从根本上减少多阶段流程中的误差累积。

与之相对,分层路径则更注重模仿人类认知中的专业分工。
星海图的 G0 模型和智平方的 FiS-VLA 模型均采用了双系统架构,将复杂的任务规划与高频的实时控制分而治之。
G0 模型通过明确的快慢系统分离,使机器人在铺床这类长周期任务中能稳定协调 23 个自由度。
智平方的 FiS-VLA 更进一步,它将快系统直接嵌入到预训练好的慢系统内部,通过复用慢系统末层的 Transformer 模块,让快系统天然继承慢系统的语义理解能力,实现了思考与行动在单一模型内的有机统一。
千诀科技的类脑大模型,则以前瞻性的思路,将生物大脑的神经推理机制引入机器人大模型,开辟出一条更为差异化的技术路径。
其模型通过重构输入与决策过程,赋予机器人更接近生物的主动适应能力。
而在这些技术差异的背后,也折射出各家公司不同的发展理念与市场定位。
首先,开源成为了大多玩家的共同选择。像π0、π0.5、WALL-OSS 、FiS-VLA 以及 G0 都采取了开源策略,既加速了技术推广,也通过开发者社区反哺模型迭代,形成「开源-反馈-优化」的良性循环。

在共性之外,五位玩家在应用场景与商业化节奏的差异更为明显。
Physical Intelligence 的π系列更侧重技术验证与泛化能力展示,商业化落地相对有限;中国模型则实现了技术与商业的深度绑定。
智平方通过开源生态积累开发者资源,已在工业场景实现降本增效,星海图聚焦科研教育市场。
自变量机器人主打软硬一体解决方案,千诀科技则以 API 服务赋能机器人厂商,形成了覆盖工业、消费、端侧等多场景的商业化布局。
这种差异本质上源于市场需求的不同,海外市场更重视技术的通用性与前瞻性,而中国市场则强调技术落地的实际价值与投资回报,这种需求导向的分化也将持续影响未来模型的优化方向。
具身智能的 ChatGPT 时刻何时到来
今年以来,各大论坛中被频繁讨论的问题之一便是:具身智能的「ChatGPT 时刻」何时到来?
面对这一问题,业内玩家的态度各不相同,有的乐观,有的审慎。
宇树的王兴兴表示,目前机器人大模型的发展阶段类似于 ChatGPT 发布前的 1-3 年,这一时刻或许并不遥远;星动纪元的陈建宇则认为,要达到高标准的 ChatGPT 时刻,仍需 3 年以上时间。
银河通用的王鹤指出,尽管人形机器人全面应用的呼声很高,但其发展至 ChatGPT 时刻仍有很长距离。
乐聚机器人的冷晓琨则提出,大语言模型的 ChatGPT 时刻在具身智能领域可能难以完全复制。
在 AI 深度融入日常的今天,像 ChatGPT、Deepseek 等大语言模型 AI 已经能给我们提供很大的便捷,人类向 AI 提问,AI 能给到不错的回答。
而将这一标准套入具身智能领域,则意味着:将一台机器人置于任意场景中,用户要求它完成各种杂活,机器人都能较好地执行。

显然,以现阶段的技术而言,实现这一目标仍面临三大瓶颈。
首先是数据瓶颈。具身智能行业「缺数据」,已是老生常谈的话题。
打个比方,ChatGPT 喂给模型的学习数据量相当于人不停学了 40 万年,但具身智能行业里的有效数据差不多仅相当于人不停学了 1 年。
行业需要大量多模态数据来训练,但真实场景数据采集成本高、效率低,且不同机器人硬件数据难以复用。仿真数据虽然可以批量生成,但容易产生 Sim2Real Gap,影响模型泛化能力。
因此,当前业界普遍采用仿真+真实数据+开源数据集组合的方式来扩充数据规模。
数量是基础,质量则是另一大挑战。
尽管越来越多的公司开始进行数据采集,但数据质量缺乏有效的评估标准,即便采集了数据,若质量不高,仍难以用于训练机器人。
此外,面对海量的互联网视频数据,其物理正确性无法保证,很难直接用于机器人训练。
其次就是模型瓶颈。现有的模型架构还不够成熟,泛化能力有很大障碍,缺乏统一且高效的模型。
同时,在机器人强化学习领域,尚未出现像大语言模型那样的 scaling law,导致机器人学习新技能效率低,投入和产出回报并不完全形成正比。
最后是系统工程问题。模型泛化能力不足,进而导致机器人进入陌生、非结构化环境后,任务成功率大幅下降。
而且,不同机器人的关节自由度、驱动技术、材料选择等缺乏统一标准,不同硬件架构的数据与模型难以通用,增加了研发与部署成本。
目前,机器人本体能承载的功耗有限,无法部署大规模算力,云端计算又面临延迟挑战,这也构成了算力部署上的限制。

总的来说,具身智能要迎来 ChatGPT 时刻,需要机器人实现适应非结构化真实环境、多感官联动,以及类人的思考能力。
相应地,机器人也需要突破机械执行的局限,提升元认知,赋予其反思与持续学习的能力,从而能够适应新环境与新任务。
「对标 PI」,本质上是中国具身智能行业在技术追赶过程中的一个必然阶段——通过明确的参照系快速定位差距、集中资源突破瓶颈。
但当 PI 已迭代至 π*0.6 并积极开源构建生态时,中国玩家需要超越单纯的性能对标,寻找差异化的破局路径。
无论是星海图的数据先行,还是智平方的场景绑定,其实都已展现出带有中国特色的发展思路。
不同的路径虽然各有侧重,但都指向同一个核心,具身智能的竞争最终是技术-数据-场景的协同竞争,而非单一模型的性能比拼。
正如业内人士所言,ChatGPT 的爆发不是因为单一模型的突破,而是语言数据、算法架构、算力支撑的三重共振,具身智能的拐点同样需要这种协同效应。
或许,具身智能的 ChatGPT 时刻离我们并不遥远,但这个关键节点,更可能在一次次模型迭代与机器调试中,悄然降临。
0
分享
好文章,需要你的鼓励












参与评论
请您注册或者登录星河频率社区账号即可发表回复
去登录
相关评论(共0条)
查看更多评论