绑定手机

获取验证码

注册、登录代表你已阅读并同意《用户协议》

取消
当前位置: 首页 > 详情

全球顶级投行,筛选出了具身智能的终极答案

向欣 2026-01-08 11:53:00 8965

作者 | 向欣

2025 年,具身智能开始从讲故事走向算账本的新阶段。

这一年,动辄上亿的订单、密集进场的融资,让行业热闹得像开了锅。但在这种热度过载的环境中,流量的分配并不总是与实力的厚度成正比。

眼下,具身智能需要从喧嚣中剥离出来,筛选出那些具备穿越行业周期能力的公司。

从顶级投行的研究视角中,筛选的结果正在变得清晰。

今年,摩根士丹利发布的两份报告在具身智能领域极具影响力:

  • 9 月的《Humanoid Horizons: Closer to the Real World》聚焦商业落地进展,

  • 12 月的《The Robot Almanac Vol. 1》(机器人年鉴 卷一)则系统性地搭建了一个面向未来数十年的机器人产业坐标系,试图回答哪些技术方向、产业环节和公司类型,最有可能在长期竞争中胜出。

在这一同时涵盖技术与商业维度的筛选体系中,智元机器人、银河通用、智平方等中国企业频频上榜。

值得注意的是,智平方是其中少数能够同时作为机器人基础大模型代表厂商业落地标杆的选手。

这种稀缺性,使其成为一个值得被拆解的样本。

身大模型的技术抢跑

在具身智能的技术栈中,大脑(具身大模型)决定了机器人的智能上限,是这场智能变革中最关键的驱动器。

过去一年,全球具身大模型的技术路线经历了从混沌到逐渐收敛的过程。

年初,大摩发布的《Humanoid 100》报告中,曾评价中国在人形机器人本体上具备显著优势,而美国在智能大脑层面占据先发地位。

在 Figure AI 推出 Helix、Physical Intelligence (PI) 发布 OpenVLA、π0 之前,行业对于如何实现机器人的通用智能尚存争议。而当这两大硅谷的技术明星纷纷选择 VLA(视觉-语言-动作)路线后,端到端 VLA 模型逐渐成为业内主流路线

以往传统机器人的应用极度依赖定制化编程,这导致机器人只能在严格定义的工位里重复刻板动作,一旦环境微调便会失效。

VLA 模型则能通过统一架构将视觉感知、语言理解、动作生成融于一体,实现端到端闭环控制,把人类自然语言指令、视觉场景信息直接映射为机器人可执行的动作。

虽然多数国内厂商在 Helix、π0 发布之后才跟进并开源相关的 VLA 模型,但也有不少公司早已做了相关研究,确立了相同的技术范式。

例如,在 Figure 和 PI 之前,智平方就已将端到端 VLA 模型明确为具身大模型的技术范式,并围绕端到端物理世界模型持续推进。

2024 年 6 月,智平方联合北大将 Mamba 引入 VLA 架构模型,推出了轻量化模型 RoboMamba(GOVLA0.0 版),它比 PI 的 OpenVLA 更早公开应用。

相比当时 SOTA 的 Google RT 系列模型,该模型在参数规模上小 95%,但未见任务的泛化能力成功率高出约 60%,并被图灵奖得主 Yann LeCun 关注和点赞。

这意味着,在具身大模型这一关键方向上,中国并不是后来者,而是与全球最前沿力量几乎同时探索。

这种对技术范式的预判,源于智平方创始人郭彦东在 AI 领域的深厚积淀。

郭彦东为美国普渡大学博士,师从两位 AI 领域的美国工程院院士,拥有超过 15 年的 AI 学术研究与产业实践经验。

他起步于 AI 界的「黄埔军校」——微软美国总部,这里曾走出过像陆奇、沈向洋等改变 AI 格局的技术领袖。在微软期间,他深度参与了核心 AI 技术的研发,建立了对模型演进的底层直觉。

此后,他先后担任小鹏汽车和 OPPO 的首席科学家,主导过数亿台智能终端的 AI 落地。这种经历让他既懂最前沿的算法,也懂如何在复杂的物理硬件上实现大规模应用。

进入 2025 年,智平方的 VLA 模型持续迭代,正式推出了全球首个全域全身 VLA 大模型 GOVLA。

常规的 VLA 模型往往只能输出简单的机械臂动作。Figure AI 颇负盛名的 Helix 模型的一大突破就是能够不再限于机械臂,而是能够实现对人形机器人上半身的控制。

GOVLA 则更进一步,首次实现了对人形机器人全身的控制与移动轨迹的统一生成,从单臂操作扩展到全身协同,让 VLA 模型不再局限于固定桌面的任务,能够面向开放环境,机器人具备了从感知环境到规划路径再到全身协同作业的整体智力。

智平方创始人郭彦东博士举了一个机器人做早餐的例子:

搭载常规 VLA 大模型的机器人,需要人把食材放到桌面,放到机器人的可视范围内,因为它只能看到桌面,只能在桌面操作,做完之后还需要人去给机器人提供服务。

而搭载 GOVLA 大模型的机器人能够 360°感知周围环境,可以自己去冰箱取食材,自己配比健康早餐,做完之后还可以送到餐桌,完成一个管家的全流程服务。这是一个机器人管家和一个自动化设备的最大的区别。

随后智平方开源了 FiS-VLA(GOVLA 0.5),进一步引入快慢系统融合,在性能上超越国际标杆π0 约 30%

配合千卡级大算力集群、高效的训练加速方法与独有的增量迭代方法,智平方实现了领先行业 SOTA 70 倍以上的数据使用效率,为模型持续演进提供了工程基础。

这种技术上的前瞻性,解释了为什么大摩将其列为全球基础模型厂商的关键代表。

在大模型的博弈中,中国企业正在通过更早的范式锁定和更高效的数据使用,拿回技术定义权。

订单热潮下的真与伪

具身大模型是具身智能企业技术的上限,商业化则是生存的底线。

据摩根士丹利统计,2025 年下半年以来,中国具身智能厂商披露的订单总额已超过 20 亿元。

不过,繁荣之下暗藏水分。许多订单属于框架协议或示范性验证,呈现一种虚火的状态,缺乏明确的交付周期和深度耦合的生产流程,还存在买卖双方背景不透明,交付没有明确期限的情况。

多位行业人士表示,当前不少巨额订单更多是示范性需求驱动,而非由稳定、长期的真实需求形成。一旦交付效果不及预期,后续续购存在较大不确定性。

原力灵机联合创始人唐文斌分析称,一些项目看上去是商业化大单,但拆开来看,很难解释它们真实解决了哪些问题,能否形成复购、是否能真正帮助企业降低成本或提升效率。

高盛的报告同样佐证了这一观点。今年 11 月,高盛调研了 9 家机器人供应链上市公司,发现目前没有一家公司确认收到了大规模订单或明确的生产时间表,处于「订单荒」的状态。

在这一背景下,能否给出明确交付路径,成为区分公司的关键指标。

智平方被大摩视为少数真实商业落地的代表性公司之一。其核心依据就是智平方与全球第三大面板厂惠科达成的 5 亿元人形机器人订单。

这笔订单的特殊性在于五个明确:

  • 明确的客户:半导体显示面板制造商 HKC(惠科股份)

  • 明确的应用场景:将用于 HKC 全球各地的半导体显示面板生产基地

  • 明确的工作任务:机器人将执行仓库物流、物料搬运、部件组装、质量检测等全流程任务,从 PCB(印刷电路板)操作拓展到 OLED 真空层压、耗材管理、废料回收等环节;

  • 明确的台数:超 1000 台机器人;

  • 明确的交付周期:在未来三年内完成部署。

同样在半导体制造场景,智平方机器人还进入吉利科技旗下晶能微电子生产基地,高效执行上下料、产线间物料转运等任务。

除了半导体生产制造场景,智平方机器人也在汽车制造、生物科技、公共服务等大量真实场景运行,通过技术复用实现跨场景的横向泛化能力:

  • 在汽车制造领域,多个国内外头部客户在上下料、物流转运、贴标签、收纳保护布等环节中进行应用探索,国产具身大模型首次获得汽车制造全场景验证;

  • 生物科技领域,与华熙生物合作,机器人执行无菌车间的物料转运、智能拆包和视觉检验等操作,替代人工在高风险区域的重复性劳动,有效降低交叉污染;

  • 公共服务领域,今年第三季度开始进入虹桥机场等国内一线机场收纳小推车。

  • 文商旅领域,今年 12 月 28 日发布全球首个模块化具身智能服务空间「智魔方」,集成咖啡、冰淇淋、娱乐、零售四大模块,机器人在其中负责实现高拟真交互与自主服务,未来三年计划在全国落地 1000 个智魔方。

支撑这种规模化交付的,除了具身大模型赋予的智能,还有以量产为导向的硬工程能力。

智平方在硬件侧坚持「为量产而设计」的原则,其 AlphaBot 系列强调工业级可靠性,核心部件无故障运行超过 5 万小时。

其轮式人形机器人 AlphaBot 2(爱宝)全身自由度超 34 个,可连续工作 6 小时,垂直工作范围 0-2.4m,单臂臂展 70cm,能实现 360°×360°全空间探测感知。

同时,智平方自建了产线,已于今年 9 月投产,支持千台级产能与快速扩产,并将在 2026 年扩至万台规模。

对量产与可靠性的执着,与公司创始人的背景强相关。

在微软、OPPO、小鹏汽车任职过的郭彦东博士完整经历了 PC、手机和汽车三大智能终端的创新周期,在 AI 与硬件的深度结合上拥有丰富的量产经验

创始人跨越多代智能终端的经验,让智平方从创业之初就明确,具身智能需要尽早进入可复制、可交互的量产体系,否则技术优势很难走出实验室,转化为真正的产业能力。

商业落地的意义一方面在于获取收入,更重要的是释放其背后的数据价值。规模化落地所带来的大量数据是具身大模型持续进化的必要条件。拥有明确交付、落地规划的订单,能够升级为企业的战略资源。

智平方创始人郭彦东提出了「正反金字塔」数据观

在冷启动阶段,具身智能模型主要依赖互联网数据与仿真数据提供多样性,再通过少量真机数据完成对物理约束的校准,这是一个「正金字塔」结构。

而当机器人开始在真实场景中规模化部署后,数据结构随之反转,来自生产现场的真实作业数,反而成为价值最高、最难复制的核心资产,形成「倒金字塔」。

通过这种正反循环,机器人能够在真实环境中不断迭代优化,越用越聪明。

这种基于真实场景反馈的工程能力,正是顶级投行在筛选具备穿越周期潜力的公司时,最为看重的能力之一。

行业终局,谁能走进决赛圈?

目前,具身智能行业呈现出三种截然不同的生存形态。

第一类形态是重模型,轻本体。代表企业包括 PI、Skild AI 等。

这类公司团队构成更偏向软件与算法研究,在大模型与算法研究上具备明显优势,但缺乏自主的硬件工程化和量产能力,先进模型很难转化为可批量交付的产品。

机器人软硬件是深度耦合的。对于这类公司而言,由于没有自己的硬件底座,其高性能算法与其他大多数公司的具体硬件之间难以达成深度适配,导致技术只能停留在实验室环境,很难在真实场景中完成端到端的闭环验证与迭代优化。

重模型、轻本体的路径,虽然在技术爆发期能迅速积累声望,但在商业闭环上面临挑战。这种困境不仅在具身智能领域出现,在更广泛的 AI 领域也是一样,并且已有先例。纯软件类公司的最终归宿,往往是加入巨头,走向 Talent Acquisition(人才并购)

一个最典型的近期案例就是 AI Agent 赛道的黑马 Manus。

即便 Manus 在过去一年表现惊人——截至 2025 年 12 月,其年度经常性收入(ARR)已突破 1 亿美元,累计处理 Token 超过 147 万亿个,服务了全球数百万用户。但就在 2025 年底,Manus 最终选择整体加入社交巨头 Meta,被其收购,Manus 创始人肖弘出任 Meta 副总裁。

对于 Manus 这种纯软件/算法驱动的公司来说,加入拥有庞大算力资源和用户生态的 Meta,是实现技术价值最大化的现实路径。

同理,在具身智能领域,像 PI 这样缺乏硬件支撑的纯模型公司,未来大概率也会重走 Manus 的老路,通过被其他大公司收购来实现技术着陆。

第二类形态是本体、轻模型代表企业包括宇树科技、众擎机器人、加速进化等。

这类公司凭借深厚的机械硬件底蕴和成熟的供应链管理,在成本控制上极具杀伤力,都推出了 10 万元以下的人形机器人。

它们能够快速实现产品的迭代与推新,通过低价策略迅速占领科研、教育等对交互要求较低的市场。

但其局限性也同样显著。今年以来,宇树科技、众擎机器人对机器人的更新多侧重于空翻、跑步等运动控制能力的极限展示,重点提升「小脑」而非「大脑」,在涉及干活的智能化程度与泛化能力上探索较少,缺乏自研具身大模型的支撑。

第三类形态则是本体与模型并重的全栈派,代表企业包括特斯拉、Figure AI、智元机器人、银河通用及智平方等。

这是投入周期最长、难度最高的一条路径,但也是最有可能跑通长期闭环的路线。

全栈派企业都是在机器人大脑、量产、数据三个方面形成闭环的厂商。在这一模式下,模型决定上限,硬件决定下限,场景提供持续演化的燃料。

这种不偏科的系统性实力,在 2025 年的这一阶段显现出更强的爆发性。

智元机器人已经连续收获了多个亿元级订单,并且实现了 5000 台通用具身机器人的量产下线。

银河通用最近完成了国内人形机器人最大单笔融资,金额超 3 亿美元(约合人民币 21 亿元),除了数百家药店的订单外,还收获了一笔 1000 台规模,金额约 7 亿元的人形机器人订单。

行业正在从狂热走向务实。单项能力或许能在早期获得关注,但长期来看可能会面临增长瓶颈,在规模化阶段,系统性能力更有可能让企业建立起难以跨越的护城河。

具身智能的竞争在逐渐进入深水区,能把模型、本体与真实场景同时跑通的公司,将在持续交付中积累起数据与工程壁垒,进入具身智能的决赛圈。

点击文末阅读原文提交榜单报名信息。

本文为星河频率原创文章,作者:向欣,如需转载,请联系授权。违规转载法律必究。
0

0

分享

好文章,需要你的鼓励

参与评论

相关评论(共0条)

Copyright ©2019-2026 深圳市星河频率机器人信息科技有限公司 版权所有

备案号:粤ICP备2025456896号