当大模型成为移动互联网之后的下一个产业周期后,人形机器人也开始成为承载这一技术的典型产品之一。
公开数据统计,2023年国内人形机器人领域共有19起融资,披露融资总额达26.7亿元,同比增长65.5%。2024年上半年,国内的人形机器人投融资事件已达13起,融资总金额超25亿元。在参与投资的机构,有经纬创投、峰瑞资本、红杉中国等风险投资机构,也有联想创投、上汽、小米这样的产业资本,还有亦庄创投、浙商创投等政府资金入场。
可以说,与上一波的自动驾驶创业潮类似,同样短期内还看不到商业化可能的人形机器人赛道上,为了抢到下一个时代的入场券,资本也开始了早期的密集押注。而不同是,相比自动驾驶而言,各地政府和国有资本进入人形机器人产业的程度更深、节奏也更快。
“政府层面如此深度地参与这样一个早期行业,确实是在十年前的自动驾驶创业潮中未曾出现过的现象。”
联想集团副总裁、联想创投合伙人王光熙对钛媒体APP表示,至于其中原因,一方面与整个资本市场的环境变化相关。近几年,国有资本在新兴产生产力相关的一些创新领域,开始扮演越来越重要的角色。
另一方面,人形机器人是一个非常早期的行业,也是一个跨领域的复杂系统工程——从AI软件到硬件,再到应用场景,整个价值链的链条非常长。这就导致单一的机构,很难像政府部门那样,凑齐那么多的资源来支持产业的发展。
王光熙认为,在人形机器人这个非常早期的行业中,政府出来做一些事情还是非常有价值的。而作为本轮人形机器人的资本参与方,联想创投也投资了诸如星动纪元、逐际动力等人形机器人领域的热门公司。
“人形机器人领域的早期投资,很关键的一点要看创始人是否具有极强的跨领域研发能力。也就是AI时代原生的具身智能科学家,而不是原来做了多年的机器人控制或者视觉算法,现在大模型火了,出来学着做具身智能的人。”
王光熙称,人形机器人领域的创业团队,需要有对前沿技术的理解和突破能力,然后将最前沿不同领域的工具融会贯通,这样才能做好整体的技术架构。
在王光熙看来,现在市场对于人形机器人的预期,短期过于乐观而长期则过于悲观。短期内,有些人期待着人形机器人很快就能下场干活,进入产线甚至家庭生活。但目前这个行业的现状是,至少需要两到三年才能够在部分技术领域有一些长足的进步和突破。
而从长远来看,有观点则认为人形机器人泛化能力的突破看不到希望,从仿真训练到实际场景的迁徙存在巨大鸿沟。但其实人形机器人从发展到成熟的过程中,存在着大量的中间状态,在不同的可控环境和可控场景里面,人形机器人可以干各种各样的事情。
以下是钛媒体APP与王光熙的独家对话内容,略经编辑:
自动驾驶在发展早期时,政府的倾向可能是先让企业在前面跑起来,然后在后续制定相关的政策。但人形机器人这波创业潮中,政府层面相对更靠前进入,包括引导基金参与投资或者各地成立创新中心。你是怎么看待前后两次创业潮中,政府相关部门的角色变化?
王光熙:你的观察是对的。
自动驾驶本质上还是基于百年汽车工业,有一套已经非常成体系的产业生态,有成熟的规则,可以依托于成熟的产业去做增量试验。因此,政府部门可能也没有必要在产业发展特别早期的时候,就参与进来。
相对于自动驾驶而言,人形机器人是一个技术难度更高的行业,未来潜在的应用场景也非常广泛,涉及到工业、物流、服务业,甚至是个人消费,牵涉社会的方方面面。而且,它还是一个跨领域、复杂的系统工程。从AI软件到硬件再到应用场景,整个价值链的链条非常长。
这就导致单一的机构,很难像政府部门那样,凑齐那么多的资源来支持产业的发展。这个时间点,政府出来做一些事情,还是比较合情合理的,也是非常有价值的。
此外,整个资本市场跟十年前相比也有了一些变化。国有资本在最近几年,尤其是跟新兴产力相关的创新领域,开始扮演越来越重要的角色,引领作用会越来越强,这确实在十年前是没有的。
在各地政府部门参与人形机器人发展的过程中,你认为那些城市会有比较大的优势?
以江浙沪地区为例,它本身的产业体系就很丰富,从AI到半导体算力再到规模化制造能力,都有比较全的供应链。同时,江浙沪地区的商业化比较发达,大家很会做生意。所以,他们做这件事是奔着能够商业化的目标去的,主导权更多是在企业。
北京这边可能不太一样,整个制造业相对比较少,但是优势也很明显,就是AI人才密度很高,还有高校和互联网大厂的资源。北京的政策是属于提纲挈领型的,通过建立框架性政策指导,构建平台型的产业技术生态。
对于人形机器人这样一个过于早期的行业,供应链的集聚效应,算不算是一个明显优势?
王光熙: 当然是。
机器人目前很多的零部件都不是新的,对于汽车零部件的复用度非常高。新能源汽车在最近十几年突飞猛进的发展,让中国在电机、电控、电池的产业集中度非常高。同时,汽车行业的激烈竞争,也让零部小型化、安全性和能量密度快速提升,这些零部件很大比例可以在人形机器人本体上复用。
除了本体之外,现在主流观点会把人形机器人其他技术分成大脑、小脑两个部分,这两个领域的技术发展又是怎样的?
王光熙:我其实并不喜欢这种分类方法,比如小脑代表的是控制,大脑代表的是感知理解,这样会把这个事情变得很割裂。从未来的终局来看,人形机器人可能会越来越像是一个高度融合的端到端模型,这种纯模型驱动的方式成功概率比较大。
其实就跟人一样,人的行为逻辑并不是先坐在那儿,然后想做一件事情,大脑先把它全计划完,然后把这个计划输出给小脑,让小脑接收到一堆指令,最后出现各种动作。人类行为的本质,是高度连通的神经网络,条件反射型的自主动作,有些是直接通过小脑进行运动控制。
所以,在目前人形机器人的基本形态都还没有完全确定的情况下,分别去研究大脑和小脑的技术,其实也不太现实。
这有点类似于特斯拉的FSD。FSD出现之前,大家会认为要实现自动驾驶需要安装多少个雷达,多少个传感器。但FSD出现之后,就把之前的感知、推理、决策逻辑,完全推翻了。通过基于神经网络的端到端模型,FSD能实现更好的强化学习效果。
但这里面有一个问题,特斯拉FSD的成功,是基于长周期、大量的汽车训练数据得来的。如果纯靠模型驱动,人形机器人各种维度的数据应该怎么获得?相比于特斯拉FSD所需要的数据量,人形机器人大模型的数据量是不是更大,获得难度也更大?
王光熙:不一定。
FSD出来之前,虽然特斯拉有了十多年的数据,但这些数据的对于纯模型驱动的FSD而言,价值没有那么高,此前投入大量精力做的数据标注工作可能都是白做的。你可以理解为,FSD不是因为特斯拉有了此前十年的数据量才能做出来,而可能是因为基于神经网络的端到端模型,基于近期更高质量的数据和现有的硬件框架,才有了FSD。
对于人形机器人的数据,现在学术圈也在探索,怎么用更高效的方式来获取数据和融合多种类型的数据。这些数据中,有些可能是机器人在真实场景中的训练数据,有些可能是从模仿学习得来的数据,有些可能是用高质量的仿真环境训练出来的数据,不一而足。
但总的来说,想要实现人形机器人的通用化,这些数据的需求体量也没有想象中的那么巨大,因为机器人运动控制的精度和灵敏度也不需要那么高。
和自动驾驶不一样,一个成熟的自动驾驶产品需要做到人类司机差不多的事故率,甚至更低。但对于通用人形机器人而言,它不一样要和人类同等水平或是超越人类水平,它可以有很多中间状态,基于不同等级的通用水平,可以在不同的场景做更多的事情。
这是不是也意味着商业化可能也没那么难?
王光熙:我觉得对于商业化,短期内大家都过于乐观,但是长期又都过于悲观。短期内,大家恨不得他明天就啥都能干。但长期来看,它能干还能干好,还便宜,这又很难且区别很大。比如,如果一个干活能力很强的机器人售价100万,你会买吗?可能不会,因为如果多雇佣几个人,算上增加的成本,可能还是人更便宜。
对于端到端的这种模式,还有一个问题是如果大家都往这个方向走,也都采用类似的传感器、关节、电机电控,那么最终决定产品差异的是什么?
王光熙: 虽然大的框架都差不多,但对于框架的理解差别还是挺大的。比如同样做强化学习、仿真训练,做得好与不好,差十倍都有可能。再比如在传感器方面,比如力控传感器或者触觉传感器,过去的行业积累都很少。所以,从传感器到底层算法再到多模态数据悬链,这个过程中产生的差异会非常大,这也会导致机器人的泛化能力和适用场景也会差异巨大。
所以,对于人形机器人公司的投资,您最看重的是什么?
王光熙: 能否有极强的跨领域研发能力,这点是非常重要的。人形机器人行业有着大量需要拓荒的地带,这个时候创始团队需要有对前沿技术的突破能力,以及能够将最前沿不同领域的技术融会贯通,这样才能做好整体的技术架构。
同时,要看这个人是不是AI时代原生的具身智能科学家,而不是原来做了多年的机器人控制或者视觉算法,现在大模型火了,出来学着做具身智能的人。如果只是一个商业化的团队,出来就跟你说我明年就能商业化闭环,就能卖多少机器人,那都是在吹牛。目前这个行业的现状是,至少需要两到三年才能够在部分技术领域有一些长足的进步和突破。(本文首发于钛媒体APP,作者| 饶翔宇 编辑 | 钟毅)