回想十多年前诺亦腾创建的缘起,戴若犁依旧能脱口而出 iPhone 首个陀螺仪芯片的产品代号——L3G4200D。

恰是这颗小小的芯片,让他嗅到了机会,成立了诺亦腾。

从影视特效,到VR交互,到数字化医疗,诺亦腾的萍踪遍布多个赛道。而当属于机械人的海潮翻腾之时,他又灵敏地洞察到了机械人数据。

从最底层的第一性来说,世界模型、合成仿真情况以及其产出的生成视频与合成数据,跟真实的物理世界获取的 real data 的最合理关系其实是增广(Augmentation),或者补全(Completion),也可所以修改(Amendments and imprint)。比如基于蕴含大年夜量人类先验的一个真实数据集,比如 1000 万小时范围的,再由合成仿真情况或者世界模型去进行进一步的增广,把它泛化到 10 亿小时,把它再乘以 100 如许的关系。而不是等待搭一个全知全能的,可以或许生成所稀有据的世界模型,创造一个能解决具身智能所稀有据问题的世界模型的命题难度,比机械人命题难度还要高,所以你为了去解决一个命题 A,而去解决一个更难的命题 B 吗? 假如全世界的 target 是世界模型,其实对我营业也挺好,我的数据会卖给世界模型,卖给命题 B。

“2024 年全年,机械工资诺亦腾带来的营收涨了 5 倍,25 年又涨了,最终两年涨了 40 倍。作为一个企业治理者,肯定不克不及忽视啊!”戴若犁笑道。

于是,就在本年事首年代他毅然决定将机械人营业拆分出来,做一个机械人数据公司。谈及这份选择,他语气笃定,“我就是最合适做机械人数据公司的人,诺亦腾机械人(Noitom Robotics)也是行业里面独一清楚数据这个营业该怎么做的公司!”

值得存眷的是,戴若犁博士莅临 2025 年 GAIR 全球人工智能与机械人大年夜会的数据专场,带来了《用动作捕获技巧构建具身智能数据工厂》的主题分享。

GAIR 大年夜会聚焦人工智能的核心技巧、前沿趋势与家当落地,经久吸引来自全球的技巧领袖和科研人士。本届大年夜会将于 2025 年 12 月 12-13 日在深圳·博林天瑞喜来登酒店举办,与家当界和学术界的嘉宾合营研究人工智能的下一步成长。

以下是 AI 科技评论与戴若犁的对话,AI 科技评论对其进行了不改原意的编辑:



AI科技评论:机械人公司拆分出来的契机是什么?

戴若犁:机械人公司是在异常好的市场机会下催生的,诺亦腾 14 年就开端卖产品,已经卖了十来年了。在这十几年里,其实客户里面一向都有机械人的应用,一些老牌的机械人企业,以及 Stanford、UC berkeley、Tokyo Robotics 这些跟机械人相干的科研机构。

然则机械人用户在诺亦腾的整体营收里的占比一向都是个位数,低于 5%。我作为企业治理者甚至在报表上都看不到有一个分类叫做机械人,只有一个分类叫做泛科研,里面有一部分是跟机械人相干的,比如科研占到百分之十几,里头有 3% 是跟机械人相干的,所以我根本就存眷不到这个大年夜偏向。

但在 2023 年的下半年大年夜概九、十月份,产生了一个巨大年夜的变更,当时美国有两家耳熟能详的做机械人的企业跟我的美国同事提了一个采购需求,那个采购需求大年夜概是百套动作捕获设备。

01Noitom Robotics 是家机械人的数据公司

这个需求在我们看来美满是猖狂的、impossible 的,我认为是一个骗局,可能想要骗底价,因为大年夜订单肯定会给个三折,最后可能买个三五套就算了。

从23年的奇怪询价函开端, 24 年全年机械人在整体营收里面的订单总金额涨了 5、6 倍; 25 年比 24 年又涨了大年夜概 6 倍或者 7 倍,两年最终涨了接近 40 倍,这种情况对于企业治理者来说肯定不克不及忽视了。

所以 24 年事首年代我就认为工作纰谬,需求涨的太猛了,就去看他们到底拿设备在干啥?发明是在采数据。以前动捕的数据是以秒计的,片子行业的动捕每秒是大年夜几千块钱、几万块钱的。

机械人行业要的数据单位是小时,或者是万条、百万条数据,或者是 10 小时,百小时。并且本年特别卷,本年下半年因为有几个几十万小时的工作忽然出来了很好的成果,所以如今跟我们聊数据的需求都是按 10 万小时记的,甚至还有人来聊几十万小时、百万小时的一些可能性。

AI科技评论:诺亦腾机械人(Noitom Robotics)公司的融资情况?

戴若犁:已经完成了两轮累积数亿元的融资,一些新的信息即将颁布。有可能就是下周颁布吧,雷峰网帮我发一下?

AI科技评论:诺亦腾机械人(Noitom Robotics)公司是 to B 赛道的?

对话Noitom Robotics CEO戴若犁:没有人比我更合适解决机械人的数据问题 | GAIR 2025

起首我要讲清楚一点,也是借雷峰网("大众,"号:雷峰网)的平台跟大年夜家说清楚:诺亦腾机械人(Noitom Robotics)不是一家机械人数采设备公司,也不是一家数采项目办事公司,诺亦腾机械人是一家机械人的数据公司,交易的界面是数据本身,我们也会卖设备,也会做办事,然则卖设备跟做办事就为了四个字——交个同伙。

对我们来说,卖设备跟做办事就是为了办事将来的数据客户,我们也不指着卖设备跟做办事去赚钱。我们欲望最终可以或许为我们的办事对象,比如互联网大年夜厂、机械人企业、具身智能的模型公司等经久的数据营业伙伴,给他们供给的办事是数据本身。幻想情况下你别跟我买设备,我来投 Capex、投前置的固定资产,我直接给你数据就好。

我们欲望在运营层面重一点,在交割交付的界面轻一点。一个以数据本身作为交割和交付的界面,对我们来说是加倍好的一个贸易模式,也削减了卖一大年夜堆设备须要给客户做上门的技巧支撑。欲望所有繁琐的须要拉扯的器械都可以或许产生在我们本身的体内,而不是产生在客户之间的交割界面上。

AI科技评论:有做得特别好的大年夜型数据公司吗?

戴若犁:美国就有最大年夜的三家,Scale AI、Mercor 和 Surge AI。Surge AI 的 Infra 和对象链做得特别好,Mercor 本来是做 AI 的人力雇用,所以它在数据办事里的特长是用 AI 去筛选人,面试人,选择最精确的人,把这人卷的异常好,治理的异常好。Scale AI 的 Benchmark 和数据的应用比如 AI 标注等工作做得异常的好,模型才能也不错。

这三家各有各的特长,都是十亿到数十亿美金收入,都异常厉害,只是没有浮出水面,因为是作为一个低调的 to B 的闷声赚钱的数据公司,其实施内都知道他们。

而国内做的最好的数据公司不必定是上市公司海天瑞声。各个大年夜厂都有本身的数据办事公司,营业量异常的大年夜。还有曼孚也做的蛮好的。

数据本质上是一个 to B 的营业,特别是大年夜模型跟主动驾驶,因为甲方拥稀有据的来源,生数据(raw data)获取的才能上甲方比乙方更善于,甲方有大年夜量的车队可以把数据给开回来。那么数据公司在那边就变成了类似于一小我力外包的 BPO 办事,相对苦一点。

在美国可以众包到全球,它的劳动力价差大年夜一些,假如比较讲究对象链的 AI 才能、labor 的筛选才能,就可以或许把毛利做得高一点。可能在国内办事,劳动力价差就没有了,外包成本置换的毛利空间就会稍渺小一点,会做的比较辛苦一点。所以做出海的生意都做的不错,做本地的 BPO 办事的生意都做的比较苦一点。

所认为什么之前在你印象傍边会认为没有什么数据公司做的好?一方面肯定是人家闷声发大年夜财,低调,但更本质的是因为传统的数据公司办事的是大年夜模型和主动驾驶,甲方获取数据才能比拟较较强一点,给到的活儿变成了招人和点鼠标,溢价不会特别高,然则机械人行业不一样,甲方没数据,所以有一些新的机会。

AI科技评论:那你们会对标这些公司吗?

戴若犁:其实并没有直接对标,营业逻辑和贸易模式不太一样了,机械人对于数据的需求这件工作 23 年事尾才出现, 24 年萌芽,到了 25 年才微微的上了一点体量,来岁可能是一个异常大年夜的成长期,所以没有任何企业是可以对标的。

从生意模式和才能贮备上面来讲,刚才说的美国那三家可以做一些参考,然则他们也仅仅是在这个工作的后端。我们得先把数据获取过来,之后再跟这三家公司学学强在哪里。这件工作照样得要新拓展,因为甲方没数据。

AI科技评论:和其他的一些机械人数据公司比拟,你们的优势是什么呢?

戴若犁:会应用 UMI, UMI 是异常好的数据采集的方法办法。UMI somehow 是可以跨本体的,所以我很爱好 UMI 的数据。

戴若犁:起首我没有看到什么值得我今朝特别存眷的机械人数据公司,我如今可以或许看到的一些卖机械人数据采集设备和做一些机械人数据采集项目标公司,第一,范围都很小,第二,他们临时还没有积聚出来值得敬畏的工程量,可能就是在如许的行业里面做了一些还不错的一些项目罢了。我至少在贸易实践的前端没有看到值得我们如今特别存眷的挑衅,所以我也没有办法比较。

核心的点照样要成为一个机械人的数据公司,毫不只是可以或许做一些动捕的设备或者能承接一些跟机械人数据相干的项目,就可以认为本身是一个机械人数据行业里面有竞争力的公司了。其实中心差着很多多少很多多少,因为这件工作的复杂度很高,不管各个模态的数据若何,又要保真,又要低成本,又要成体量高效的可以或许获取回来,并且还要有才能让数据可以或许跨本体,本质上是跨客户,假如采的一批数据只能办事一个客户,那就是个项目公司。

周六的诺亦腾机械人(Noitom Robotics)公司楼下,阳光洒在地上,我们见到了戴若犁博士——这位诺亦腾的结合开创人,如今的身份还多了一个:诺亦腾机械人公司的开创人/CEO,身上既有技巧的灵敏,又有创业者的果敢。

所以我们跟其他在机械人数据行业里面做一些设备和做一些项目标公司比起来,第一,我们有真正的产品交付的才能,我在做诺亦腾的时刻,惯性动捕设备在全球就能做到 70% 的市场份额,第二名到最后一名加一块没有我们一半多。我们做过几切切、千人这个级其余大年夜项目,所以这方面的经验和实际的产品交付的经验、复杂工作的交付才能是绝大年夜部分其他人不具备的。

我认为这行业里头没有人比我更合适解决这个问题,我不认为有任何人在这方面的才能积聚、见识比我强。包含美国大年夜家认为很厉害的企业,他们对机械人行业的懂得或者对本体、合成仿真平台的懂得肯定是比我深,话语权也强。然则在数据、数据的应用链路和数据获取的门路,这个子赛道上面他们都得过来听我讲应当怎么做这个工作。

Source:Noitom Robotics

然后还有一个特别大年夜的优势是:诺亦腾机械人(Noitom Robotics)是这个行业里面独一清楚机械人数据这个营业该怎么做的公司。这个行业太大年夜了,所以它值得谋定而后动,值得想清楚该怎么运作和塑造贸易模式。怎么去补短板和加长板很重要,比做工作还重要,这也是为什么我们把这个公司分拆出来做,也是为什么有这么多特别好的投资人愿意赞助,愿意给我们多一点的钱去做这个工作的原因。

AI科技评论:所以在您创建的时刻,根本上就想好了这个公司将来的筹划?您认为能做到第一位吗?

戴若犁:完全已经推敲好了,自力融资就是欲望把这件工作做到更好。对于做到第一位这件工作我照样很有信念的,结合开创人们的才能都异常强,比如首席科学家之前是腾讯具身模型的一号位;CFO 做过美股的上市退市,做过港股的上市,做过A股的上市,做过很大年夜的公司的战投负责人;硬件工程的一号位,本来在字节新石实验室做硬件的大年夜leader。这些伙伴们有才能、有信念。很多人的薪酬都是除以 3 后才到诺亦腾机械人(Noitom Robotics)这边来的,所以肯定不是图一个小的工作。

所以机械人行业跟以前的需求数量不一样,以前也就几千条、每条十几秒的数据的需求,如今动不动就是切切条。我发明这个工作产生了本质的变更,需求的天花板被捅破了。贸易模式也有很多有意思的立异点可以做,不然则卖硬件和卖办事,还可以做自稀有据集。所以在本年事首年代,我把机械人公司从诺亦腾里面拆出来,做了一个新公司。

AI科技评论:目标是做到上市吗?

戴若犁:本钱市场只是一个把工作做大年夜的手段,不是一个目标。所以上市不是目标,是手段,本质上是多一种加倍自由和便利的募资的手段。

我们欲望能做具身智能机械人这个行业里最大年夜的数据供给商,欲望是单一最大年夜的数据供给商,这个才是我们的目标,并且做大年夜也不是目标,可以或许给行业解决问题才是目标。


02数据工厂只是一块拼图


AI科技评论:诺亦腾机械人(Noitom Robotics)主如果经由过程数据工厂采集数据吗?

戴若犁:数据不然则从工厂来,数据的来源其实有很多种。比如机械人的遥操作数据,这个数据的临盆产生在甲方机械人厂商那边很合适,也还有更大年夜体量的其他类型数据值得以工厂形态或者其他形态去临盆。

我们除了工厂形态还有其他形态的数据临盆模式,会用各类各样的方法办法去获取合适这个行业的数据,工厂只是个中一种方法。

AI科技评论:采集数据的操作思路是什么?

戴若犁:这一次具身智能跟机械人的成长,底层假设是仿生学的成功。不管是模型照样本体的形态,如今叫人形机械人或者类人机械人,多模态模型是极端的模仿人的大年夜脑的决定计划和履行的全链路。无论是模型照样本体构造,本质上是异常仿人仿生的,URDF 的层面都是一个仿生学,所以反过来对于数据的需求其实也是仿生的。

在思虑对数据的需求该怎么提的时刻,最不该该的是做市场调研,看客户须要什么就给他什么,因为如今技巧还没有收敛,所有的客户也在摸索途中都是半懂不懂的状况,所有人都在试错,看法也都不同一。当没有收敛的时刻去做调研,会发来岁夜家是既要又要,或者客户之间的交集小到只能给 A 做个项目,再给 B 做个项目,他们俩之间的需求是完全没有交集的,这是极有可能产生的一件工作,所以这显然不可。

所以思虑应当获取什么样的数据?或者应当积聚什么样的数据?到底什么样的数据、模态、体量、维度、精度、特点是必须的?我们的思路照样仿生,从人的角度去思虑。比如把咖啡拿起来打量一下喝一口这个全过程,其实用到了很多模态,这些信息都是我作为一小我形的本体在完成这个全过程所须要的输入 input。

假如一个本体的大年夜脑临时还不具备履行这个义务的才能的话,那至少要从仿生的角度去思虑,确保所我须要数据的模态、精度、量程、范围、帧率——这些是仿生的角度去思虑的——能知足人类本身履行输入信息的底线需求,至少保住了这个「底线」,就保住了将来换个本体这件工作是高概率可以或许完成的。所以在做数采技巧路径选择的时刻,其实思路就是仿生。

AI科技评论:你们重要售卖的数据是真机数据?

戴若犁:不是真机数据,是真实数据。真机和真实数据是有本质区其余。真机数据指的是用遥操作或 real world 的 RL 方法在机械人身上采的数据,真机数据是异常优质的数据,必定是有很强的价值的。

我在 GAIR 大年夜会上就会讲,真机数据对于每一款机械人都是弗成或缺的,因为只有真机数据傍边才有跟机械人相干的真机特点。它的传感特点、构型特点、制动特点、驱动特点,包含临盆制造傍边的各类各样的波动,这些信息都是经由过程其他数据得不到的,真机数据就有这些信息,所以真机数据是弗成或缺的。

然则真机数据有一个特别大年夜的问题,就是它不克不及跨本体。你在宇树 G1 上面采的数据,别说到小鹏的机械人上,到宇树自家 H1 上面都用不了。因为它的传感器、驱动器、身材比例和构型不一样。有这么大年夜的 gap,那么数据迁徙到别的一个本体上面,VLA model 的练习收益是明显低的,所以真机数据不可,但真实数据肯定要的,我们选择采集的数据就是从人身上采。

AI科技评论:采集数据主如果用动作捕获设备吗?

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

戴若犁:动作捕获只是个中的一个模态,只有人的动作姿势数据是跟动作捕获设备相干的,还有视觉、力触觉、听觉那些模态。所以动作捕获的技巧和设备只完成了数据采集个中的单一模态,只是比较重要的一个构成部分罢了。

本来我做的动作捕获设备是给其他行业做的,比如影视行业和 VR 交互行业,不是给机械人行业做的。而机械人行业比本来的行业大年夜很多,用其他行业做出来的设备姑息测一测、量一量,肯定是有问题的。

为了机械人行业,我们是值得从头贮备一系列的设备和技能的,并且设备只是把数据获取回来,数据该怎么应用?该怎么练习?该怎么后处理?该怎么进行模态/维度的增广和补全?这都是大年夜量的工作要做的。

所以我一上来就说诺亦腾机械人(Noitom Robotics)不是一家设备公司,也不是一家动捕公司,只是我这个个别先天带有一些动捕的技能贮备。全行业都认为搞定动捕就搞定了数据采集这件工作美满是错的,搞定动捕没有搞定命据采集,搞定动捕只是搞定了数据采集里头一个单一模态采集的基本门槛,并且搞定得还不彻底。

要把机械人的数据这件工作给做好,这毫不是一个动捕公司就可以或许做的工作,一个动捕设备公司可以做机械人数据公司里 30 个供给商个中的一个,所以诺亦腾(Noitom)可所以诺亦腾机械人(Noitom Robotics) 30 个供给商中的一个供给商。

AI科技评论:能泄漏你们已经给哪些机械人公司供给数据了吗?

戴若犁:假如要说数量的话,六、七十个肯定有了,美国十几个,中国四、五十个。满是头部公司,根本上你听过的相仇人部的公司多若干少都跟我们产生过交易,不管是买硬件设备,照样采买我们的办事,照样数据的交易,照样聊 2026 年的数据的合作,都异常异常多,但这个确切是贸易机密。

我们会赞助他们去做:数采设备供给、体系集成、遥操作的链路的打通调优、URDF 的映射、 Retargeting Mapping、模仿进修练习数据的支撑、中小体量数据集的授权,甚至于大年夜体量的数据集的定制化,这方面的办事我们在我小我认知范围内是全球做的最多的。

对话Noitom Robotics CEO戴若犁:没有人比我更合适解决机械人的数据问题 | GAIR 2025

你无法经由过程看视频揣摸出物理的原则,人类研究物理其实要做很多实验和测量的。就算是视觉如许的单一模态,Stereo video (双目视觉信息)有空间精度, Mono video (单目视觉信息)没有空间精度。世界模型是须要多模态,须要 Stereo 的信息才能够真正走到足够好的高度。

 诺亦腾机械人(Noitom Robotics)曾经供给过办事的部分客户案例

AI科技评论:个中有没有什么项目是你认为印象最深刻的?

戴若犁:每一个对于我们来说都很重要,我们是个 to b 办事商,最重要的一件工作就是要嘴严,或者说不克不及嘚瑟,这是我的原则。

戴若犁:是的,这是一个异常典范的 to B 营业。

在所有的合作里面,我们都是副角,这个工作必定要想清楚,它很重要。必定要认清楚本身的界线,我们赚这个钱,别人信赖我们,我不该该把这件工作拿出来嘚瑟。我能说的就是异常多出色的、头部的工作,那种在圈子里刷屏争辩猜测的好几个大年夜工作,我们在里面都供献了一点渺小的力量。

对话Noitom Robotics CEO戴若犁:没有人比我更合适解决机械人的数据问题 | GAIR 2025

Source:西湖机械人(Westlake Robotics)

AI科技评论:本年世界模型很火,你们会存眷这个点吗?

戴若犁:我们对数据进行预标注、维度增广处理、模态的补全处理都是要用到世界模型的。其实我们公司内部的机械人模型团队和多模态模型团队是可以和我们绝大年夜部分的甲方的模型团队比肩的,就像 Scale AI 的模型团队本质上是不比 Anthropic OpenAI 差的,只是范围体量没那么大年夜,因为你须要跟你的甲方核心团队平等对话,要赞助他们解决懒得解决甚至解决不了的问题。

所以我们固然不须要那么大年夜范围的机械人 VLA 的模型团队、强化进修模型团队、世界模型团队,也不那么烧卡,然则我们单点的这小我的才能须要特其余强。

AI科技评论:那您认为世界模型生成的数据会是解决机械人数据问题的一个路径吗?

戴若犁:它会是真实数据的一个很好的弥补。假如说机械人向物理世界或者人的真实施为可以或许进修的信息分两类的话,一类叫做规矩(rules),另一类叫做先验常识(prio)。模型(不管是世界模型照样物理引擎)可以或许合成和仿真的更多的是规矩,而人类的宝贵的大年夜量的复杂的,难以描述的,难以列举的先验常识是很难直接合成,很难无中生有的:你可以或许列举规矩,但你不克不及列举全量人类先验。

对话Noitom Robotics CEO戴若犁:没有人比我更合适解决机械人的数据问题 | GAIR 2025

Source:World Lab

所以对于真实数据的需求,有可能世界模型是比具身智能还大年夜的买家,因为这是两个分别但又极端相干的命题,他们都须要有空间、精度意义且来自真实世界的数据去进行练习。上个月美国合作方的同事还去见了李飞飞传授跟 World Labs 组做了交换,我懂得到,像DeepMind、通义千问多模态如许的组其实对于这种有空间精度意义的数据有很强的需求。

对话Noitom Robotics CEO戴若犁:没有人比我更合适解决机械人的数据问题 | GAIR 2025

AI科技评论:那你们会应用 UMI 吗?

Universal Manipulation Interface(UMI)source: https://umi-gripper.github.io/

但 UMI 也有一个很大年夜的问题,就是损掉了全身大年夜量的有价值的信息,且在夹爪这个层面有本体绑定性,迁徙到其他本体也有大年夜 gap。所以 UMI 在短期之内去验证一些才能和验证 scaling law 是有极高的极好的价值的,又便宜又好又能 deploy,的确是各类好,很诱人。然则经久来讲,有太多的损掉了,这些损掉导致 UMI 的数据短期内可以闭环一些义务,有生意做,然则经久来讲不足以巨大年夜的投入去积聚。所以我们放在 UMI 上很少,但会本着“帮客户老爷解决点问题高兴就好”的立场做点项目。

本质上我是要衡量这个对我来说是不是一个经久的营业,是不是一个天花板高的营业?假如单个别量特其余丰富,利润特别丰富,我是可以做的。这类的数据有一丢丢积聚的须要,它也能部分的跨本体,然则经久来讲它是稍微差的,它就是 Sergey Levine 说的那种“勺叉”( Sporks of AGI:Why the Real Thing is better than the Next Best Thing),他也是将军赶路不该追的那只有点肥的“野兔”。

AI科技评论:可以提前泄漏一些您在GAIR大年夜会上要演讲的出色内容吗?

戴若犁:我在GAIR大年夜会上会提一个概念,叫做具身智能数据的金字塔,这个金字塔分四层,这四层里面会涵盖遥操作数据(Tele-op data)、多样化人本数据(Human-centric data)、互联网数据以及合成仿真数据(Synthetic data)。

我还会去跟大年夜家讲一讲我们怎么看具身智能的数据的应用(data deploy),到底应当怎么解决跨本体问题(cross-embodiment issue)?是可以有一个全知全能或者单一的数据集,照样须要分层解决,照样须要经由过程不合的企业之间的分工和合作,在不合的场景、不合的工作模式下面去解决?我们有一个比较深刻的认知,这个认知会持续迭代,我在大年夜会上面跟大年夜家分享一下迭代到这个月,这周,演讲那天的成果。

还会跟大年夜家稍微介绍一下我们办事的这些很出色的伙伴,他们比来的一些成果我们有介入,会有一些好玩的器械给大年夜家在视频上面看一看,我信赖大年夜家会认为很有趣,并且会有一些大年夜家可以或许带走的认知和设法主意。


对话Noitom Robotics CEO戴若犁:没有人比我更合适解决机械人的数据问题 | GAIR 2025

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部