2025年12月12-13日,第八届GAIR全球人工智能与机械人大年夜会在深圳·博林天瑞喜来登酒店正式启幕。

作为AI 产学研投界的标杆嘉会,GAIR自2016年创办以来,始终逝世守“传承+立异”内核,始终致力于连接技巧前沿与家当实践。

在人工智能慢慢成为国度竞争核心变量的当下,算力正以前所未有的速度重塑技巧路径与家当构造。13日举办的「AI 算力新十年」专场聚焦智能体系的底层核心——算力,从架构演进、生态构建到家当化落地展开体系评论辩论,试图为将来十年的中国AI家当,厘清关键变量与成长偏向。

GAIR 2025「AI 算力新十年」专场上,清华大年夜学深圳国际研究生院副传授王智揭橥了题为《工业机理 × 大年夜模型:行业大年夜模型的体系束缚与可控推理的研究进展》的主题演讲,体系阐述了他对工业大年夜模型训推和落地实践的核心断定。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

当智能制造从主动化走向智能化,工业大年夜模型被视为关键一跃,却也直面着真实产线中数据稀缺、算力受限、成本敏感的三重挑衅。这不仅是一个算法问题,更是一个须要贯通学术前沿与家当实践的复杂体系工程。

在此背景下,清华大年夜学深圳国际研究院的王智传授与其结合团队,选择了一条“从场景中来,参预景中去”的攻坚路径。他们依托国度基金委重点项目,结合深圳信息职业技巧学院、汇川技巧等合作伙伴,在以前一年里,将研究扎根于工业质检、具身智能、法度榜样生成等具体场景,试图拆解并回应那些最实际的问题:若何用大年夜模型进级传统规矩体系?若何让机械自立懂得并履行义务?如安在弱算力、弱收集的工厂情况下,让智能模型真正“跑起来”?

这背后,是一个更为深刻的议题:当通用人工智能的海潮囊括而来,工业范畴毕竟须要如何的大年夜模型?它的常识若何注入机理与束缚?它的智能又若何与机械人、产线、收集情况协同共生?王智传授的报告请示,恰是对这一议题的一次阶段性答卷。

以下为王智传授演讲出色内容的精编整顿,雷峰网("大众,"号:雷峰网)作了不改变原意的编辑:

异常荣幸能在此与大年夜家分享我们的研究工作。

我们团队承担了国度基金委的重点项目,此次报告请示重要涵盖项目启动大年夜半年来取得的研究进展。须要解释的是,今天所展示的成果,是我们与深圳信息职业技巧学院、汇川技巧结合团队合营完成的。同时,我们也基于此基本,与普渡科技、越疆科技合作开展了深圳市重点研发筹划项目标研究,相干内容也一并向各位报告请示。

起首介绍项目背景。当前,智能制造正加快融入智能化元素,以工业大年夜模型为代表的行业大年夜模型已成为成长的必定趋势,是以,针对智能制造行业大年夜模型展开深刻研究,显得尤为急切。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

在此过程中,我们重点解决了智能体间的协作保护问题,设计了一种分布式信念构造,以实现高效通信。基于此,智能体可以或许以尽可能少的通信量,协同完成清除、收纳、侦查、巡检等义务。

在本项目中,我们环绕几个关键偏向开展了应用示范摸索:其一,若何将传统基于规矩的小模型质检方法,进级为大年夜模型驱动的质检;其二,开展工业具身智能研究,推动大年夜模型与机械人深度融合;其三,进一步摸索大年夜模型在工业编程范畴的应用——例如,可否让大年夜模型生成PLC法度榜样,从而实现对整条产线的优化?这是我们项目初期确立的几个重点问题。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

传统模型在具有明白工艺机理、且受成本制约的工业场景中,存在必定的缺点。我们经由过程梳理发明,现稀有据往往缺乏对工业机理、工业束缚与成本束缚的控制;同时,模型的练习与推理也面对算力与效力的双重挑衅。这些不足,恰是我们开展此项新研究的出发点。

接下来,我将以点线结合的方法,向大年夜家报告请示我们近一年来的研究进展及最新思虑。我们重要针对三大年夜挑衅展开攻关:一是行业应用中的数据缺乏问题;二是工业模型重练习与微调时算力收集资本的不足;三是工业场景对推理效力的严苛请求。环绕这些挑衅,我们在四个偏向进行了构造:数据制备、模型筹划、分布式练习以及推理加快,个中特别聚焦于以视觉说话模型(VLM)、视觉说话动作模型(VLA)为代表的具身模型的加快。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

起首是工业跨场景数据的生成与融合。这里我重要以具身智能与工业场景结合为例。现稀有据多经由过程遥操、工厂记录等方法采集,成本高、局限性大年夜,且难以嵌入背后的工业机理常识。

为此,我们提出了虚实融合的数据制备智能体框架,旨在实现低成本、高质量的合成数据生成。项目周期为三年,今朝已完成约三分之一。

我们起首摸索了应用NeRF(神经辐射场)等隐式神经表征来描述工业场景所需的多模态数据。这类表征具有跨模态兼容性强的长处,可以或许同一表达音频、时序、3D及2D数据,但其缺点是速度慢,是以我们的工作重点环绕加快展开,包含优化3D数据采样偏向、以及针对2D数据重点进行减枝与优化,从而明显晋升了隐式神经表征的效力。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

然而,3D隐式神经表达的速度瓶颈依然凸起。为此,在第二阶段,我们将重心聚焦于可视化3D数据,并将研究范式从影视声音表达过渡到3D高斯表征,但3D高斯模型体量较大年夜,对大年夜范围场景进行表征和传输时,仍面对存储与带宽的压力。

我们在现有工作基本长进行了拓展:当前研究大年夜多集中于晋升掉真机能,却难以在给定存储大年夜小限制下重建场景,我们重点解决了这一问题。

此项工作重要包含几个部分:起首,经由过程测量分析,我们明白了3D高斯重建中与模型大年夜小最相干的超参数及其影响关系,从而改变了传统“先重建后优化”的范式,转向在练习中直接针对高敏感度参数进行优化。同时,我们在算子层面也进行了加快。图中展示了我们的实验后果,其核心优势是能将模型紧缩到足够小。

在当前一味寻求重建质量的红海竞争中,我们从延迟、带宽与设备限制角度对3D高斯进行优化,这一思路获得了ACM  Multimedia评委会的承认,成为1500余篇投稿中入选最佳论文候选的6篇之一。

我们信赖,这项技巧不仅可用于预练习数据制备,也将推动沉浸式多媒体体验的成长,其核心挑衅依然是带宽与质量之间的均衡。

前两项工作重要存眷数据的底层表征。在获得表征后,还需将其编排成完全场景。为此,我们开辟了基于大年夜模型的构造化场景生成与编辑办法。

起首,我们测验测验将场景构造化为JSON或XML等格局,进而应用大年夜模型进行编辑。当然,这弗成避免地会产生“幻觉”问题。我们引入了一种力引导构造来清除违背常识的构造,例如防止沙发嵌入墙体或物体姿势不合理。经由优化,我们能生成既真实又多样化的场景构造。

拥有了场景和物体资产后,下一步便与本次会议的主题慎密相连:我们可否制备出真正有效的数据?这是对我们已有多个模块的综合应用。核心问题很直接:可否不经由过程人工示教或遥操,就让机械自立活动并完成义务?既让说话类模型已经有了泛化才能,我们又可以比拟较较真实、快速地生成数据,这是我们的初志。

这个初志想达到什么样的后果?

与纯真寻求模型范围的常见叙事不合,王智传授团队的工作出现出光鲜的“工程思维”与“成本意识”。他们的摸索从底层的数据生成与表征优化出发,延长至模型筹划、分布式练习与推理加快的全链路,其目标并非打造一个全能的“工业GPT”,而是构建一套能让大年夜模型技巧适配工业严苛束缚、实现低成本高效安排的办法论体系。

我们拍摄一张实验室真实场景的照片,不进行任何示教,就凭空仿真去生成一系列的这个行动记录,用行动记录数据对VLA模型进行微调,它可否工作?

在实验室情况下,如许生成的示教数据已经具备实用价值。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

例如图示,完全无需人工示教,固然生成的动作在重心均衡、操作点定位上存在误差(如浇花时未推敲水杯满溢状况的重心变更),但模型成功率从零晋升到了75%。我们甚至发明,遥操100条数据与我们主动生成1000条数据所能达到的后果是邻近的。

这是我们在不合场景下的实验成果。今朝受限于实验室本体与场景的范围,我们欲望将来能对此框架进行更大年夜范围的扩大。我们已经部分化决了生成速度、义务泛化与场景编排的问题。瞻望将来,在不合本体协作的背景下,是否会产生新的有趣现象?我们也等待与各位同业深刻交换。

为控制成本,我们进行了两方面设计:一是将各类对象Token化,使其能被说话模型像处理词汇一样进行编排;二是将义务履行产生的成本消费转化为嘉奖旌旗灯号,经由过程强化进修过程来优化对象调用策略。

在数据制备的最后部分,我们还摸索了智能体级别、决定计划级其余数据制备。具体场景是:在具身智能研究中,多个智能体需协作完成义务,若何制备这类数据?我们搭建了一个仿真情况,让多个智能体在同一3D场景中协作,并记录其交互数据,作为将来练习智能决定计划的基本。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

第二部分,是针对工业机理束缚的大年夜模型设计。须要澄清的是,我们不是做基模的设计,而是研究若何应用大年夜模型来编排策略、对象链及其他智能体。工业场景的核心束缚之一是成本,这不仅指推理成本,更包含所串联对象链本身的运行成本。为此,我们研究了融合拓扑束缚与成本反馈的高效义务筹划办法。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

这是我们的总体框架。传统大年夜模型调用对象也能完成义务,但其产生的动作序列成本可能较高,例如导致机械臂不须要的弯折或调用高算力算法。

大年夜家可能会问:将大年夜模型用于娱乐对话尚可,但在视频处理、工业控制等严肃场景,其成本与延迟是否可接收?为此,我们与字节跳动合作了一个项目,针对视频办事场景,研究大年夜模型在带宽猜测、码率优化等义务中的实际效能。

基于真实数据的测试,我们发清楚明了一些规律:

起首,大年夜模型确切具备优胜的泛化才能,可以或许适应收集范畴的义务,我们对码率自适应、义务调剂、带宽猜测三类义务进行了验证。其次,在收集义务中,模型机能似乎存在某种“缩放定律”提前饱和的现象,未必须要特别大年夜范围的模型。此外,我们提出了大年夜模型路由机制:并非所有义务都需经由大年夜模型处理,惯例义务可直接由传统规矩或算法处理;只有当义务超出传统算法才能范围时,才路由至大年夜模型,从而在某种程度上包管软性的延迟上限。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

这两部分工作理论性较强。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

我们改进了Top-k梯度紧缩办法,该办法虽能有效削减通信量,但在非自力同分布数据场景下机能可能降低。我们提出了一种新的紧缩机制,使其在联邦进修等场景下能达到与未紧缩相当的收敛机能。

无论模型是预练习照样微调得来,最终都需在类工业或工业场景中快速安排。我们重点针对具身智能模型(如OpenVLA框架)进行加快优化。与通用说话模型比拟,这类模型包含几个明显模块:视觉感知、视觉说话懂得(VLM)以及策略生成(平日基于扩散模型)。我们的工作可概括为对这三部分分别进行优化,手段包含参数量化、输入量化、通道剪枝以及KV Cache优化。

清华大年夜学王智:工业大年夜模型「数据、算力、成本」三重门,我们若何体系破局?丨GAIR 2025

起首,在视觉感知部分,其输出数据受模型参数与输入数据通道的合营影响,我们发明模型构造与输入数据之间存在耦合关系。是以,我们提出了一种多维度结合轻量化办法,针对感知模块进行加快:对于某些数据,在数据层面进行剪枝对后续义务影响更小;而对于其他数据,则更合适在模型层面进行过滤,这些特点可以或许在我们框架中被主动进修。感知数据输入后,需经VLM处理。我们对此也进行了优化,重要发明时光与空间维度可以结合紧缩:在VLM感知阶段,Token序列具有接洽关系性,弗成随便混排;同时,不合Token的重要性也不合。我们据此提出了时空结合紧缩优化框架。

接下来是策略生成部分的扩散模型加快。

我们重要在以下三方面取得了进展:一是物理靠得住场景的重建,经历了从影视、声音、收集至3D高斯的进展;二是构造化场景的生成与编辑;三是摸索应用大年夜模型进行场景泛化与数据生成。相干工作已揭橥为论文,推敲到今天可能大年夜部分不雅众来自家当界,在此拔取部分内容展开解释。

值得一提的是,在我们实验室的测试中,前端的感知与VLM部分耗时约占3%,策略生成部分约占1%,但两者均有加快空间。对于扩散模型,我们重要经由过程缓存机制,以存储换计算。我们的特点是将KV Cache的粒度细化至“块”级别,这固然增长了缓存单位的数量,但也为优化供给了更细的指导。我们摸索出了“块”在时序上的参考规律。

初步实验注解,在算法雷同的情况下,仅优化“块”缓存策略就能带来明显的速度晋升。

进一步地,我们不仅应用“块”在时序上的参考性,还摸索了同一transformer模块内不合“块”之间的空间参考性。我们发明,同一空间内的“块”也具备类似性,可互相参考,从而进一步节俭计算,我们还不雅察到一个有趣现象:在动作生成过程中,只需参考后续的部分“块”,而对前面序列的参考可以大年夜幅削减。

我们测试了这一流程的可行性。成果注解,该流程充斥欲望,尽管今朝仍存在一些界线案例。模型已能辨认操作点并泛化出活动轨迹,但有时仍会出现不知足物理束缚或动作不合理的情况。

下面扼要介绍我们在专项义务中开展的应用处景示范。

起首,针对智能产线机械人。我们融合示教数据与临盆数据对模型进行微调,再结合前述加快技巧,慢慢解决单点问题,最终集成为复杂的工程体系,使其能在真实产线场景中靠得住工作。

第二,针对证检义务。我们应用大年夜模型进行对象调用。在某些行业企业中,质检部分已积聚了成百上千个检测对象,我们的办法能结合成本考量,智能调用这些现有对象链。

最后是总结与瞻望。

我们承担的重点专项附属于国度基金委工业互联网偏向。结合工业互联网与边沿收集的成长趋势,我们将来两至三年的重点霸占偏向包含:模型加快、语义通信、收集自立化以及多智能体协一致。

我们的工作是从通用大年夜说话模型向工业大年夜模型过渡的摸索。我们发明,工业大年夜模型在数据层面须要融合3D信息与物理束缚,场景需多样化;在练习层面需适应弱网弱算情况;在练习与推理层面,均受到效力与具体场景的严格限制。

以上是我今天的分享内容,涵盖了我们团队的开源项目进展及实验室成果转化情况。

感谢大年夜家。

第三部分,是关于弱算力、弱收集情况下的分布式练习。这部分研究起步稍晚,今朝我们已完成流水线筹划和梯度紧缩方面的工作,目标是在算力收集资本受限的前提下,更高效地应用资本对模型进行后练习或微调,以适应不合场景需求。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部