在大年夜模型迈向通用视觉智能的海潮中,单一义务或单一模态的办法正面对瓶颈。实际世界的视觉懂得体系不仅要答复问题,还要懂得动态视频、定位事宜、跟踪目标、生成描述甚至进行复杂的逻辑推理,这请求模型具备综合的跨义务和跨模态才能。
然而,现有办法多半依附义务专化模型,难以实现不合视觉义务间的协同与常识共享,这不仅导致体系复杂度高,也限制了模型在综合推理场景中的表示。
在如许的行业背景下, 喷鼻港中文大年夜学多媒体实验室(MMLab)与美团的结合研究团队提出了>
论文地址:https://arxiv.org/pdf/2512.03043v2
从义务割裂到同一推理
为验证>
在图像问答义务中,OneThinker 须要同时处理视觉内容懂得、数学推理、逻辑揣摸以及跨模态信息融合等多种复杂才能。实验成果显示,该模型在多项高难度图像问答义务中均取得了明显优于比较模型的表示,尤其在涉及数学推理、科学推理和多步调逻辑揣摸的问题上优势加倍凸起。
从实验成果可以看出,同一的多模态推理模型在机能层面具有优胜的可行性和有效性。这一发明注解,将不合视觉义务整合到同一模型中进行建模,并不会减弱模型在单一义务上的表示,反而可以或许在整体上晋升其推理才能。雷峰网("大众,"号:雷峰网)

上述成果注解,同一的推理框架不仅未减弱模型在复杂问答义务中的表示,反而经由过程多义务结合练习,使模型获得了更强的抽象推理才能和跨范畴泛化才能。

在视频问答义务中,模型不仅须要懂得单帧视觉信息,还需有效建模时光次序、事宜演变以及长程依附关系。实验成果注解,OneThinker 在多项视频问答义务中整体机能优于专门针对视频推理设计的模型,尤其在长视频推理和视频数学推理等义务中表示更为凸起。
这一成果解释,在同一练习框架下,OneThinker 成功进修到了稳定而有效的时光建模才能,从而可以或许在复杂视频场景中进行持续推理和事宜级懂得。

在图像和视频描述义务中,OneThinker 须要生成与视觉内容高度一致、语义连贯且信息完全的天然说话描述。实验成果注解,该模型在图像描述和视频描述义务中均取得了较为领先的机能,生成文本在精确性、完全性和说话质量等方面均有明显晋升。
这进一步解释,推理才能的加强有助于模型更有效地组织和整合视觉信息,从而生成构造加倍清楚、逻辑加倍合理的描述文本。

在时光定位义务中,模型须要精确断定事宜在视频中产生的起止时光;而在空间定位义务中,则须要精确猜测目标在图像中的空间地位。实验成果显示,OneThinker 在这两类义务中均取得了明显机能晋升,可以或许更精确地舆解事宜产生的时光范围以及目标的空间分布特点。

模型练习在大年夜范围 GPU 集群上完成,整体练习流程分为监督微调和强化进修两个阶段。经由过程合理设置进修率、批大年夜小以及视频帧数上限,在包管练习效力的同时,实现了稳定而有效的多义务结合优化。
让推理跨越义务界线
为支撑同一多模态推理模型的练习,研究中构建了一个大年夜范围、多义务的数据集,覆盖图像和视频两种模态。这个数据集包含问答、描述、时光定位、空间定位、时空定位、目标跟踪以及瓜分等多种视觉懂得义务,数据来源广泛,涵盖多个应用范畴和不合难度层级,从而为模型进修多样化的视觉推理才能供给了充分支撑。
进一步地,在同时涉及时光与空间信息的结合定位义务中,OneThinker 同样表示出较强的综合建模才能,注解该模型可以或许在同一框架下同时处理“何时产生”和“产生在哪里”这两个关键问题。
在目标跟踪义务中,OneThinker 须要在视频序列中持续、稳定地定位同一目标。实验成果显示,该模型在跟踪精度和整体稳定性方面均明显优于比较办法,尤其在长时光序列中表示加倍稳健。

在图像与视频瓜分义务中,OneThinker 可以或许结合推理过程生成构造化提示,从而有效引导瓜分模型获得加倍精确的目标区域。实验成果注解,该模型在细粒度视觉懂得义务中同样具备较强竞争力,解释推理机制可以或许对感知类义务形成有效弥补。
此外,经由过程消融实验可以发明,仅采取监督微调而不引入强化进修,会导致模型在多项义务上的机能明显降低;同时,用传统强化进修办法替代论文提出的 EMA-GRPO 算法,也会引起整体机能的退化。这进一步验证了强化进修策略及其改进办法在同一多义务练习中的重要感化。

最后,在未介入练习的新义务上,OneThinker 依然表示出较好的零样本泛化才能,解释同一多义务练习有助于模型进修加倍通用和可迁徙的视觉推理常识。

让推理成为练习的核心
在此基本上,研究团队还进一步构建了一个带有推理过程标注的子数据集,用于模型的监督微调阶段。该子数据集中的推理过程由机能较强的模型主动生成,并经由严格的筛选与校验,以包管推理链条在逻辑精确性和表达一致性方面的靠得住性,为后续强化进修阶段奠定了优胜的初始化基本。

在练习过程中,所有义务均被同一表示为“先推理、后作答”的情势,即模型起首生成内部推理过程,再输出最终谜底或构造化成果。这种同一的义务表达方法使不合类型的义务可以或许在同一练习框架下进行结合优化,同时也便于嘉奖函数的主动计算与评估。雷峰网
对于感知类义务,模型须要输出相符预定义格局的构造化成果,以确保评估过程具有优胜的可反复性和稳定性,从而避免因输出格局差别带来的评价误差。

在完成监督微调之后,研究团队引入强化进修进一步晋升模型的推理才能。在练习过程中,模型根据不合义务类型获得响应的精确性嘉奖和格局嘉奖,从而引导模型生成既相符义务目标又知足输出规范的成果。

针对多义务练习中不合义务嘉奖分布差别较大年夜的问题,研究中提出了一种基于指数滑动平均的归一化办法,使各类义务在练习过程中可以或许获得相对均衡的优化旌旗灯号,从而有效避免模型过度偏向少数嘉奖分布较强的义务。

同时,实验也显示,强化进修并非只实用于说话推理义务,在引入合适的建模方法后,同样可以有效感化于视觉感知和时序懂得等多模态场景。
在这一背景下,OneThinker 所采取的模型设计思路展示出必定的普适性。经由过程同一接口、同一练习流程以及同一优化策略,不合义务和不合模态之间得以共享推理才能和构造性常识,从而削减了反复建模的需求。这种设计范式为通用视觉推理模型的构建供给了一条相对清楚且具有复用价值的技巧路径。
从应用层面来看,同一的多模态推理模型也更切近真实场景的实际需求。在诸如主动驾驶、智能监控以及机械人感知与决定计划等义务中,体系往往须要在同一框架下同时完成懂得、推理和定位等多种功能。比拟依附多个自力模型的筹划,同一模型在体系复杂度控制和义务协同方面具有更大年夜的潜在优势。
总体而言,这些实验成果提示,多模态通用模型的成长偏向不该仅逗留在模型范围的扩大上,而更值得存眷的是义务建模方法的同一、推理机制的合理设计以及练习策略的协同优化。
这些方面的摸索为后续多模态通用智能体系的研究供给了有益的参考。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复