2025年 12 月 12-13 日,由 GAIR 研究院与雷峰网结合主办的「第八届 GAIR 全球人工智能与机械人大年夜会」,将在深圳南山·博林天瑞喜来登酒店举办。

ViewCrafter可以或许从单张图片或者稀少的多视角图片进行高质量的新视角合成,从而实现静态场景的生成。

腾讯 ARC 实验室高等研究员胡文博也将莅临 12 月 13 日《世界模型》论坛,带来《Towards 3D-aware Video World Models 》(《迈向三维感知的视频世界模型》)的主题分享。

以前一年多,Sora为代表的视频生成模型,成为继大年夜说话模型(LLM)后新的学术热点。本质上讲,当下火爆的视频生成模型,是一种世界模型,其核心目标是生成一段逼真、连贯的视频。

要达到如许的目标,模型必须在必定程度上懂得这个世界的运作方法(比如水往低处流、物体碰撞后的活动、人的合理动作等)。

胡文博恰是世界模型研究范畴近两年的绝对新锐。

本年大年夜会,将开设三个主题论坛,聚焦大年夜模型、算力变革、世界模型等多个议题,描述 AI 最前沿的摸索群像,折射学界与家当界共建的智能将来。

2022年,胡文博获得喷鼻港中文大年夜学计算机科学与工程博士学位。至今,胡文博已经在图形学和视觉国际期刊和会议揭橥20余篇论文。

深耕视频生成模型,Tri-MipR一鸣惊人

2023年11月,胡文博参加腾讯担负高等研究员,持续在生成式世界模型深耕细作,赓续摸索 3D 视频世界模型的新界线。

2018年,胡文博从大年夜连理工大年夜学卒业,还获得了辽宁省优良卒业生的殊荣。对计算机充斥热忱的胡文博并没有选择直接工作,而是奔赴喷鼻港中文大年夜学攻读计算机博士学位。

肄业时代,胡文博曾先后在大年夜疆、阿里巴巴达摩院、腾讯等有名企业练习。

2022年后,从喷鼻港中文大年夜学博士卒业的胡文博,选择参加字节跳动PICO混淆实际团队,担负研究员。也是这一阶段,胡文博揭橥了《Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields》(以下简称《Tri-MipRF》)。这篇论文受到极大年夜存眷,入围ICCV'2023最佳论文决赛,并荣获CVPR'2025 PixFoundation研究会最佳论文奖.

雷峰网懂得到,《Tri-MipRF》提出一种新鲜的Tri-Mip编码(类似于“mipmap”),即Tri-MipRF,实现神经辐射场的即时重建和抗锯齿高保真衬着。

《Tri-MipRF》指出,尽管神经辐射场 (NeRF) 取得了巨大年夜的进步,但我们仍然面对着质量和效力之间的衡量困境。MipNeRF 可以出现精细的细节和抗锯齿的衬着后果,但练习须要数天时光; Instant-ngp 可以在几分钟内完成重建,却忽视了采样区域,在衬着时会出现模糊或锯齿。

Tri-MipRF的关键在于将预滤波后的3D特点空间分化为三个正交的mipmap。如许就可以应用预滤波后的2D特点图高效地进行3D区域采样,从而在不就义效力的前提下明显晋升衬着质量。《Tri-MipRF》经由过程大年夜量实验注解,其实现了最先辈的衬着质量和重建速度。与Instant-ngp比拟,Tri-MipRF模型大年夜小削减了25%。

视频世界模型迈向三维空间

流媒体视频生成作为交互式世界模型和神经游戏引擎的一个根本构成部分,旨在生成高质量、低延迟且时光上连贯的长视频流。

胡文博本年9月揭橥的论文《Rolling Forcing: Autoregressive Long Video Diffusion in Real Time》,分享了他们在这一范畴的最新研究成果。

他们设计了 “滚动强迫”(Rolling Forcing)这一新型视频生成技巧,从而实现以最小的误差累积来流式生成长视频的目标。

1996年出身的胡文博已经活着界模型范畴深耕数年。

“滚动强迫” 有三项新鲜的设计。

起首 ,“滚动强迫”设计了一种结合去噪筹划,可以同时对多个噪声程度逐渐增长的帧进行去噪;其次,“滚动强迫”将留意力汇聚机制引入到长时流式视频生成义务中,使得模型可以或许将初始帧的键值状况作为全局高低文锚点,加强经久全局一致性;最后,“滚动强迫”设计了一种高效的练习算法,可以或许在大年夜幅扩大的去噪窗口长进行少步蒸馏。

大年夜量实验注解,“滚动强迫” 可以或许在单块 GPU 上及时流式生成长达数分钟的视频,同时明显削减误差累积。

胡文博也曾经分享他对视频生成模型的场景演变的懂得。

胡文博认为,当下的视频生成模型展示出了强大年夜的内容生成才能,有潜力作为世界模仿器。然则因为其本质是在2D空间上的建模,所以不克不及包管3D合理性与一致性。

为此,胡文博提出,精确相机可控是视频生成模型进化为世界模仿器的重要一环,并在这个偏向做了深刻研究,提出ViewCrafter和TrajectoryCrafter的解决筹划。

TrajectoryCrafter延续这一思惟,并将其拓展到了4D场景生成,许可用户应用想要的相机轨迹来从新“拍摄”输入视频,从而实现摸索视频背后的4D世界。

雷峰网("大众,"号:雷峰网)懂得到,作为世界模型范畴的前锋力量,胡文博的研究正引领 AI 从 2D 视频生成迈向三维空间懂得的新时代。

12 月 13 日上午 9:30 - 10:00 的世界模型分论坛上,胡文博将带来《Towards 3D-aware Video World Models 》(《迈向三维感知的视频世界模型》)的主题演讲,分享他在视频世界模型范畴的最新研究成果。

在这个乍暖还寒的季候,让我们合营等待胡文博的最新演讲,神往迈向三维感知的模型世界。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

腾讯胡文博:引领 3D 视频世界模型新趋势丨GAIR 2025

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部