腾讯混元世界模型1.5(Tencent HY WorldPlay)已正式宣布,通知布告写道:

它是易于创建的:

只需输入文字描述或者图片即可创建专属的互动世界。

它是沉浸式及时交互的:

经由过程键盘、鼠标或手柄,即可及时控制虚拟相机的移动和转向,让你可以像玩游戏一样自由摸索AI生成的世界。

它也是直接可用的:

在腾讯混元3D官网可申请应用(https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay)。

混元世界模型1.5(WorldPlay)初次开源了业界最体系、最周全的及时世界模型框架,涵盖数据、练习、流式推理安排等全链路、全环节,并提出了重构记忆力、长高低文蒸馏、基于3D的自回归扩散模型强化进修等算法模块。

混元世界模型1.5具备三大年夜核心才能:

  1. 及时的交互生成:经由过程原创的Context Forcing蒸馏筹划以及流式推理优化,模型可以按照24 FPS的速度生成720P的高清视频;
  2. 长范围的3D一致性:经由过程重构记忆机制(Reconstituted Memory),模型支撑分钟级内容的几何一致性生成,可用于构建高质量的3D空间模仿器;
  3. 多样化的交互体验:混元世界模型可广泛实用于不合风格的游戏或者实际场景,以及第一和第三人称视角,也支撑及时文本触发事宜和视频续写等功能。

技巧上,混元世界模型1.5初次开源了业界最体系、最周全的及时世界模型练习体系,涵盖数据、练习、推理安排等全链路、全环节。混元团队在技巧申报中公开了模型预练习、持续练习、自回归视频模型强化进修、带记忆力的模型蒸馏的练习细节,并胪陈模型在控制(control space),记忆(reconstituted memory),蒸馏(context forcing),强化进修后练习几大年夜模块上的思虑与原创设计。

混元世界模型1.5的核心是一个叫做WorldPlay的自回归扩散模型,它采取Next-Frames-Prediction的视觉自回归义务进行练习,实现了长范围几何一致性的及时交互式世界建模,破解了业界知足及时性与几何一致性的难题。

该模型依托三大年夜核心立异:双分支动作表征实现精准控制、高低文记忆重构机制保持几何一致性、高低文对齐蒸馏技巧加强长视频生成的视觉质量和几何一致性。除此之外,该工作也构建了一套新鲜的基于3D嘉奖的强化进修后练习框架来进一步加强生成视频的视觉质量和几何一致性。

数据方面,混元团队构建的主动化3D场景衬着流程,可以获得大年夜量高质量的真实世界衬着数据,进一步激发核默算法的潜力。混元世界模型1.5可支撑 24帧 / 秒的长时流式生成,一致性与泛化才能实用于多样化场景。

在线体验网站:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
Github链接:https://github.com/Tencent-Hunyuan/HY-WorldPlay

它照样开源的:


Hugging Face链接:https://huggingface.co/tencent/HY-WorldPlay
项目主页:https://3d-models.hunyuan.tencent.com/world/

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部