MiniMax 结合华中科技大年夜学初次开源了其视觉生成的关键技巧 VTP (视觉分词器预练习) ,在不修改标准DiT的情况下,经由过程扩大视觉分词器(Visual Tokenizers),实现了 65.8% 的生成机能晋升。

代码:https://github.com/MiniMax-AI/VTP
与很多tokenizer工作不合的是,VTP在设定上纰谬下流的主模型(DiT)练习过程做任何修改,仅经由过程前置优化tokenizer来实现端到端生成机能的倍数晋升。
VTP预练习范式:

一句话来说——VTP把latents易学性和通用表征进修建立起明白接洽关系,从而第一次将tokenizer作为scaling的主角,展示出周全的scaling曲线和扩大偏向。VTP供给了一个全新的视角,指导我们除了在主模型上投入更多参数/算力/数据之外,还可以经由过程tokenizer的scaling来晋升全部生成体系的机能。
论文:https://arxiv.org/abs/2512.13687v1

发表评论 取消回复