MiniMax 开源视觉分词器扩展技术 VTP

MiniMax 开源视觉分词器扩大技巧 VTP

MiniMax 联合华中科技大学首次开源了其视觉生成的关键技术 VTP (视觉分词器预训练) ,在不修改标准DiT的情况下,通过扩展视觉分词器(Visual Tokenizers),实现了 65.8% 的生成性能提升。 与很多tokenizer工作不...