自回归模型杀回图像生成新方法比Diffusion更能像素级控图当下的AI图像生成

量子位看科技 2025-07-29 14:45:18

自回归模型杀回图像生成新方法比Diffusion更能像素级控图

当下的AI图像生成领域,Diffusion模型无疑是绝对的王者,但在精准控制上却常常“心有余而力不足”。

在精确视觉控制、平衡多模态输入以及高昂的训练成本方面仍面临挑战。有没有一种更高效、控制更精准的范式?

近日,来自伊利诺伊大学香槟分校(UIUC)、威斯康星大学麦迪逊分校、清华大学、北京大学、Adobe以及微软的研究者们,将目光投向了另一条技术路线——

自回归(Autoregressive, AR)模型,并提出了一个全新的高效多模态微调框架MENTOR,仅用十分之一的训练数据和次优的模型组件,就能够实现超越Diffusion方法(如Emu2、DreamEngine)的性能,为复杂的多模态图像生成提供了一个更高效、更可控的新范式。

MENTOR巧妙地绕开了Diffusion模型中常见的复杂设计,通过独特的两阶段训练法,让自回归模型也能高效地进行多模态条件下的图像生成,实现了像素级精准控制。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注