挑战扩散自回归统治！字节提出视觉生成第三种路线，让模型像人类一样边画边改

视频链接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

它的底层架构，不是主流的扩散模型，也并非近来大火的自回归模型，而是全新的第三条路。

让AI像人类一样画画，不仅可以边画边改，还能复杂多画、简单少画。也就是生成精炼网络GRN（Generative Refinement Networks）。

简单来说，如果把AI视觉生成比作在白纸上作画，那么现有的扩散和自回归模型各有各的优缺点。

先说扩散模型，作为目前最常用的视觉生成架构，还是有两把刷子的，其所生成的视频几乎能够以假乱真。

但实则它的绘画过程还像个笨拙的学生，无论是画简单的一颗苹果，还是复杂的巴洛克壁画，都必须老老实实一笔一笔画，所以即使是复杂度天差地别的画作，也要花费相同的时间步数。

自回归模型这边，虽然天生具备画面复杂度感知，但由于需要先将颜色离散化，画作始终缺乏高频细节。

GRN则从根本上解决了这些问题，知错就改，可以在画的过程中就不断修改细化，直到满意为止。

毕竟懂的都懂，“允许犯错、及时纠正”，这套一以贯之的思路真的很字节范儿～（doge）

目前GRN T2I模型直接在HuggingFace就能体验（
https://huggingface.co/spaces/hanjian/GRN）。

一张80年代生日派对上拍摄的全家福。一个小男孩吹灭奶油蛋糕上的蜡烛，家人围绕在他身边鼓掌。

Two men dressed in dark suits, red ties, and black hats. They are both wearing sunglasses and holding revolvers, pointing them directly at the viewer. The men have stern expressions on their faces. Their attire and demeanor suggest a sense of authority and menace…
两名男子身着深色西装、系红色领带、头戴黑色礼帽。二人均佩戴墨镜，手持左轮手枪，枪口直指观者。两人神情冷峻，着装与气场透着威严感与威慑感…

文生视频这边，作者开源了2B模型，同时提供了一个Discord网站Demo，大家登录Discord之后，点击下面这个链接就可以体验：
http://opensource.bytedance.com/discord/invite。

在左侧导航栏，可以找到GRN-T2V 2B模型，然后在聊天框输入/generate_video [提示词]即可。

A man in an orange shirt and glasses stands before a red brick wall, holding and presenting a dark gray cylindrical object.
一名身穿橙色上衣、戴着眼镜的男子站在红砖墙前，手持并展示一个深灰色的圆柱形物体。

视频链接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

A K-pop group performs on stage with vibrant lighting and dynamic choreography, singing a song about preferring night meetings, as shown in a live broadcast.
一场直播画面中，一支韩国流行偶像团体在绚丽的舞台灯光下登台表演，舞步灵动富有张力，演唱着一首偏爱夜间相约主题的歌曲。

视频链接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

首先针对自回归模型的离散损失，HBQ采用近乎无损的离散编码，能够避免在压缩过程中丢失信息，同时实现图像与视频的统一建模。

具体来说，它将VAE编码后的连续特征映射到[-1, +1]区间，然后通过二叉树结构进行多轮二进制量化。

这样重建误差就会随着量化轮数增加逐渐被分配到更精细的量化区间，量化误差随着轮数指数级衰减，理论上可以实现完全无损的量化。

其中，GRN包含两种预测目标，GRN_ind是将通道维度的M位二进制合并成一个整数标签进行预测，更适合简单量化轮数少的情况；GRN_bit则是直接逐位预测二进制值，更适合量化轮次高、模型大、任务复杂的情况，比如视频生成。

至于解决误差积累问题，GRN引入了全局精调过程，模拟人类绘画过程，从随机token图开始，逐轮开始修改迭代。

这个过程中，GRN需要自己从当前输入判断哪些是画好的[F] token，哪些是随机的[R] token，然后对所有token都输出一个refine后的结果。

当然，如果GRN判断是画好的[F] token，倾向于复制输出。对于[R] token，需要根据全局上下文的token推断应该画上什么。

另外，就算某些token被多次选中，随着模型看到的信息越来越多，这些token也不会一成不变，而是会被模型更优的预测结果代替，研究人员把这种机制叫做“token精调”。

通过这个全局refine的更新机制，确定的token不断增多，不确定的token反复改写，就像一个画家一样，真正做到了边画边改，生成效果也越来越好，彻底解决了自回归模型错误累计、错误传播的老大难问题！

计算每一步预测的平均熵，熵低意味着样本简单，可以分配较少的推理步数，熵高则意味着样本复杂，需要分配更多的精炼步数。

应用复杂度感知采样后，在对步数最敏感、参数量最小的130M模型上，推理步数能够从总共50步变成了20~40步，平均24步，而gFID仅仅从3.56略微上升到3.79（gFID数值越小越好），真正做到了简单少画、复杂多画！

首先在ImageNet 256×256的图像重建上，HBQ达到了0.56 rFID，远超SD-VAE (0.87)、RAE (0.62)、VAR（0.85)、Open-MAGVIT2（1.17)。

在视频重建时，8轮HBQ效果与连续VAE基线标准相当，说明HBQ无需增加隐层通道数，就能在更高的压缩率下逼近连续编码质量。

而将隐层通道从16提升至64，PSNR就会从30.40跃升至33.97，性能媲美当前最优的Wan 2.1，但比特数减少了4倍。

在类别-图像生成（C2I）任务中，GRN‑G（2B）的FID值为1.81，IS值为299.0，超越了DiT‑XL/2、SiT‑XL/2、VAR‑d30、LlamaGen‑XXL、JiT-G主流生成模型。

另外，相比于MaskGIT（227M），GRN‑B（130M）参数量仅为前者的一半，但性能实现反超，FID从6.18降至3.56。

这也就意味着，GRN的全局精调不仅彻底解决了AR误差积累问题，生成质量同时还超越主流扩散模型。

在文生图（T2I）任务中，GRN_bit 2B在GenEval上得分0.76，超过同为2B参数的SD3 Medium、Infinity，因为2B的参数量限制，落后于其他6B～20B等大模型，不过研究人员表示，GRN这种类似语言模型的离散token建模，有很好的scaling特性，他们会在未来推出更大的模型。

在文生视频（T2V）任务中，2B参数的GRN最高可支持480p、2~10秒高保真视频生成，在VBench测试中，超越5B的CogVideoX、14B的Wan 2.1等模型，以及所有同规模的AR和扩散模型。

总的来说，在同等参数量下，GRN已经实现了比扩散模型与传统自回归模型更聪明的生成。

它证明，在扩散和自回归这两条既定路径之外，视觉生成还有新的可能。GRN同时解决了量化损失、误差累计、复杂度感知生成的三个问题，在AR和Diffusion中间架起了一座桥梁。

dLLM也是一次性生成，一旦早期token出错，后面就只能将错就错，如果像GRN一样，引入全局精调，也许模型在生成文本后，还有机会推翻之前写的内容。

此外，GRN证明了纯血离散token是能够做好图像和视频生成的。从长远来看，能够更好地统一图像、视频、文本token，显著提升模型的多模态理解与生成能力。

相比自回归模型，GRN重建上限更高，对抗误差累计能力更强；相比扩散模型，GRN能更聪明地分配计算步数。GRN用优雅的设计解决了一直以来困扰自回归和扩散模型的难题。

论文链接：
https://arxiv.org/abs/2604.13030
代码链接：
https://github.com/MGenAI/GRN
HuggingFace链接：
https://huggingface.co/spaces/hanjian/GRN
项目主页：
https://mgenai.github.io/GRN/

量子位 QbitAI