![[分享发现] 商汤开源 SenseNova-U1:原生统一理解+生成的 MoT 模型,无 VAE、无需独立文本编码器](/proxy.php?url=https%3A%2F%2Fi.imgur.com%2FojeALs3.png)
四个点:
1. 架构上消灭了 VAE 传统范式:CLIP 编码文本 → VAE 编码图像 → 去噪 → VAE 解码 → 出图。U1:像素级 token + 文本 token 直接拼接进同一个 Transformer 。理解就是 generation ,generation 就是 understanding 。这意味着在 ComfyUI 里,你不需要 VAEEncode 和 VAEDecode 节点。
![[分享发现] 商汤开源 SenseNova-U1:原生统一理解+生成的 MoT 模型,无 VAE、无需独立文本编码器](/proxy.php?url=https%3A%2F%2Fi.imgur.com%2FEc3Zscl.png)
2. 高密度信息图输出 — 文字不会糊 SD 的老用户应该深有体会:海报上的中文大概率是乱码恶魔。U1 的 SFT 版本用 32× 下采样率专门优化了这类场景,可以输出带大量文字的海报、信息图、PPT 、简历、漫画。文字渲染正确率远超扩散模型。
![[分享发现] 商汤开源 SenseNova-U1:原生统一理解+生成的 MoT 模型,无 VAE、无需独立文本编码器](/proxy.php?url=https%3A%2F%2Fi.imgur.com%2FQICO3Yo.png)
3. 原生图文交错生成一个模型、一次前向,同时输出文字和图片。比如做一份番茄炒蛋图文教程,它直接输出带穿插图片的完整教程页面。这在多模态模型里属于「原生能力」,不需要后期拼接或分步渲染。
![[分享发现] 商汤开源 SenseNova-U1:原生统一理解+生成的 MoT 模型,无 VAE、无需独立文本编码器](/proxy.php?url=https%3A%2F%2Fi.imgur.com%2FtdQMcT3.png)
4. 推理驱动的图像生成/编辑:这是我觉得最厉害的点。模型在出图之前会先做推理:
- "木头密度小于水 → 会浮起来。铁块密度大于水 → 沉底。"
- "茶水一小时后鞣质析出 → 颜色变深琥珀色。"
- "糖+水会让鸡蛋浮力增大 → 鸡蛋会从杯底浮到中间。
![[分享发现] 商汤开源 SenseNova-U1:原生统一理解+生成的 MoT 模型,无 VAE、无需独立文本编码器](/proxy.php?url=https%3A%2F%2Fi.imgur.com%2FsNDWn2V.png)
然后生成符合物理逻辑的图像。同样的能力延伸到编辑场景——你说"把水换成高浓度盐水",模型理解物理含义,输出鸡蛋浮起来的编辑结果。这一步不需要用户画 mask 。
链接汇总:
- GitHub: https://github.com/OpenSenseNova/SenseNova-U1
- HuggingFace: https://huggingface.co/collections/sensenova/sensenova-u1
- Discord: https://discord.gg/cxkwXWjp