[分享发现] 商汤开源 SenseNova-U1：原生统一理解+生成的 MoT 模型，无 VAE、无需独立文本编码器

商汤刚开源了 SenseNova-U1 ，一个原生统一图文理解与生成的多模态模型家族。最大的特点是——不需要 VAE ，不需要视觉编码器，端到端一个 Transformer 搞定。

[分享发现] 商汤开源 SenseNova-U1：原生统一理解+生成的 MoT 模型，无 VAE、无需独立文本编码器

四个点：

1. 架构上消灭了 VAE 传统范式：CLIP 编码文本 → VAE 编码图像 → 去噪 → VAE 解码 → 出图。U1：像素级 token + 文本 token 直接拼接进同一个 Transformer 。理解就是 generation ，generation 就是 understanding 。这意味着在 ComfyUI 里，你不需要 VAEEncode 和 VAEDecode 节点。

[分享发现] 商汤开源 SenseNova-U1：原生统一理解+生成的 MoT 模型，无 VAE、无需独立文本编码器

2. 高密度信息图输出 — 文字不会糊 SD 的老用户应该深有体会：海报上的中文大概率是乱码恶魔。U1 的 SFT 版本用 32× 下采样率专门优化了这类场景，可以输出带大量文字的海报、信息图、PPT 、简历、漫画。文字渲染正确率远超扩散模型。

[分享发现] 商汤开源 SenseNova-U1：原生统一理解+生成的 MoT 模型，无 VAE、无需独立文本编码器

3. 原生图文交错生成一个模型、一次前向，同时输出文字和图片。比如做一份番茄炒蛋图文教程，它直接输出带穿插图片的完整教程页面。这在多模态模型里属于「原生能力」，不需要后期拼接或分步渲染。

[分享发现] 商汤开源 SenseNova-U1：原生统一理解+生成的 MoT 模型，无 VAE、无需独立文本编码器

4. 推理驱动的图像生成/编辑：这是我觉得最厉害的点。模型在出图之前会先做推理：
- "木头密度小于水 → 会浮起来。铁块密度大于水 → 沉底。"
- "茶水一小时后鞣质析出 → 颜色变深琥珀色。"
- "糖+水会让鸡蛋浮力增大 → 鸡蛋会从杯底浮到中间。

[分享发现] 商汤开源 SenseNova-U1：原生统一理解+生成的 MoT 模型，无 VAE、无需独立文本编码器

然后生成符合物理逻辑的图像。同样的能力延伸到编辑场景——你说"把水换成高浓度盐水"，模型理解物理含义，输出鸡蛋浮起来的编辑结果。这一步不需要用户画 mask 。

链接汇总：

- GitHub： https://github.com/OpenSenseNova/SenseNova-U1
- HuggingFace： https://huggingface.co/collections/sensenova/sensenova-u1
- Discord： https://discord.gg/cxkwXWjp