香蕉和GPT Image之外的第3条路:华人15人团队造出AI生图黑马

几乎在同一时间,由第三方机构Arena.ai发布的图像生成榜单,完成了最新一轮的“大洗牌”——

Luma凭UNI-1.1与UNI-1.1-Max直接冲进全球前三,仅次于OpenAI(gpt-image-2)Google(nano-banana-2)。

这个排名的含金量不言而喻,Arena.ai采用的是一套依靠用户盲测投票产出的ELO评分系统,没有官方公关或自报数据,每张图都是由真实用户在不知道模型来源的前提下,对两份生成结果二选一投出来的。

这意味着,在真实场景下,图像模型Uni-1.1的审美和输出质量,已经成了OpenAI和Google之外的最优解。

更值得注意的是,一个原本预算1500万美元、周期一年的广告campaign,用Luma Agents跑了40小时、花了不到2万美元,不仅拓展成多国本地化版本,还通过了甲方内审。

但Luma这次发布的真正卖点,并不在像素质量本身,而是它把推理(reasoning)和生成(generation)放进了同一个模型。

传统图像模型的工作流是:用户写prompt → 模型直接出图 → 不满意→ 换prompt重抽。

整个过程里,模型理解了什么和模型画了什么是两件事,企业拿这种AI工具去跑品牌投放,最大的痛点是不可控,同一个角色到了下一张图就变样、品牌色每次都飘、跨市场素材风格各跑各的。

它采用decoder-only自回归Transformer,文本token与图像token共享同一个序列——

也就是说,模型不是先翻译再画,而是同时跨模态推理;构图、空间、品牌一致性这些约束,是在像素生成之前就已经在结构层面被求解。

这套设计的产业意义,是把创意可控性从prompt工程的玄学,变成了一组能写进生产pipeline的API契约。

Luma这次没有把Uni-1.1当成开发者玩具发布,而是直接把企业客户名单亮了出来。

Publicis Groupe(阳狮,全球领先的广告与传播集团)和Serviceplan(欧洲最大的自主经营广告代理集团):

把Luma Agents(基于Uni-1.1)部署到从策略、创意开发到生产的全流程。

一个被多次援引的标杆案例是,把某品牌原计划1500万美元、一年期的广告campaign,用40小时、不到2万美元(合人民币约13.6万元)的成本,拓展为多国本地化版本,且通过了甲方内部质量审核。

把Uni-1.1接入品牌内容生产流水线,用于跨市场视觉素材的批量生成与一致性维护。

Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt等创作者平台与AI工作流公司,已基于Uni-1.1 API发布了集成。

用语言思考,用像素想象与渲染,这就是像素中的智能(intelligence in pixels)。

从已落地的客户案例倒推,Uni-1.1 API在以下三个方向上,已经有了清晰的ROI模型:

Uni-1.1单次API调用支持最多9张参考图联合输入,把品牌主形象、文字、产品、地域元素作为模型层级的硬约束传入,多语言渲染(含中文、阿拉伯文等非拉丁字符)一次到位。

开发者可以把产品照、面料样、场景参考一并喂给API,单图成本最低$0.0404,做到按页/按用户/按地域实时生成产品图,而不是一次拍完反复套模板。

Luma官方把这种用法叫作reference-grounded brand workflows at scale,即参考图作为模型级约束,把视觉身份锁在所有channel里。

Uni-1.1的多参考图机制+ 句子级编辑(按句改图,默认保留其他元素),让这件事可以做成确定性流水线,而不是反复抽卡赌运气。

Prompt:Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who have evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.

(生成一个来自2036年的新闻网站页面,其中包含相关的新闻,以及专门为Agent设计的广告模块。这些Agent已经进化出各自独特的“人格”。整个网站内容以及所有广告都必须使用英文呈现。)

包括报头、栏目导航、突发新闻条、头条主图、多栏正文、署名/时间戳、面向AI受众的横幅广告位、页脚链接,十几类版式元素同框,每一类的英文文本都是真实可读的。

这样的复杂版面+长文本任务,在传统pipeline里要由文本编辑、OCR一致性、版面结构多个模块联合完成,Uni-1.1把它们捏在了一次推理里。

GPT Image 1.5把参考图当贴图直接嵌入了PPT区域,Uni-1在语义层面完成了融合,这是品牌campaign里产品+代言人+场景+logo组合最常见的需求。

去掉前面那只熊→加一个黑色布帘→改成黑白照片,三轮指令叠加,主体一致性和空间关系在每一轮都没崩。

(注:Uni-1.1还支持中文文字渲染、UV贴图、草稿转漫画、风格迁移、跨年龄角色故事板等更多场景,本文不再展开。)

SDK覆盖Python/JavaScript/TypeScript/Go/CLI,从platform.lumalabs.ai拿key即可接入。

这种互补的阵容,恰好对应了Uni-1.1“脑手合一”的架构,让模型在落笔画图之前,先学会像人类一样思考构图和品牌逻辑。

在Google、OpenAI主导的图像赛道里,一支不到15人的团队,把API定价压到同行一半,还顺便在Arena.ai上完成了对一众大厂的“越级反杀”,是这次发布另一个值得记一笔的产业信号。

UNI-1的首发,让我们成了除OpenAI与Gemini App之外排名最高的实验室。对一个第一代统一图像模型来说,这个起点不算差。顺带一提,这次榜单更新里,GPT Image 2的ELO比之前掉了110分,不太确定中间发生了什么……

Luma现在是Arena.ai第三名了。GPT-Image 2级别的智能,Midjourney级别的审美,价格只有Nano Banana的零头。

统一智能的真正价值,不是更好看的图,而是模型既能理解又能生成之后,AI第一次真正具备了端到端完成创意工作的能力。

API入口:lumalabs.ai/api
官方公告:lumalabs.ai/news/uni-1-1-api
接入文档:platform.lumalabs.ai
SDK:Python/JavaScript/TypeScript/Go/CLI

量子位 QbitAI