DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

2026年05月01日 11:21 次阅读稿源：快科技条评论 DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

DeepSeek在GitHub上发布了多模态推理模型及技术报告，题为《Thinking with Visual Primitives（以视觉原语思考）》。该模型基于DeepSeek V4-Flash（284B总参数、推理时激活13B的MoE架构）构建，提出了一种全新的多模态推理范式。

论文指出现有多模态大模型存在一个被忽视的根本性瓶颈：“指代鸿沟”（Reference Gap），即模型能够“看见”图片内容，但在推理过程中用自然语言构建思维链时，左边那个大的、靠近中央的红色物体这类模糊描述在密集场景中无法精确定位视觉对象，导致注意力漂移并得出错误结论。

此前学界的主流应对方向是提升感知分辨率，但论文认为看见和能说清楚在说哪个是两件不同的事。

该模型的核心创新在于将点坐标和边界框嵌入推理过程本身，使其成为思维链的基本单元。模型在推理时每提到一个视觉对象就同步输出其坐标。

例如“找到一只熊[452，23，804，411]，正在爬树，排除，再往左下看，找到另一只[50，447，647，771]，站在岩石边缘，符合条件。”坐标不再是事后标注的答案，而是推理过程中消除歧义的空间锚点。

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

架构层面，模型实现了7056倍的视觉压缩，一张756×756的图片经ViT处理后生成2916个图像块token，经3×3空间压缩合并为324个token，再通过压缩稀疏注意力（CSA）机制将KV缓存进一步压缩4倍，最终仅剩81个视觉KV条目。

作为参照，同等尺寸图片Claude Sonnet 4.6约需870个、Gemini-3-Flash约需1100个。

训练数据方面，团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源，生成超过4000万条训练样本，覆盖计数、空间推理、迷宫导航和路径追踪四类任务。

后训练采用先专家化、后统一策略，分别训练边界框和点坐标两个专家模型，经强化学习优化后通过在线策略蒸馏合并为统一模型。

实验结果在11个基准测试上与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流模型进行了对比。

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

计数任务上，Pixmo-Count精确匹配得分89.2%，超过Gemini-3-Flash的88.2%，大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。

最具代表性的差距出现在拓扑推理上：迷宫导航得分66.9%，GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6为48.9%，提升约17个百分点；路径追踪得分56.7%，GPT-5.4为46.5%。

不过论文同时指出了当前局限性：模型需要明确触发词才会启用视觉原语机制，极细粒度场景下坐标精度有限，跨场景泛化能力仍有提升空间。

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

对文章打分

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

1 (50%) 1 (50%)

[退出]

发布

显示更多评论

编辑精选

加载中...

Top 10

本周本月

1
507万人民币梭哈英特尔曾被全网群嘲败家子如今身家暴涨至1370万元
阅读 (1110) 评论 (0)
2
中国僧人玩CS2修行走红电脑价值4万用RTX4090
阅读 (1033) 评论 (7)
3
乘客买到高铁08车01C座上车却懵了
阅读 (979) 评论 (1)
4微信朋友圈悄悄更新了，你发现了吗？
5DeepSeek-V4报告亮了 V4发布延迟的秘密终于曝光
6女子照片美颜过度失踪4天才找到寻人启事找不到人
7DeepSeek-V4预览版正式上线提供1M超长上下文记忆全新体验
8IMDb的“逆天”发现：所有电影和电视剧都能免费看
9南方多省电价突然飙升广东逼近1元/度
10芬兰徒步网红阿里·莱尼奥离世享年49岁遗体于荒野中被发现

1
《纽约时报》称已确认比特币发明者中本聪的真实身份
阅读 (5878) 评论 (0)
2
苹果被曝下调 iPhone 18 规格以压缩成本
阅读 (2638) 评论 (0)
3
《呼啸山庄》亲热戏片段玛格特·罗比被指"尺度太大"
阅读 (2258) 评论 (0)
4苹果宣布CEO交接蒂姆·库克发布致全球苹果用户公开信
5GPT-6预计将于4月14日发布性能暴增40%
6第一批学AI的大学生，已经笑不出来了
7《永劫无间》女解说黑衣黑脸反讽舆论日本网友狂赞
8微软无预警封停 WireGuard 与 VeraCrypt 开发者账号
9陈冠希撞脸赵本山网友感慨颜值断崖式下滑
10韩国Naver宣布全面弃用阿里Qwen编码器

招聘

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

对文章打分

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

最新资讯

编辑精选

热门评论

相关文章

OpenAI推出ChatGPT高级账号安全方案与Yubico合作上线硬件安全密钥

OpenAI 5000亿美元数据中心项目“星际之门”如何改弦易辙

OpenAI回应其模型的“哥布林”怪癖 Codex曾被要求不得再提神话生物

Spotify推出“官方认证”艺术家标识以区分真人与AI内容

美国科技巨头今年AI相关支出突破7000亿美元大关

Top 10

507万人民币梭哈英特尔曾被全网群嘲败家子如今身家暴涨至1370万元

中国僧人玩CS2修行走红电脑价值4万用RTX4090

乘客买到高铁08车01C座上车却懵了

《纽约时报》称已确认比特币发明者中本聪的真实身份

苹果被曝下调 iPhone 18 规格以压缩成本

《呼啸山庄》亲热戏片段玛格特·罗比被指"尺度太大"

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

对文章打分

DeepSeek公开多模态模型技术报告公布：超越GPT-5.4

最新资讯

编辑精选

热门评论

相关文章

OpenAI推出ChatGPT高级账号安全方案 与Yubico合作上线硬件安全密钥

OpenAI 5000亿美元数据中心项目“星际之门”如何改弦易辙

OpenAI回应其模型的“哥布林”怪癖 Codex曾被要求不得再提神话生物

Spotify推出“官方认证”艺术家标识 以区分真人与AI内容

美国科技巨头今年AI相关支出突破7000亿美元大关

Top 10

507万人民币梭哈英特尔 曾被全网群嘲败家子 如今身家暴涨至1370万元

中国僧人玩CS2修行走红 电脑价值4万 用RTX4090

乘客买到高铁08车01C座 上车却懵了

《纽约时报》称已确认比特币发明者中本聪的真实身份

苹果被曝下调 iPhone 18 规格以压缩成本

《呼啸山庄》亲热戏片段 玛格特·罗比被指"尺度太大"

OpenAI推出ChatGPT高级账号安全方案与Yubico合作上线硬件安全密钥

Spotify推出“官方认证”艺术家标识以区分真人与AI内容

507万人民币梭哈英特尔曾被全网群嘲败家子如今身家暴涨至1370万元

中国僧人玩CS2修行走红电脑价值4万用RTX4090

乘客买到高铁08车01C座上车却懵了

《呼啸山庄》亲热戏片段玛格特·罗比被指"尺度太大"