DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)

大家对DeepSeek的多模态属实期待了太久太久,如今惊喜紧随V4的发布而来,没等DeepSeek官方释出更多信息,民间已经从各个方向开始挖掘“识图”背后的种种蛛丝马迹。

比如,DeepSeek识图模式背后,看上去是一个独立于V4 flash/pro的新模型。

又比如,DeepSeek在V4技术报告里的“未来展望”,实际上可能都做的差不多了……

先上一道空间推理题:要想使右侧图形在不旋转的情况下拼合成左侧的正方体造型,还需在问号处添加的图形是哪个?

可以很明显地看出,其中幻觉不少,比如第5点托盘里的钥匙不知道是怎么来的,第7点苹果和香蕉之间也没有白色的空盘子。

把DeepSeek V4技术报告的摘要丢进DeepSeek识图模式,不开深度思考的情况下,它依然是闪电出结果,还贴心地给开源链接给超链了。

而更受欢迎的一种新玩法是,把网页图片发给DeepSeek,它直接能给你复原出HTML来(非思考模式就能实现)。

根据识图模式自己的回答,它的知识和DeepSeek V4 flash/pro一样,截止到2025年5月。

而从它的世界知识中,有博主发现了端倪:视觉模型知道Ta,而V4 flash/pro则并不了解Ta。

验证了一下,flash不联网的时候确实没有关于这位主包的知识。但识图模式则找到了2026年4月的信息。

目前,DeepSeek的识图模式还在灰度测试当中,陈小康透露灰度范围正在逐步扩大。

当DeepSeek在V4的技术报告中写下,“我们也正在努力将多模态能力整合到我们的模型中”,大家都以为这还只是个优先级没那么高的目标,不少朋友都在惋惜的同时,也认同“资源有限的情况下优先做好纯文本是对的”。

那么论文中提到的“在MoE和稀疏注意力架构之外,将积极探索模型稀疏性的其他新维度”,是不是也……

参考链接:[1] https://x.com/teortaxesTex/status/2049422327914332307?s=20[2] https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1