10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

引用量超过10万次，清华姚班校友，ConvNeXt、ImageBind、《无归一化的Transformer》……这些论文的作者——

普林斯顿大学助理教授刘壮，在学术圈是一个颇为特殊的存在——他的每一篇论文几乎都在质疑某个“理所当然”的假设。

架构真的重要吗？数据集真的足够多样吗？归一化层是必需的吗？大语言模型有世界模型吗？AI智能体能替代博士生吗？

在《信息瓶颈》的最新播客中，刘壮和主持人Ravid Shwartz-Ziv、Allen Roush展开了长达一个多小时的对谈，解答了这些问题。

只要把残差连接、自注意力、归一化层、线性层这四大基础做对，不管用ConvNet还是Transformer，最终都会落在同一条性能曲线上。

结论是：低层次任务还行，但提出有意思的问题、设计实验、保持方向感——这些还做不到。

以下是量子位梳理的刘壮最新访谈，为便于理解，有部分删减和润色，并在必要的地方添加了编者注，各位enjoy~

编者注：2020年前后，计算机视觉领域掀起了一场“Transformer热”。 2020年Google Brain提出的视觉Transformer（ViT）横空出世，整个视觉社区迅速向它迁移，传统的卷积神经网络（ConvNet）被普遍认为已经落伍。 2022年，刘壮团队发表ConvNeXt，把经典的 ResNet 架构一步步“现代化”，最终让它在性能上追平了当时最强的视觉Transformer——结论令人意外：两者的差距并非来自架构本身，而是来自训练方案的不同。

Ravid：今天我们会聊聊你的一些论文。总体上，我们要探讨当今AI中真正重要的组成部分是什么。你的研究成果很多，我想我们可以从“哪些组件最关键”开始。

几年前，你发表了一篇关于“面向2020年代的卷积神经网络”的论文。你能先介绍一下这篇论文，然后我们再来拆解当前AI系统的各个组成部分吗？

这篇论文我们是在2021年写的，那时候Transformer刚刚通过视觉Transformer的引入进入了计算机视觉领域，整个视觉社区都在从传统的卷积网络切换到视觉Transformer，性能也越来越好。

是否有可能通过系统性地控制所有设计细节，来验证ConvNet能否被现代化、达到当时视觉Transformer的水平？

我们想搞清楚，Transformer和ConvNet之间看似存在的性能差距，究竟是源于架构本质的不同——比如用自注意力还是卷积——还是源于一些看似微小的设计细节。

经过大量对ConvNet各组件的研究，我们最终让模型在多种任务上达到了当时最强视觉 Transformer 的水平。

这说明，无论选择ConvNet还是视觉Transformer，只要把所有细节都做对，就能在视觉任务上达到同等的前沿性能。

我的意思是，只要你把所有细节都做对，只要你对设计空间探索得足够充分，就会收敛到一个类似“帕累托前沿”的点——在精度和效率之间取得最佳平衡。

我觉得过去这么多年，除了几年前已经成熟的那些架构之外，真正被广泛采用的架构创新其实并不多。

最近，一些开源模型公司，比如Kimi、DeepSeek，还在不断折腾架构，比如怎么改残差连接、怎么连接不同层，我非常尊重这类工作。

事实上，学术界现在架构研究没那么活跃，部分原因是我们负担不起用足够说服力的规模来验证这些效果所需的计算资源。

但我自己还是会用学校的资源去尝试。现在有了Claude Code的帮助，我可以自己动手写代码去探索，这非常有趣。

从实用角度来看，我认为我们用什么数据训练模型，比选择什么架构更重要——前提是输入输出接口不变。

只要你把几件事做对，比如用残差连接、用自注意力或其他合理的机制、在合适的位置放激活函数和前馈层，你就能非常接近甚至达到性能与效率的前沿曲线。

从实际应用的角度，我认为更重要的是：这个模型用什么数据训练的？它怎么处理上下文和记忆？

Allen：根据我的理解，你们是把ResNet逐步往类似Swin Transformer的设计方向现代化，最终得到一个能与 Transformer强力竞争的ConvNet。

在那篇论文里，哪一个消融实验最让你对“Transformer的优势究竟从何而来”改变了看法？

编者注：消融实验（ablation study）是深度学习研究中的常用方法，指的是逐一去掉或改变模型中的某个组件，观察性能如何变化，以此判断每个组件的贡献大小。

你看那张图，没有任何单一改动能大幅拉升性能。有些改动比其他的更有效，但没有哪一个能改变一切。

△ConvNeXt论文的Figure 2，展示了ResNet现代化的完整过程和每一步对应的性能变化

也许激活函数的使用，以及减少归一化层的数量，是让我比较感兴趣、也有明显性能提升的一个点。

这些看似微小的组件，当我们把它们组合起来的时候，产生的性能差距，是那种通常只有把卷积换成自注意力这种大改动才能带来的效果。

所以我认为，这篇论文最大的启示是：这些小细节组合在一起，比那些看起来很核心的网络组件影响更大。

Ravid：对我来说，感觉我们是在大量尝试各种东西，有些起效了，模型就变好了。然后回过头来，我们才开始真正理解哪些组件是关键的。

你觉得我们是需要先有突破，再回头理解细节？还是说我们只需要反复试错，不需要明确的方向？

刘壮：Transformer对整个社区来说绝对是一个福音，把Transformer引入计算机视觉这件事，意义重大。

Transformer的使用对后来的发展非常关键，比如LLaVA，这类多模态框架——用视觉编码器把图像编码成token，然后和文本 token 一起输入到下游的大语言模型里。

编者注：LLaVA（Large Language and Vision Assistant）是2023年提出的一种多模态大语言模型框架，将图像编码器（通常是CLIP）和大语言模型（如LLaMA）连接起来，让模型能同时理解图像和文字。这一框架成为后来GPT-4V、Gemini等多模态模型的基础思路。

回到我们的研究，这种对细节的深入分析，我觉得更像是一堂课。它改变了我自己的认知，也改变了很多人的认知，这让我更引以为傲。

当然人们还是可以继续用ConvNet，它也有自己的优势，尤其是在纯视觉任务里：部署方便，比较容易理解，也因为操作是局部的，所以对更高分辨率和长序列有更好的支持。

Ravid：好，架构不那么重要——你还有一篇更近的论文，证明了归一化层也不那么重要，对吗？

那你觉得真正重要的核心组件是什么？而且为什么好的AI模型只是在最近五年才出现，而不是十年前？

编者注：这里指的是2025年刘壮与Yann LeCun等人合作发表的论文《Transformers Without Normalization》。归一化层（Normalization Layer）是现代神经网络中几乎无处不在的组件，最常见的是LayerNorm，它的作用是稳定训练过程、加速收敛。这篇论文用一种称为“动态双曲正切（dynamic tanh）”的激活函数替换了LayerNorm，在多种设置下仍能与标准Transformer持平甚至更好。

所以在那之后很长一段时间里，我们基本还是沿用类似的基本框架，只有一些小改动，比如激活层、专家混合（不是每次都用）、局部注意力、滑动窗口注意力等，但核心框架和九年前论文刚出来时基本一样。

这就像GPT-1到GPT-3的经典故事——基本上是同一个模型，用更多计算量、更多数据、更多样化的数据、更大规模的互联网数据来训练，就得到了我们现在看到的这些强大能力。

编者注：Epoch指的是模型把整个训练数据集完整过一遍的次数。 “不超过一个 epoch”意味着模型甚至没有把所有数据看第二遍——这说明数据的总量和多样性，比反复训练同一批数据更关键。

Allen：我注意到你的研究有一个贯穿始终的论点，就是这个领域常常把架构和训练方案混为一谈。

如果你要为今天的架构论文设定规则，在有人声称某种架构选择有价值之前，你会要求哪些控制条件？

首先，我会要求在一定规模上验证效果，不一定是前沿模型，但至少要在70亿、300亿参数这个量级。

规模对工业界来说很重要，只有在这个规模上，大家才真的会相信你的改动有效。当然，这并不总是可行的。

你不能只在一组超参数下证明新架构比旧架构好，尤其是当这组超参数是专门为这个新模型调过的。

每个模型都应该在各自最优的超参数下进行比较，最重要的超参数是学习率、衰减、优化器类型。

让我很烦的一件事是，有人甚至不去调基线模型的学习率，只调自己方法的，然后就声称有效——这是导致很多”结果无法泛化”的最常见的问题所在。

第三，我会要求这个想法或方法在不止一个数据集上得到验证，最好是在一个合理规模的数据集上。

ImageNet今天仍然适用，但理想情况下，还应该在一些小规模的大语言模型上验证，比如在FineWeb上训练。

我非常赞成在多样的数据集上验证想法，至少要在领域内常用的数据集上。这就是我会提的几个标准。

编者注：FineWeb是Hugging Face于2024年发布的大规模网页文本数据集，经过严格清洗，常被用作语言模型预训练的基准数据集。

Ravid：如果一个想法是真正好的，它是否应该在不同领域、不同数据集、不同场景下都有效？

在第二种情况下，我希望研究者能清楚地说明，这个方法在什么特定场景下更好，仍然应该在不止一个数据集上验证。

如果你声称你的模型在长上下文音频上效果更好，你仍然可以在这个方向上用多个数据集测试。

同时要解释清楚，为什么这个方法在这个特定领域好，为什么在其他领域不好，然后从这里出发，去解决那些弱点。

编者注：这部分讨论应指刘壮与何恺明合作发表的论文《A Decade’s Battle on Dataset Bias: Are We There Yet?》，研究动机是：我们一直以为主流视觉数据集越来越多样、越来越全面，但真的是这样吗？

Ravid：好，那我们来聊聊数据。你说数据是最重要的。具体是数据的哪些方面？我们先从你那篇关于“数据集偏差的几十年之争”的论文说起。你们的研究动机是什么？

多年来，人们一直在从越来越多样化的来源构建越来越大的数据集——从最初的MNIST，到CIFAR，再到ImageNet，再到互联网规模的 DataComp、Google 的 Conceptual Captions 等。

这些数据集看起来越来越多样，规模从几万张到十亿级别。大家很自然地会认为：我们已经收集了互联网上能拿到的所有东西，数据集应该足够了吧？

编者注：MNIST是手写数字识别数据集（约7万张图片），CIFAR是小图像分类数据集（约6万张），ImageNet是目前最权威的图像识别基准（约120万张），DataComp和Conceptual Captions则是十亿级别的互联网图文对数据集。这条发展脉络代表了过去二十年视觉数据集规模的指数级扩张。

我们是怎么衡量的呢？我们设计了一个非常“蠢”的实验——从深度学习训练的角度来看完全没有实际意义。

结果发现，在这三个看似非常多样化的数据集上，模型仍然能以超过80%的准确率回答这个问题。

这意味着，在模型看来，这些数据集仍然非常不同，有非常清晰的线索让模型判断图片来自哪里。

这促使我们反思：我们真的成功构建了一个大规模、全面覆盖的数据集了吗？什么样的数据才是终极目标？

大语言模型成功的一个重要原因，是它不是领域专用的模型，它能做所有事。要做到这一点，一个普遍的假设是模型在训练时需要见过所有东西。

Ravid：那你觉得答案是什么？好的数据需要具备哪些属性——多样性、不确定性、避免冗余？

模型学到的不同能力之间可能会相互竞争，比如如果你想让模型在编程上更好，可能就需要牺牲一点它在心理咨询方面的能力，这只是举个例子。

如何配比训练数据，让每个我们希望模型擅长的领域都得到足够的表示？这是一个重要的设计问题。

在我们最近一个文字转图像的项目里，我们发现了一个出人意料的简单方案——不是最优的，但足够简单——就是把你关心的所有领域大致等权重地混合。

你不会希望“如何理发”和“如何编程”得到同等权重，因为它们对大多数人的重要程度差别很大，你当然希望模型在编程上见过更多数据。

但如果你把“理发”扩展为“日常生活技能”这个层面，把它和另一个同等重要程度的领域放在一起，然后从每个领域收集高质量数据并等权重混合，这种做法在很多其他项目里效果都不错。

如果你只是想让模型在所有事情上都还不错，而不是在某个特定困难任务上特别拔尖，那我认为数据覆盖是王道。

Ilya Sutskever有句名言，大意是只要你有一个大模型，收集了足够多的数据，模型就一定能训好。

当面对用户时，想让模型在某个任务上表现好，就在训练集里放足够多这方面的数据，这是最合理的解决方案。

编者注：这部分涉及两篇论文。一是2023年Meta发表的 ImageBind，由刘壮参与，将图像、文本、音频、深度、热成像、IMU运动传感器六种模态对齐到同一个嵌入空间。二是同年发表的《Eyes Wide Shut》，揭示了 CLIP视觉编码器的系统性盲点。 CLIP是 OpenAI于2021年提出的图文对比学习模型，目前是绝大多数多模态大语言模型的视觉编码器基础。

你觉得这是在说明视觉模态本身的特殊地位，还是只是说明了视觉数据在大规模数据中碰巧有这样的角色？

刘壮：我觉得这篇论文一个很重要的信息是：不同模态确实可以被嵌入在一起，这是现在多模态基础模型运作方式的基础。

另一个洞见是：视觉是连接所有模态的天然桥梁，因为视觉数据就像是我们人类的默认输入。

它经常和很多其他模态同时出现，比如音频——看YouTube视频时，音频和视觉数据自然地融合在一起，你可以用这个信号来对齐两者。

还有运动数据，也经常和图像或视觉数据同时出现。这揭示了视觉在我们日常感知中的根本性地位。

我们有视觉好一段时间了，但没有看到AI在所有领域、所有公司里大规模普及。直到语言模型变强，人们才突然开始用 AI。

我的理解是：视觉本质上是吞吐量非常高的数据——它流入我们感知系统的带宽远高于语言，而我们还没有足够的算力来真正处理这些数据。

想想看，就一帧图像，存储它所需的空间就远大于用语言描述这张图像——描述可能只需要几个字节，图像却需要几千字节，相差上千倍。

另外，我们也没有好的机制让模型在图像上做精细定位——在当前的多模态语言模型里，所有信息都已经编码在视觉 token 里了，模型没有办法回头去重新聚焦图像的某个区域。

而语言处于一个低维得多的空间，每个词都有明确的含义——这有点像人类从自然界里做无监督学习。

我们在进化过程中筛选出了这些重要概念，把它们凝缩成词，每个词只需要几个字节的存储空间，而用图像来表示”杯子”这个概念，可能需要成千上万张图片。

Allen：好，然后是那篇我很喜欢标题的论文——《Eyes Wide Shut》，斯坦利·库布里克的最后一部电影。

你在论文里提出，很多多模态大语言模型的失败，都可以追溯到CLIP这样的视觉编码器以及CLIP的盲点。

能概括一下这篇论文吗？在你看来，这个瓶颈究竟有多少是视觉问题，又有多少是语言模型或对齐问题？

正如我之前说的，这些模型只会学训练时教它们学的东西。如果训练时没有让模型面对你希望它擅长的任务类型，测试时它就不会好。

具体来说，CLIP训练的目标是让图像表示和它的文字描述对齐。而图像描述自然地更关注图像的内容——里面有什么物体，它们在做什么——而不太会明确说明这些物体的位置。

如果图中有一个人和一条狗，描述大概只会说“人和狗玩耍”，而不会说人在左边还是右边——这是我们人类描述图像时很自然的方式。

对人来说这没问题，我们不太在乎谁在左边。但如果你希望模型能够回答这类位置关系的问题，就需要在训练里用到这些。而这正是CLIP训练所忽略的。

结果我们得到一个被用作多模态语言模型视觉编码器的CLIP模型，它根本没被训练去处理这些任务。

Allen：在《Eyes Wide Shut》那篇论文里，你建议把视觉特征和自监督特征混合来改善视觉定位。

如果同时优化语言对齐和细粒度视觉辨别，你认为多模态语言模型最理想的视觉编码器应该是什么样的？

编者注：自监督学习（self-supervised learning）是一种不需要人工标注的训练方式，模型通过预测图像的一部分、或者预测被遮挡的区域来学习视觉表示。典型的方法有MAE（Masked Autoencoders）、DINO等，它们往往能学到比 CLIP 更细粒度的视觉特征。

我还想加一个——现在很多人在讨论世界模型——我会在视觉部分加入时间维度，这也会非常有帮助。

编者注：“大语言模型有没有世界模型”是近年来 AI 领域最激烈的争论之一。 Yann LeCun长期主张：现有大语言模型没有真正的世界模型，他力推一种基于能量的层次化架构来显式构建世界模型。而另一些研究者（如Ilya Sutskever）则认为，足够大的语言模型在预测下一个token的过程中，已经隐式地学到了世界模型。刘壮在这里给出了他自己的第三种答案。

刘壮：对我来说，世界模型就是预测世界如何运作，根据你当前的状态来预测世界接下来会发生什么。

比如几周前Stephane Mallat来这里声称大语言模型有世界模型，而之前Yann LeCun来这里说我们需要显式地构建世界模型，目前的大语言模型并没有。

语言是我们所接收的所有感知信号的更高层次的抽象，大语言模型在这个层面上有着相当好的世界模型。

我经常和ChatGPT讨论历史。几天前我让它想象一个假设场景：中国历史上某个事件里，我让ChatGPT想象如果那个失败的势力赢得了战争，历史会怎么变？

它给出的回答非常合理——把所有小事件串联起来，一切都讲得通，只是一些小概率的决策偏移，然后一切随之改变，像真实历史一样，完全有可能就是真实历史。

当我们说“我们现在没有世界模型”，说的其实是视觉空间的世界模型——我们没法在像素空间里完整地恢复或模拟世界，这也是真的。

但如果你把每个像素、每个原始信号、每个物理信号，包括世界上每种物质的物理属性，都纳入考量，那我们确实还没有那个层次的精细化模型。

很多事情都在数字空间里运作，我最多需要模型能读取我的电脑屏幕，而屏幕内容可以被数字化或压缩，通常最多是一组图像，不是实时视频流，这相对容易。

我目前用Claude Code的瓶颈之一就是需要截屏，这个问题应该很快可以解决，因为这些模型可能很快就能以安全的方式访问我们的屏幕。

但对于体力劳动，比如建筑、驾驶、体力活动，我认为确实需要视觉模型，因为这类工作中的反馈是非常细粒度的。

还有一些物理性的工作，比如外科手术。我认为，真正需要视觉世界模型才能做好的工作，不会超过一半。

编者注：这部分话题涵盖了几个相互关联的议题：强化学习（RL）训练、Agent、持续学习，以及AI辅助科研的现状。刘壮还提到了另一篇自己的论文《Idiosyncrasies in Large Language Models》（大语言模型中的特异性），该论文发现，不同大语言模型生成的文本存在可被识别的“指纹”，即便经过改写或翻译仍然保留。

现在所有实验室都在建自己的环境，想在编程或某些特定任务上做得更好，就搭一个专用环境，让模型在这个环境里训练，给它反馈和奖励。

我希望未来能有一套像预训练一样成熟的方法来做持续训练。可以是强化学习，也可以是情境工程、提示工程、智能体协作，这些都还是开放的。

因为每个人在一生中会遇到不同的情境。你希望模型成为你的好助手，赋能你的生活和工作，你需要它记住大量上下文。

在这方面，人脑仍然远超模型——极大的记忆容量，快速学习，只需见一次就能记住一个事实，而且不会忘记。

你今天用Claude Code时，最让我担心的就是它是否还记得我之前做过的事，我相信很多人都有这个感受。

我觉得这个答案可能不只是强化学习，更像是系统工程——怎么组织一切，让模型能轻松访问所需信息。

说到底还是数据问题：怎么组织数据，怎么提供足够的数据，怎么整合来自不同来源、不同输入的数据。也许以后我们会戴智能眼镜，给这些模型提供视觉输入。

我们只是需要搭好脚手架——比如怎么让智能体在世界里行动、收集数据、组织记忆这些事情？还是说我们需要从根本上改变什么？

有一个令人遗憾的现实是：不是每个人都能在这些超大模型的基础层面上做研究，只有负担得起训练成本的人才能做实验。

所以现在我们看到大量的智能体工作——因为这几乎是很多人能对系统做出改进的唯一方式。

智能体很好，但我注意到，我构建的每一套智能体系统，每一个脚手架——比如我试图搭一个能让Claude Code长时间运行的框架——

通常过几周或几个月，我会找到一个更简单的解决方案，比如用提示或一些内置命令和技能来实现同样的效果，而不需要Python脚手架这类东西。

我们现在关心的每一个任务，在一定的性能水平上，都可以用更少的智能体、更少的脚手架来完成，而更多地依赖模型本身的能力。

Ravid：但我们为什么要在意呢？在算力和数据越来越多的世界里，为什么不就直接搭智能体解决所有问题？

所以我认为在记忆方面——记忆和上下文——这是目前最重要的问题，尤其是记忆。它们是一枚硬币的两面。

Claude Code前几天宣布支持100万token的上下文窗口，大家都很振奋，包括我，这很好。

如果一个智能体能记住所有事情，做完这个任务还不忘记上一个任务，那所有工作就可以交给这一个智能体完成。

Allen：你还有一篇我很感兴趣的论文——《大语言模型中的特异性》，发现模型特有的特征在改写、翻译、摘要之后仍然保留。

你觉得这些“指纹”到底在度量什么？是预训练数据、训练后的风格、解码行为，还是更底层的结构性因素？

刘壮：这篇论文做的是同样的分类任务——给定一段文本，让一个独立的神经网络判断它是由哪个语言模型生成的。

但现在我认为大家越来越接受一件事：语言模型生成的文本里确实存在线索，即使不是AI研究者的普通人也能判断出大概是哪个模型写的。

现在这不再那么令人惊讶了，因为每家公司都有自己的策略来最大化用户参与度，导致模型输出了不同的风格。

到底是什么造成了这些差异？我认为每家提供商对风格的选择非常关键——系统提示，我们看不到他们的系统提示，他们有没有让模型输出详细或简洁，有没有用列表？

后训练策略也有很大影响，不同公司的后训练方式不同，他们招募标注员的方式、评分标准都会有系统性差异，这些都会鼓励不同的行为模式。

预训练也有影响，每家公司的预训练数据来源不同，有些侧重编程和数学推理，有些优化通用知识覆盖。

编者注：中训练（mid-training）是近年来工业界出现的一个新阶段，介于预训练和后训练之间，主要目的是在更高质量的数据上继续训练、或者扩展模型的上下文长度，而不引入人类偏好标注。后训练（post-training）则泛指在预训练完成后，通过人类反馈强化学习（RLHF）、监督微调（SFT）等方式，让模型更符合人类偏好、更安全、更有用。

我没有这些公司的内部信息，但我觉得这可能是一种妥协——我们没有足够的算力始终在超长上下文上训练、始终在最高质量数据上训练。

但我希望未来还有另一个阶段——针对每个用户定制的持续训练，定制偏好、记忆需求、使用风格，那会非常好。

我们需要的是让模型记住每个人的个性习惯——我会如何回应某些事件？我有哪些基本原则？

即使我把自己生活里所有的经历和偏好都写在一个Markdown文件里，它还是可能遗漏。

比如我现在有一个全局的Claude MD文件，告诉模型遇到某些情况时要注意什么，但它们经常还是会忽略。

所以我一直认为，持续预训练更多是关于拥有稳定的记忆、不在小事上犯错，而不是发展更多能力。

我好像在LinkedIn或Twitter上看到有人说，有了新的编程智能体，他不再需要学生了，直接告诉智能体想做什么，让它跑实验、出结果、写报告就行了。

刘壮：从教育角度来说，我认为我们需要更多深度投入其中的学生，需要能够使用AI并进一步推动AI发展的学生。这一点不应该有什么争议。

只要有合理的资源和时间，我现在可以用Claude Code自己做一个小项目。但这不是全自动的。

提出的问题很模糊，对我来说没什么意思；做的实验不够全面，只是勉强能支撑结论；我需要反复提示才能把它引到正确的方向。

它忘记事情的频率也超出我的预期。我让它一直用某个GPU分区，它可能遵守几个小时，任务完成后就忘了。

我希望它永不停歇，根据当前实验结果不断探索、设计下一个实验测试新假设，但它就是不听，有时候会陷入局部最优。

而且如果他们有正确的心态，不把所有事情都委托给AI，他们仍然会在这个过程中成长，成为好的研究者。

Ravid：你听说过吗，Andrej Karpathy 发布了AutoResearch，就是给一个代码智能体去优化NanoGPT，让它连夜跑多个实验，结果验证损失确实在下降。

编者注：Andrej Karpathy是前Tesla AI总监、OpenAI联合创始人，现独立从事AI教育。 NanoGPT是他开源的一个极简GPT实现，常被用于教学和研究实验。 AutoResearch是他探索的一个概念：让AI智能体自主设计实验、运行训练、分析结果，全程无需人工干预。

我觉得最终我们需要搞清楚，哪些用法真正有效，哪些还没到位，哪些只是因为看起来时髦、大家都用，所以我们在浪费时间去提示它。

未来会不会到，我不知道，也许会。但至少对某些场景，对某些用途，用来开发产品已经相当不错、接近可用了。

参考链接：https://www.the-information-bottleneck.com/what-actually-matters-in-ai-with-zhuang-liu-princeton/