重生之我在AI时代当老板：让一群Agent互相PUA

点进去看才发现，原来这都是Mavis自己组的团队。它们一直在内部交流、开会、分配任务……

如果按照正常的习惯，我一般会跟AI反复沟通很多次，精研细琢，最后让它生成一份完整的Plan。

但出乎意料的是，这次真就One Take，啥额外的指示都没有给，最后就拿到结果了。

其实就是团队分工，Mavis这有三个角色：Leader负责统筹全局，Worker负责具体执行，Verifier负责验收质量。

比如这个叫Mavis的，就是Leader，它是我的第一话事人，会指挥其他Agent干活。

从事实准确性、页面可读性、代码可运行性……这几个角度入手监督，并最终生成验收报告。

Mavis自己开盒自己的工作流，以这种step时间线的方式呈现，中间这条线还是脉冲的。

说实话，如果单Agent来做这件事，我大概要说十几次「继续」，还得在过程中反复纠错。

你是一个高级前端开发。今天早上你交付了一个index-v2.html，现在被老板骂得狗血淋头。

原话：这个什么破页面？做完你自己照着截个图看看，好意思说是科技公司产品专题页？配色暗沉得像上世纪的财务软件，动画只有一个脉冲点在那里……

毕竟听到多Agent工作流，第一反应肯定是：这得多贵？Token无限流咱可遭不住啊。

一份订阅，CLI、API、Agent全打通，M2.7、音乐、视频、语音所有模型都包含在内。

在微信/飞书里给AI发消息，要么30秒丢一个浅答案，要么你盯着对话框等10分钟没任何反馈。

这其实是个很深层的话题。对于超长任务的训练本身需要投入大量的金钱、时间成本和算法优化，大家没那么多资源向这块倾斜。

它不知道一个任务什么时候算「做完」，所以一直怕做错，怕给Token干崩了，干一半就停下问。

底层注意力的问题，随着上下文越来越长，Agent会从一个聪明助手变成了一个容易走神的人。

思路很直接：一个主Agent牵头，Leader、Worker、Verifier三类角色分工合作。

Worker停止的条件是Verifier启动的原因，Verifier停止的条件是尽可能发现Worker的问题，而发现的问题又成为Worker重新启动的原因。

什么时候该验证、什么时候该重试、什么时候该停止……都是引擎层面的硬性约束，不靠模型自由发挥。

用户可以对Agent进行prompt、spawn、abort、kill这些操作，Agent自己也有能力对另一个Agent做同样的事情。

Leader统筹全局目标，Worker只管执行子任务，停止条件由Team Engine控制，不再是模型自己模糊地判断「够了吗」。

每个Worker上下文隔离，查资料的不会被写代码的信息污染。Verifier用独立视角审查，不是自己检查自己。

顺便和你交代一下，已经在执行的任务中完成了2/5，剩下的有2个在核查，还有1个在跑。

以前我们总在琢磨怎么把一个Agent「养」成超人。希望它更聪明、更全能，什么都能干。

但有时候我也会想，Agent的能力或许天生就是有限的，AI从来没有电影里那么全知全能。

而且把目光放回眼前，比起一个遥不可及的AGI，我们的确更迫切地需要适配于实际应用场景的Harness。

在他们的设想里，后续Agent产品会让人类更多通过管理面板去配置Agent角色、能力和边界，分配任务。

在算力不够用的当下，每个Token都有实实在在的价格标签，token消耗和效果是个无法规避的trade off。

但问题是，研究Agent收来几十个网页，交接给写作Agent的时候，信息需要被重新组织——

Team Engine就是这个作用：判断什么时候需要Agent Team、什么时候单Agent就够了。

其中有一个反直觉发现：在特定模型和同质debate设置下，多Agent的token消耗可能达到单Agent自我修正的2.1到3.4倍。

MiniMax说会开源这个Agent Team，预计会和MiniMax M3一起放出来。

量子位 QbitAI