重生之我在AI时代当老板:让一群Agent互相PUA

点进去看才发现,原来这都是Mavis自己组的团队。它们一直在内部交流、开会、分配任务……

如果按照正常的习惯,我一般会跟AI反复沟通很多次,精研细琢,最后让它生成一份完整的Plan。

但出乎意料的是,这次真就One Take,啥额外的指示都没有给,最后就拿到结果了。

其实就是团队分工,Mavis这有三个角色:Leader负责统筹全局,Worker负责具体执行,Verifier负责验收质量。

比如这个叫Mavis的,就是Leader,它是我的第一话事人,会指挥其他Agent干活。

从事实准确性、页面可读性、代码可运行性……这几个角度入手监督,并最终生成验收报告。

Mavis自己开盒自己的工作流,以这种step时间线的方式呈现,中间这条线还是脉冲的。

说实话,如果单Agent来做这件事,我大概要说十几次「继续」,还得在过程中反复纠错。

你是一个高级前端开发。今天早上你交付了一个index-v2.html,现在被老板骂得狗血淋头。

原话:这个什么破页面?做完你自己照着截个图看看,好意思说是科技公司产品专题页?配色暗沉得像上世纪的财务软件,动画只有一个脉冲点在那里……

毕竟听到多Agent工作流,第一反应肯定是:这得多贵?Token无限流咱可遭不住啊。

一份订阅,CLI、API、Agent全打通,M2.7、音乐、视频、语音所有模型都包含在内。

在微信/飞书里给AI发消息,要么30秒丢一个浅答案,要么你盯着对话框等10分钟没任何反馈。

这其实是个很深层的话题。对于超长任务的训练本身需要投入大量的金钱、时间成本和算法优化,大家没那么多资源向这块倾斜。

它不知道一个任务什么时候算「做完」,所以一直怕做错,怕给Token干崩了,干一半就停下问。

底层注意力的问题,随着上下文越来越长,Agent会从一个聪明助手变成了一个容易走神的人。

思路很直接:一个主Agent牵头,Leader、Worker、Verifier三类角色分工合作。

Worker停止的条件是Verifier启动的原因,Verifier停止的条件是尽可能发现Worker的问题,而发现的问题又成为Worker重新启动的原因。

什么时候该验证、什么时候该重试、什么时候该停止……都是引擎层面的硬性约束,不靠模型自由发挥。

用户可以对Agent进行prompt、spawn、abort、kill这些操作,Agent自己也有能力对另一个Agent做同样的事情。

Leader统筹全局目标,Worker只管执行子任务,停止条件由Team Engine控制,不再是模型自己模糊地判断「够了吗」。

每个Worker上下文隔离,查资料的不会被写代码的信息污染。Verifier用独立视角审查,不是自己检查自己。

顺便和你交代一下,已经在执行的任务中完成了2/5,剩下的有2个在核查,还有1个在跑。

以前我们总在琢磨怎么把一个Agent「养」成超人。希望它更聪明、更全能,什么都能干。

但有时候我也会想,Agent的能力或许天生就是有限的,AI从来没有电影里那么全知全能。

而且把目光放回眼前,比起一个遥不可及的AGI,我们的确更迫切地需要适配于实际应用场景的Harness。

在他们的设想里,后续Agent产品会让人类更多通过管理面板去配置Agent角色、能力和边界,分配任务。

在算力不够用的当下,每个Token都有实实在在的价格标签,token消耗和效果是个无法规避的trade off。

但问题是,研究Agent收来几十个网页,交接给写作Agent的时候,信息需要被重新组织——

Team Engine就是这个作用:判断什么时候需要Agent Team、什么时候单Agent就够了。

其中有一个反直觉发现:在特定模型和同质debate设置下,多Agent的token消耗可能达到单Agent自我修正的2.1到3.4倍。

MiniMax说会开源这个Agent Team,预计会和MiniMax M3一起放出来。

量子位 QbitAI