OpenClaw低调更新重磅版本,龙虾长手长脚了

依旧是那个龙虾之父Peter,这次带来了全新的Computer Use工具Peekaboo v3版本——

Peekaboo v3不仅能在MAC电脑上实现像素级截图,还能读取电脑上每个UI的位置。

甚至嘛,它几乎还能完成人类能做的任何操作,比如点击、输入文字、按快捷键这些也能做了……

下面这位网友,直接就是让Peekaboo v3做了一个简单的「Computer Use」烟雾测试。

让Hermes操作计算器、Peekaboo读屏幕结果、Python独立验证答案是否正确,一气呵成成功通过。

早在OpenClaw大火之前,去年11月份左右,Peter就动了给Agent装手脚的心思。

当时陆陆续续憋了v3.0.0-beta1到beta4好几个测试版,前后差不多磨了快半年的时间。

直到最近这两天,(不知道是不是感觉再不更点啥龙虾就被大家忘记了,我瞎说的) 直接开启「狂更模式」

一句话说就是:给你的Mac装一双带有眼睛和手的工具包,能让AI agent看到屏幕,也能操作鼠标键盘。(省流版)

Agent确实能帮我们打开网页、跑个流程,可一旦涉及到屏幕上更细的操作,比如戳那个按钮、拖那个文件、把这段字敲到那个输入框里……

看不下去的Peter清楚地知道,AI要想在Mac上动手,必须有一个能看屏幕、能操作鼠标键盘的工具,这恰好就是Peekaboo。

让Agent真的能看,也真的能动,从指手画脚的甲方,变成真的能下场干活的乙方。(doge)

Peekaboo v3不仅能实现像窗口、全屏、菜单栏的像素级截图、还能读取macOS上每个UI元素的位置、类型、label等,真·慧眼识珠屏幕了。

像点击、输入文字、按快捷键、滚动、拖拽、切窗口、切桌面(Space)、戳Dock、点系统弹窗……

但是Agent光能看和动还不够,Peekaboo v3真正让人觉得开大的还在「下面」——

在能力调用上,其支持自然语言Agent模式,所以在提示词指令上我们可以直接用大白话甩任务就行。

第二个蛮实用也非常聪明的设计,就是能把所有能力打包成MCP,喂给你常用的AI工具。

例如我们在Cursor里写代码,跑起来UI出bug了,以前得自己截屏发给Cursor让它看。

但现在Cursor自己就能截图、自己看、自己改、自己再跑一遍验证,真·全程不用插手。

写代码的、用AI编程的、纯用Mac的、做App的,四拨人各取所需,丰俭由人啊丰俭由人~

第一种,如果屏幕前的友友想写脚本自动化干活,直接用Homebrew安装方法就完事儿了~

第二种,如果屏幕前的友友日常在用Claude Code、Cursor、Codex这类AI编程工具。

去GitHub Releases下载Mac桌面版app就行,有可视化反馈,权限管理也是图形界面,很友好。

第四种,如果你是Swift开发者,想把它当库嵌到自己App里,直接Swift Package引一下就好了~

对了,对于想在OpenClaw实用其能力的友友来说,直接「Skill」一下子就ok。

相当于给虾装了个操作Mac的插件,装好之后录屏、辅助功能这些Mac权限走OpenClaw一次性过,不用再单独给Peekaboo开一遍~

这两年像Anthropic的Computer Use、OpenAI自家的Operator、各种browser-use工具全在卷「AI操作电脑」这条路子。

他必须快啊,才能避免被后来者追上,也算是给自己在OpenAI的Agent工作提供个最强本地验证平台吧?(我猜哈

[3]https://x.com/search?q=Peekaboo&src=typed_query

量子位 QbitAI