AI操控电脑实测:Claude Computer Use vs OpenAI Operator,谁更能干活

去年Anthropic发布Claude Computer Use的时候,我第一反应是"这不就是远程桌面吗"。让AI看屏幕截图,然后模拟鼠标点击和键盘输入。听起来很酷,但真的能用吗?

后来OpenAI出了Operator,Google出了Project Mariner,开源社区也搞出了Browser Use和Playwright MCP。AI操控电脑这件事突然变成了各家都在卷的方向。

我花了一周时间认真测了三个方案,用的都是真实任务——不是演示demo里那种"帮我搜个天气"。结果怎么说呢,有些地方让我挺惊讶的,有些地方让我想砸键盘。

测试方案说明

我测了三个方案:

Claude Computer Use(API版):Anthropic的方案,AI通过截屏+模拟操作来控制电脑。需要自己部署一个sandbox环境,让Claude在里面操作。

OpenAI Operator:OpenAI的方案,目前只对Pro用户开放。它跑在OpenAI自己的浏览器环境里,你给它任务它自己去网站上操作。

Browser Use(开源):一个Python库,底层用Playwright控制浏览器。你可以接任何模型——GPT-4o、Claude、Gemini都行。我自己接的Claude Sonnet 4。

测试任务我选了5个,从简单到难:

任务1:在淘宝搜索"机械键盘",按价格排序,找到最便宜的。

任务2:登录我的GitHub账号,创建一个新仓库,添加README。

任务3:在Google Sheets里填一个表格,数据从一个CSV文件里读。

任务4:在Notion里创建一个新页面,写一篇500字的产品更新日志。

任务5:在Jira里创建3个issue,包含标题、描述、优先级、标签。

任务1:淘宝搜索

这个最简单,三家都能完成。但体验差距很大。

Operator最快。它打开淘宝,输入搜索词,点排序,大概30秒就搞定了。但它没有登录我的淘宝账号,所以看到的是默认排序结果,不包含个性化推荐。

Claude Computer Use也能完成,但慢很多。它大概花了2分钟。中间有个小插曲:它第一次点排序的时候点到了"销量"而不是"价格",然后自己发现错了,重新点了一次。这种自我纠错能力挺有意思。

Browser Use的表现取决于你接的模型。我接Claude Sonnet 4的时候,大概1分半完成。接GPT-4o的时候反而更快,大概1分钟。GPT-4o在网页理解上确实强一些。

三个方案都能完成这个任务,没有悬念。

任务2:GitHub操作

这个任务开始有意思了,因为它需要登录。

Operator直接放弃了。它的说明里写了"不会帮你登录需要密码的网站"。安全考虑可以理解,但这意味着大量需要登录的操作它都做不了。

Claude Computer Use需要你提前在sandbox里登录好GitHub。我用cookie注入的方式搞定了登录。然后让它创建仓库,它完成得不错——点了"New"按钮,填了仓库名,勾了README选项,点了创建。全程大概1分钟。

Browser Use也支持登录状态。我用Playwright的storage state功能保存了登录状态,然后让AI操作。它也能完成,但有个问题:它在填仓库名的时候用了中文(因为我的prompt是中文写的),GitHub报了错说仓库名不能有中文字符。它又试了一次才改成英文名。

这暴露了一个问题:AI操控电脑的时候,它不总是理解网站的输入限制。人类填表单的时候会先看提示,AI经常是直接填,报错了再改。

任务3:Google Sheets

这个任务三家的表现都不好。

Operator因为不能登录,直接做不了。

Claude Computer Use试了。它打开了Google Sheets,看到了一个空白表格。然后它开始一个一个单元格地输入数据。一个10行5列的表格,它花了将近8分钟。中间还错位了两次——数据填到了错误的列里。

Browser Use的表现稍好一点,因为我可以通过Playwright直接操作DOM,不用一个一个单元格地点。但问题是Google Sheets的DOM结构很复杂,AI经常找不到正确的元素。

说实话,如果你的需求是在表格里填数据,用API比让AI点鼠标靠谱一百倍。Google Sheets有API,几行代码就能搞定。让AI操控电脑去填表格,就像让人用挖掘机绣花——能做,但何必呢。

任务4:Notion写文章

这个任务Claude Computer Use的表现让我意外。

我给了它一个任务:"在Notion里创建一个新页面,标题叫'Q2产品更新',内容写500字左右的产品更新日志,包含3个新功能的描述。"

它打开了Notion(sandbox里已经登录了),点了"New page",然后开始打字。重点来了——它不是机械地打字,而是真的在"写"。它会停下来想一下,然后打出一段连贯的内容。中间还会用Notion的快捷键做格式化,比如加粗、分段、加标题。

整个过程大概3分钟。最终输出的文章质量还行,虽然内容是编的(它不知道真实的产品更新是什么),但格式和结构都没问题。

Browser Use也能完成,但体验差一些。它在Notion的富文本编辑器里操作的时候经常出问题——比如想加粗一段文字,但拖选的时候选多了或者选少了。

Operator在这个任务上也能用(Notion不需要登录就能创建公开页面),但内容质量不如Claude。

任务5:Jira创建issue

这是最难的任务,也是最能说明问题的。

Jira的界面出了名的复杂。创建一个issue需要填标题、描述、选择项目、选issue类型、设置优先级、添加标签。每个字段都有自己的UI组件——下拉菜单、标签选择器、富文本编辑器。

Claude Computer Use花了大概5分钟创建了3个issue。它能正确填写大部分字段,但在选标签的时候出了问题。Jira的标签选择器是一个输入框+下拉列表,它输入标签名后需要按回车来确认。Claude没有按回车,直接点了下一个字段,导致标签没加上。

Browser Use(接Claude Sonnet 4)的表现类似。它在Jira的界面里也能操作,但同样的标签选择器问题也出现了。

Operator做不了这个任务(需要登录)。

这里暴露了AI操控电脑最大的问题:它不理解UI组件的交互模式。人类看到一个标签选择器,凭经验就知道"输入文字然后按回车"。AI看到的是一个输入框和一个下拉列表,它不知道这两者之间的关系。

速度和成本对比

速度方面,Operator最快,因为它跑在OpenAI自己的优化环境里。Claude Computer Use最慢,因为每一步都要截屏、分析、决策。Browser Use居中。

成本方面,差异很大。Claude Computer Use处理一个中等任务大概消耗2000-5000个token(主要是截图token),按Claude Sonnet的价格算大概$0.01-0.03/任务。Browser Use的成本取决于你接的模型,但通常比Computer Use便宜,因为你可以用更便宜的模型。Operator是订阅制,Pro用户每月$200,不限次数。

如果你每天要做几十个自动化任务,Operator的订阅制更划算。如果你偶尔用用,按token计费的方案更经济。

通过SevenFa AI Hub的统一API,你可以很方便地切换不同模型来做Computer Use,找到性价比最高的组合。而且它支持并发调用,你可以同时让多个Agent操作不同的浏览器实例。

我的结论

AI操控电脑在2026年6月的状态是:能用,但很粗糙。

它适合的场景:简单的网页操作(搜索、点击、填简单表单)、批量重复任务(在多个页面做同样的操作)、不需要登录的公开网站操作。

它不适合的场景:复杂的UI交互(富文本编辑、拖拽、标签选择器)、需要精细操作的任务(设计、排版)、对准确性要求高的操作(银行转账、发重要邮件)。

如果你是开发者,想在自己的应用里加入Computer Use能力,我的建议是用Browser Use + 专用模型。别用通用大模型,用专门为Computer Use微调过的模型。Anthropic的Claude在Computer Use场景下的表现明显好于其他通用模型,因为它在训练的时候就加入了大量GUI操作的数据。

还有一个思路:别让AI操控电脑,让AI调API。如果你的操作目标是一个有API的服务,直接用API比让AI点鼠标快10倍、准10倍。Computer Use的价值在于那些没有API的老系统和传统网站。

动手试试:Browser Use只需要5行Python代码就能跑起来。在SevenFa操练场里试试用不同模型做同一个网页操作任务,看看哪个模型的GUI理解能力最强。