2026年了,"AI Agent"这个词已经被聊烂了。每个技术大会都在讲,每家公司都说自己在做。但你要是问那些讲Agent的人"你自己用Agent干过什么活",大部分人会支支吾吾。
我从今年3月开始认真用Agent干活。不是demo,不是"帮我查个天气"那种,是真正的日常工作:写代码、做文档、处理数据、发邮件。3个月下来,花了大概$340的API费用,节省的时间我粗略估了一下大概在60-80小时。
下面说说哪些场景真的好用,哪些是坑。
场景一:代码重构(好用,但要盯着)
我有一个老项目,Python 2写的,大概3万行代码。一直想迁移到Python 3,但工程量太大,一直拖着。
3月份我试了用Claude Code来做这个事情。我给了它一个明确的任务:"把这个模块从Python 2迁移到Python 3,保持功能不变,用2to3工具做基础转换,然后修复剩余的兼容性问题。"
它干得不错。基础的语法转换(print语句、unicode处理、dict方法)它都能搞定。一个2000行的模块,它大概10分钟就能完成转换,而且会自动跑测试验证。
但有个问题:它有时候会"过度优化"。比如它会顺手把一些老式的写法改成Pythonic的新写法,这本身没问题,但有时候会改出bug。有一次它把一个has_key()检查改成了in操作符,逻辑上等价,但那个dict的key可能是一个自定义对象,in操作符的行为和has_key()不一样。
我后来的做法是:让Agent先做转换,然后我review diff。不信任它的"优化",只信任它的"转换"。
3个月下来,大概迁移了1.5万行代码。如果我自己手动做,估计要3-4周。用Agent大概1周就搞定了(包括review时间)。
API费用:大概$45(主要是Claude Sonnet 4的调用费)。
场景二:文档生成(出乎意料地好用)
我们团队的文档一直是个老大难。代码写完了,文档永远缺。不是不想写,是写文档太无聊了。
我试了用Agent来生成API文档。做法很简单:把代码文件丢给它,让它生成OpenAPI格式的文档。
效果比我预期的好。它能从代码注释、函数签名、类型注解里提取信息,生成的文档基本准确。当然它不能理解业务逻辑——比如一个叫process_payment的函数,它能描述参数和返回值,但不会知道这个函数对接的是Stripe还是支付宝。
我的workflow是:Agent生成初稿 → 我补充业务逻辑说明 → Agent根据我的补充更新文档。这个循环通常跑2-3轮就能得到一个质量不错的文档。
3个月下来,生成了大概40份API文档。如果手动写,每份至少要1-2小时。用Agent大概每份15分钟(包括review和补充)。
API费用:大概$25。这个场景token消耗不大,因为主要是结构化输出。
场景三:数据分析(好用,但需要教)
每周一我都要做一个数据周报:从数据库里拉数据,做几个分析图表,写一段简要的分析文字,发到团队群里。
这个任务重复性高,很适合Agent。我写了一个脚本,用SevenFa AI Hub的API来调用模型,流程是:
1. 脚本从数据库拉数据,生成CSV
2. 把CSV丢给模型,让它分析趋势和异常
3. 模型输出分析文字 + 建议的图表类型
4. 脚本根据模型建议生成图表
5. 脚本把分析文字和图表拼成周报
前几周模型的分析很泛——"本周数据整体呈上升趋势"这种废话。后来我在prompt里加了具体的分析框架:"对比上周同期,找出变化超过10%的指标,分析可能的原因,给出可执行的建议。"
改了prompt之后质量提升很大。有一次它发现某个接口的错误率从0.5%涨到了2.3%,自动标注为异常,我一查发现是上游服务的一次配置变更导致的。如果没有Agent的周报,这个异常可能要到用户投诉才会被发现。
API费用:大概$60(每周跑一次,3个月12次,每次$5左右)。
场景四:邮件和消息处理(一般般)
我试过让Agent帮我处理邮件:读邮件、分类、生成回复草稿。
分类做得还行,准确率大概85%。它能区分"需要我回复"、"FYI"、"垃圾邮件"三类。但15%的错误率意味着你还是得检查,否则会漏掉重要邮件。
回复草稿就不太行了。它生成的回复太"客气",跟我平时的沟通风格差很远。我写邮件比较直接,三句话能说完的不会写五句。Agent生成的回复总是加很多客套话和过渡句。
我后来在prompt里加了"用简洁直接的风格回复,不要客套话",好了很多,但还是不像我写的。有些表达方式一看就是AI生成的——比如"感谢您的耐心等待"这种句子,我从来不会这么写。
最终我放弃了让Agent直接生成邮件回复。现在我只是用它做邮件分类和摘要,回复还是自己写。
API费用:大概$30。
场景五:竞品监控(意外好用)
这个场景是我后来加的,效果出乎意料地好。
我需要监控几个竞品的动态:产品更新、定价变化、新功能发布。以前是每周手动去看一遍它们的网站和社交媒体,大概要花2小时。
现在我的做法是:写一个脚本,每天抓取竞品网站的更新日志和社交媒体,丢给模型做分析。模型会输出"有没有重要更新"、"更新内容摘要"、"对我们可能的影响"。
有一次竞品偷偷改了定价页面,把某个功能从免费版移到了付费版。Agent在当天的监控报告里就标出来了。我当天就调整了我们的营销策略,强调我们同功能是免费的。
这种监控任务特别适合Agent,因为它需要理解语义——不能简单地做diff,要理解"这个变化意味着什么"。
API费用:大概$80(每天跑,3个月90次,每次不到$1)。
场景六:Code Review辅助(有争议)
我让Agent做Code Review的辅助工具。每次有PR,自动跑一遍Agent Review,把发现的问题贴到PR评论里。
它能发现的问题:明显的bug(空指针、边界条件)、代码风格不一致、潜在的性能问题、缺少错误处理。
它发现不了的问题:业务逻辑错误、架构设计问题、安全漏洞(除非很明显的那种)。
团队里对这个做法意见不一。有人觉得它发现了几个真实bug,值得。有人觉得它报的"问题"太多是误报,浪费review时间。
我的感受是:把它当"第二双眼睛"看,别当"裁判"。它标出来的问题你还是要自己判断。但如果你review一个500行的PR,它先帮你标出5个可能的问题点,你重点看这5个地方,效率确实高了。
API费用:大概$100(这个场景token消耗大,因为要分析大量代码)。
总结:什么该用Agent,什么不该
3个月$340的API费用,换来60-80小时的时间节省。算下来每小时大概$4-5。如果你的时间成本高于这个数,用Agent就是划算的。
适合用Agent的场景:
重复性高的任务(数据周报、竞品监控、文档生成)。一次写好prompt和workflow,后面就是自动跑。
需要处理大量信息的任务(Code Review、代码迁移)。Agent处理信息的速度比人快一个数量级。
不太需要创意的任务(数据清洗、格式转换、结构化提取)。这些任务的正确答案是确定的,Agent犯错的概率低。
不适合用Agent的场景:
需要深度业务理解的任务(产品策略、架构设计)。Agent不理解你的业务上下文,给的建议通常是泛泛的。
对准确性要求极高的任务(发正式邮件、签合同、改生产数据库)。Agent会犯错,而且犯错的时候它自己不知道。
需要个人风格的任务(写公众号、做演讲、跟客户沟通)。Agent能模仿你的风格,但模仿得再像也有一股"AI味"。
最关键的一点:别把Agent当人用。它是一个工具,不是同事。你不会让一把锤子自己决定往哪钉钉子。Agent也一样——你给它明确的任务和约束,它执行。你不管它,它就会乱来。