实测 Claude Opus 4.8:活干得更漂亮了,话说得更难听了
分类

实测 Claude Opus 4.8:活干得更漂亮了,话说得更难听了

今早,Anthropic 正式超越 OpenAI,在发布新估值的同时,还发布了前两天就开始有传闻流出的 Claude Opus 4.8,旗舰产品线的最新版本。
Jun 1st,2026 976 浏览量
     今早,Anthropic 正式超越 OpenAI,在发布新估值的同时,还发布了前两天就开始有传闻流出的 Claude Opus 4.8,旗舰产品线的最新版本。我们第一时间上手,同时收集了用户社区的早期反馈。先说结论:更能干活了,但「性格」变得更难相处了。APPSO 实测:脑子升级了,嘴没有我们没有用 Anthropic 准备好的 benchmark 场景,而是拿了一个我们自己的真实需求来测:从一个在线协作平台里,把历史对话记录完整扒下来存档。数据量 30MB 以上,散落在前端接口的各个角落,没有现成的导出按钮。这类任务考验的不是模型会不会写代码,而是它能不能跟一个非专业开发者一起,从零摸索并完成任务。事情的起点是一个偶然的发现。测试的同事注意到,平台的前端界面在某些瞬间会闪过早期的历史记录,像是数据被短暂地加载到了客户端又被收回去。他把这个观察丢给了 4.8,没有做任何技术描述,就是用大白话说「我看到了一些旧消息闪了一下就没了」。
  4.8 领会了他的意思,给出了正确的判断:数据通过接口请求加载,可以在浏览器的网络层截获。然后给了一套操作方案,指导个步骤:开发者工具,Network 面板,过滤关键词,定位目标请求。判断精准,思路清晰。但这里就出现了 4.8 的矛盾之处:思考能力很强,表达方式很……繁琐。每一步的技术方案都是对的,但每一步的解释都得铺垫个两三句。你问一个做法,它先给你来一段「当然可以!让我们一步步来」,再拉一个 bullet point 列表,然后在列表后面追加一段「补充说明」解释为什么要这么做。一个三句话能说清楚的事,它写了三屏,我只是不会代码,又不是脑子飞了。
  这不是 4.8 的新问题,是 Opus 4.7 以来系列一直有的老毛病,被反复批斗后,在这一版上并没有改善,甚至有加重的趋势。耗力最明显的时刻是纠错环节:按照第一版方案操作,用户遇到了一个报错。4.8 准确地识别了问题所在,给了新方案,没有重复已经失败的路径。这一点确实比 4.6 强,4.6 在多轮纠错中偶尔会忘记刚才试过什么。认错是个好事,但也不必太拘着了,再加上分析原因、然后列一组 bullet point。明明是在复盘技术问题,读起来像在写客服邮件。
  最终,数据以 HAR 格式完整导出,清洗、自己写脚本分层,这些工作都完成得很好。部分用户还没有被推送到 Claude Code,但是 Claude for Chrome 上已经有 4.8 了,同时各大办公工具如 Notion 也已经推送。我们尝试了用 Claude 操作 Chrome 做检索、填写等基础任务。 
xunduodo ai
  一个能干活但不会聊天的同事如果只看结果,4.8 确实更强了,它理解非标准需求的能力更好,多步骤任务的上下文保持更稳,纠错不绕弯路。但如果看过程,体验却是拧巴的。它的问题不在于不会思考,准确地说,是它说话的方式像一个永远在做汇报的人:事事要分点,点点要展开,展开完还要总结,总结完再问你「还有什么我可以帮到你的?」。包括那些经典 AI 味开场白,「这是一个很棒的问题!」「当然可以!」,在前代模型上就已经让人烦躁,到 4.8 依然健在。这与其说是「缺点」,不如说是一种设计选择。Opus 4.8 的工程能力拉满了,它像一个技术很好但沟通风格很客服的同事:你知道它能解决问题,但你要先听它把一件简单的事说得很隆重。这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度,在这一版模型上被拉向了两个相反的方向。
  总体来看,Opus 4.8 是一个「工程」气质拉满的模型,这使得它能够快速融入各个工具当中,不管是 CC 这样的代码工具,还是进入网页浏览和检索的 chrome 插件,甚至是各个自己做的小工具。「工程化」是一种思维,在 4.8 身上体现的淋漓尽致。
  尽管「大而全」是厂家们经常打出来的口号,但在实际搭建自己的工作流中,不同的工具必然有不同的用处,Opus 4.8 做到的是,让其工程能力和思维,调动和流淌在各种不同的工具当中。不过,这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求,甚至是在更宏观的层面,给不同的工具分配不同的任务。考虑到现在模型的发布越来越快,距离 4.7 不过也是一晃眼的事,这种频繁的更新所带来的频繁适应,势必会带来一些痛苦。除了把重负转嫁给用户,也是厂商要考虑的问题——为了融资上市一昧加速再加速,未来会带来相当多的适应问题。

准备好联系我们了吗

获取项目报价