29
5 月
Claude Opus 4.8 发布了:4 倍更诚实、Dynamic Workflows、价格不变——GPT-5.5 还能打吗?
Opus 4.8 不是一次参数升级,而是一次「可靠性革命」——Anthropic 选择让模型主动告诉你「我不确定」,而不是假装知道答案。SWE-bench Pro 69.2%,价格不变,4 倍更诚实。
29
5 月
ITBench-AA 基准测试:所有前沿模型在真实企业 IT 任务中得分不及格——最高只有 47%
一个刚发布的基准测试,把 AI Agent 在企业级场景的「真面目」暴露了出来。
ITBench-AA 由 Artificial Analysis 和 IBM 联合推出,聚焦 SRE(Site Reliability Engineering)场景。59 个任务,每个需要 Agent 通过 Shell 命令调查 Kubernetes 事件快照,提交根因诊断。 这不是问答,不是代码生成,是真实的运维诊断——需要 Agent 像一个初级 SRE 一样工作。
结果?所有模型得分都低于 50%。
排名
模型得分推理轮次成本/任务
Claude Opus 4.7 (max)47%~7N/A
GPT-5.5 (xhigh)46%~12N/A
Qwen3.7 Max42%~20N/A
Gemma 4 31B (Reasoning)37%~8$0.14
完整排名见 HuggingFace Blog。
第一个矛盾:「越想越不对」
最有意思的发现不是排名,而是推理轮次与准确率的关系。
Claude Opus 4.7 用了约...
28
5 月
Claude Code 自动模式搞砸了你的项目?Boris 教你 5 个步骤让它真正干活
Claude Code 创作者 Boris Cherny 分享自动模式多任务并行技巧。5 步实操指南:任务拆分→验证标准→优先级编排→并行执行→结果汇总。附 CLAUDE.md 配置模板。
27
5 月
别再为这些工具付费了,这30个开源替代品让你的月账单直接砍半
上个月我认真拉了一遍SaaS账单,吓了一跳。本文从100个开源GitHub仓库中精选30个最实用的替代品——n8n替代Zapier、Penpot替代Figma、Ollama替代ChatGPT订阅——按六大类逐一拆解,每项标注许可证和坑点。
27
5 月
「选择保持人性」— Ethan Mollick 最新长文:当 AI 能写出一切,什么内容还值得人类亲自生产?
Ethan Mollick 是沃顿商学院教授,也是 AI 领域最受关注的博主之一(One Useful Thing)。他今天发表了一篇新文章,标题直接得刺眼——《Choosing to Stay Human》(选择保持人性)。
你在社交媒体上看到的东西,可能是 AI 写的
Mollick 开篇就抛出了一个问题:
如果你现在打开你最喜欢的社交媒体,你会发现上面的帖子开始看起来惊人地相似。
不只是帖子。评论区越来越多的 AI 生成回复,学术论文、纽约时报观点文章、文学奖投稿中 AI 撰写的比例在快速攀升。Mollick 直接拿教育、咨询和最近文学奖争议三个领域做切片,追问一个问题:当 AI 可以大规模生产「看起来像人写的内容」,人类创作的独特性到底在哪里?
AI 让内容走向「均值回归」
Mollick 的核心观察是:AI 生成的内容在统计上会趋向于「最安全、最平均」的表达。不是故意平庸,而是训练数据和概率分布的自然结果。
类似的事在搜索引擎时代发生过一次。SEO 让全网的网页标题和开头段落都变成了同一套模板。AI 把这个过程加速了几个数量级。
对于内容创作者来说,这个判断隐含一个重要的结论:未来内容的价值将不再取决于「写得好不好」,而是取决于「能不能写出 AI 写不出的东西」。后者不是指技术层面(AI 当然能模仿任何风格),而是指信息来源的独特性和观点的不可复制性。
什么应该交给 AI,什么必须保留?
Mollick 的文章并不是「AI 有害论」。他的态度更接近一种清醒的分类学——哪些工作可以放心交给 AI,哪些必须由人类亲自完成:
可交给 AI:标准化产出、模板化内容、信息聚合、例行报告
应保留人类:需要真实体验支撑的判断、第一手的实验观察、带有个人风险承担的洞见、不可复现的创造性时刻
Mollick 文章中最有力的一句话也许是:「社交媒体的帖子看起来越来越像彼此。这不仅是审美问题——当你无法区分原创和复制品时,你就会停止相信任何东西。」
这句话恰好点中了 AI 内容泛滥的真正代价:不是内容质量下降,而是信任体系的瓦解。
对中文内容生态的延伸思考
Mollick 讨论的是英文互联网,但中文内容生态面临的挑战只多不少。
公众号、小红书、知乎等平台上的 AI 生成内容比例正在快速上升。区别在于,中文 AI...




