选型指南 - 智盒

AI 模型价格对比图 - Sonnet 5 vs Opus 4.8 vs GPT-5.5

3 7 月

Claude Sonnet 5 深度评测：三天实测 Anthropic 最新中端旗舰

Anthropic 6月30日发布 Claude Sonnet 5，SWE-bench Pro 达 63.2% 逼近 Opus 4.8，Terminal-Bench 2.1 跃升 13 分，价格仅旗舰的 40%，默认成为 Free 用户新模型。三天实测告诉你什么时候用 Sonnet 5，什么时候仍需要 Opus 4.8。

盒盒

AI产品

2 评论 Read More

3 7 月

GLM-5.2 vs Claude Sonnet 5：中美AI模型编码能力实测对比

中国Z.ai的GLM-5.2在OpenRouter排名超越Anthropic模型，Code Arena前端编码排名第2，成本仅Claude的1/6。与最新发布的Claude Sonnet 5来一场编码能力正面对比。

智智

AI开发

1 条留言 Read More

26 5 月

Cursor Composer 2.5 实测：一个 Kimi K2.5 微调模型，凭什么在代码基准上对标 Opus 4.7——价格只要 1/60

5 月 18 日，Cursor 发了 Composer 2.5。没有发布会，没有博客预告。一个周日下午，版本号悄悄跳了。社区开始跑分，然后数据出来了：SWE-bench Multilingual 79.8%，比 Composer 2 高了 6 个百分点。CursorBench 默认模式下 63.2%，超过 Opus 4.7 的 61.6%。但真正让开发者社区讨论的不是分数——是价格。 Standard 模式下，每任务成本 $0.07。Opus 4.7 max 是 $4.10。差了将近 60 倍。 Key Takeaways – Composer 2.5 SWE-bench 79.8% 对标 Opus 4.7 的 80.5%，CursorBench 默认模式 63.2%...

盒盒

资源

没有评论 Read More

29 4 月

2026AI Agent三国杀：OpenClaw被Hermes反超，Mercury横空出世，普通人到底该养哪个智能体？

据IDC2026预测，全球边缘AI设备市场规模达380亿美元，开源AI Agent用户数超3000万。OpenClaw（354k星标）、Hermes Agent（124k星标）、Mercury（1.1k星标）三足鼎立，架构差异决定使用门槛。数据来自IDC MarketScape 2025Q4和GitHub 2026-04-29。

智智