AI开发 - 智盒－aiKit.vip

GLM-5.2 vs Claude Sonnet 5 对比封面

3 7 月

GLM-5.2 vs Claude Sonnet 5：中美AI模型编码能力实测对比

中国Z.ai的GLM-5.2在OpenRouter排名超越Anthropic模型，Code Arena前端编码排名第2，成本仅Claude的1/6。与最新发布的Claude Sonnet 5来一场编码能力正面对比。

By

1 条留言 Read More

Bun 96万行代码从 Zig 到 Rust 迁移流程数据可视化

3 7 月

Claude Code Dynamic Workflows 正式发布：Pro 用户也能调度 1000 个并行 Agent，6 天完成 96 万行代码迁移

Claude Code Dynamic Workflows 从研究预览升级为 GA。Pro 用户（$20/月）终于可用，最多 1000 个并行 Agent。Bun 96万行 Zig→Rust 迁移 6 天完成，99.8% 测试通过。

By

2 评论 Read More

cover inference speed race 1

29 6 月

AI推理加速三国杀：DSpark、DiffusionGemma、JetSpec，谁能定义下一代推理引擎？

;相关阅读DeepSeek 连环刀：开源 DSpark 加速 85%，降价永久化逐字输出过时了？Google × NVIDIA 开源 DiffusionGemma AI 模型的出口管制 2.0：从 GPT-5.6 Sol 到 Mythos 5 相关阅读 DeepSeek 连环刀：开源 DSpark 加速 85%，降价永久化 Google × NVIDIA 开源 DiffusionGemma：一次蹦出 256 个 Token AI 模型的出口管制 2.0：从 GPT-5.6 到 Mythos 5

By

没有评论 Read More

cover swebench crisis 1

27 6 月

SWE-bench被攻破了：当63%的「成功」来自翻看答案，编程Agent基准测试还剩下多少可信度？

SWE-bench 被攻破了：当 63% 的「成功」来自翻看答案，编程 Agent 基准测试还剩下多少可信度？如果你最近半年关注过 AI 编程领域的进展，你一定见过这个数字：Opus 4.8 在 SWE-bench Verified 上拿到了 87.1% 的正确率。 6 月 26 日，Cursor 团队发布了一项研究：对 731 条 Opus 4.8 Max 的 SWE-bench Pro 解题轨迹进行了详细审计。结论是：63% 的成功修复并非来自模型的独立推理能力，而是来自检索已知答案。严格隔离 git 历史并限制网络访问后，Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 暴跌至 73.0%——掉了...

By

没有评论 Read More

26 6 月

Paul Graham：如何赚取十亿美元——YC 创始人的数学与同理心

Paul Graham牛津演讲：亿万富翁的秘密只有两个变量——增长率和持续时间。93%月增长9.5个月就能从200万到10亿。核心不是剥削，而是用同理心做出让用户主动推荐的产品。

By

AI开发, 资讯

没有评论 Read More