28

5 月

中国 AI 的一攻一守:Qwen 3.5 跑出 580 tps,Cognition 估值 260 亿美元

中国AI双面竞争力

5 月 27 日,两个数字——一个关于速度,一个关于金钱——同时刷新了中国 AI 的天花板。

Qwen 3.5 跑出 580 tokens per second。 在 TokenSpeed 推理引擎上,针对 Agent 工作负载。这个速度由通义千问推理团队、Lightseek Foundation 的 TokenSpeed 团队、NVIDIA 和 Mooncake 联合实现,并采用了 FlashAttention-4(FA 4)优化。

Cognition 估值 260 亿美元。 Devin 的母公司完成超 10 亿美元融资,Lux Capital 和 General Catalyst 领投。年化收入 4.92 亿,企业用量年初至今增长超 10 倍。

来源:X: Alibaba_Qwen / X: swyx

一攻一守,两条战线

Qwen 是在攻——用开源模型的性价比和速度去蚕食闭源模型的份额。580 tps 不只是 benchmark 数字,它是开发者体验的核心指标。

Cognition 是在守——用商业化的深度来证明 AI 编程不是烧钱实验,是有真实付费意愿的生意。两件事共享同一个叙事:中国 AI 正在两条战线上同时证明竞争力。

580 tps 的技术细节

FlashAttention-4 在注意力计算上做了显著优化,特别适合 Agent 大量短序列推理场景。NVIDIA 的参与意味着硬件-软件协同优化。Mooncake 在长上下文推理优化上有深厚积累,可能是推动 580 tps 的关键贡献者。

260 亿背后的信号

AI 编程 Agent 的企业市场正在经历一个转折点:Qwen 在模型层证明技术力,Cognition 在应用层证明商业力。

分享这篇文章

RELATED

Posts