28 5 月

FastVideo Dreamverse 开源:一张 B200,7 秒生成 30 秒高清视频

实时视频生成又多了一个开源选项。Sky Computing Lab 在 5 月 27 日开源了 FastVideo Dreamverse——基于单张 NVIDIA B200 GPU 和 LTX-2 模型,实现实时视频生成的氛围引导工具。核心数字:7 秒生成 30 秒 1080p 视频。 来源:X: @haoailab / GitHub / Blog 为什么重要 实时视频生成有三个关键门槛:速度(不能等几分钟)、质量(1080p 是底线)、硬件成本(能不能跑在单卡上)。FastVideo Dreamverse 三个都过了。 对比一下同一天 Runway 发布的 MCP 服务器——Runway 走的是云端 API 路线,FastVideo 走的是本地开源路线。前者方便但花钱,后者需要硬件但免费。 技术栈 GPU:NVIDIA...
27 5 月

AI 视频生产三连击:Runway Luxo + Gemini Omni + Kling 同时跨过「能用」门槛

如果你对 AI 视频的印象还停留在「那些有点诡异的六指人类和违反物理定律的物体运动」,今天有三个独立信号在告诉你:可以更新认知了。 Runway Luxo:跨越恐怖谷 Runway 今天发布了 Project Luxo 的研究结果,核心结论只有一句话:AI 生成视频已经跨过了恐怖谷。 他们做了什么?向创意行业的从业者展示了包括 AI 短片《The Rogue》和广告样片在内的作品,然后评估观众的反应。结果是:观众开始关注故事本身,而不是技术瑕疵。 更有意思的是生产效率数据:所有作品都由单人团队制作,耗时从 3 周到 4 小时不等。用 Runway 的话说:「当技术足够好以至于『隐形』,观众沉浸于故事而非技术时,就意味着跨越。」 这个判断标准其实很聪明——它不是用 PSNR 或 FVD 这些技术指标来证明 AI 视频「变好了」,而是用观众的行为数据。当观众不再在弹幕里刷「AI 生成的吧」,AI 视频就真的成熟了。 Gemini Omni:不只是生成,而是「拍摄」 同一天,Google 官方发布了 Gemini Omni 的视频提示词指南。五条技巧,每一条都值得细读: 利用模型已有的现实世界知识。Gemini Omni 的训练数据包含了大量现实世界的视觉信息,你不需要描述「一辆红色的汽车长什么样」,直接说「一辆红色特斯拉 Model 3 在太平洋海岸公路上行驶」就行。 精确控制文本渲染。视频中的文字排版一直是 AI 视频的弱项,Gemini Omni 在这方面做了针对性优化,支持指定字体、位置和动效。 使用专业镜头指令。推拉摇移、景深、构图——用电影摄影师的术语来写提示词,而不是「拍得好看一点」。 迭代编辑而非重拍。不需要因为一个细节不满意就重新生成整个视频。可以像改代码一样在上一版基础上修改。 直接调整角色的动作节奏或情绪。对于叙事类内容,这个能力意味着你不需要重新设计角色动画,只需要告诉模型「让她走得更快一点」或「表情更紧张」。 这些技巧看起来简单,但背后反映的是...