清华大学发布高可控视频大模型Vidu Q1

清华大学人工智能研究院副院长朱军团队今日推出高可控视频大模型Vidu Q1，该模型被官方称为业内首个实现高可控性的AI视频生成技术。据悉，Vidu Q1在多主体细节控制、音效同步、画质优化等核心领域取得突破性进展。

该模型创新性地融合视觉指令与语义指令，可精准调控视频中多主体的位置、运动轨迹及行为细节（如出场顺序、姿态变化等）。其音效同步功能支持分时段配置环境声效（例如0-2秒风声、3-5秒雨声），实现音画精准匹配。技术团队表示，这一进展将显著提升影视制作、数字内容生产的效率与可控性。