北大携手北邮,教AI“感知光线“—让生成视频真正懂得光影的秘密
这项由北京大学多媒体信息处理国家重点实验室、北京大学视觉技术国家工程研究中心、北京邮电大学人工智能学院以及北京智源人工智能研究院联合开展的研究于2026年4月以预印本形式发布论文编号为arXiv:2604.07966。有兴趣深入了解技术细节的读者可以通过该编号在arXiv平台查阅完整论文。**一场关于光的革命从视频生成开始**如果你曾经用过AI视频生成工具大概有过这样的体验生成出来的画面乍一看很漂亮但总感觉哪里不对劲。仔细一看问题往往出在光线上——桌上的玻璃杯没有反光金属表面没有高光阴影方向乱七八糟甚至同一个画面里有的物体看起来是在晴天拍的有的又像是阴天。这种感觉就像一张照片里同时存在两个太阳一样违和。光线是让一段视频看起来真实的灵魂所在。人类的眼睛对光线极度敏感哪怕只是细微的不协调我们的大脑就会立刻发出这不对劲的信号。对AI来说画出一个合理的光影世界远比画出一把椅子或一栋楼困难得多。这就是LiVER这个研究框架要解决的核心问题。LiVER的全名是Lighting-grounded Video genERation中文可以理解为以光照为基础的视频生成。研究团队的思路是与其让AI去猜光线应该是什么样的不如直接把物理世界中真实的光照规律喂给它让它从根本上理解光是如何在不同材质表面产生不同效果的。**一、问题的根源AI为什么不懂光**要理解LiVER解决了什么问题先要理解现有AI视频生成工具的局限性究竟在哪里。当前的视频生成模型大多是通过学习海量视频数据来模仿真实世界的样子。这个过程有点像一个从来没有学过绘画的人通过观看成千上万幅画作来学习画画。他能学到草地通常是绿色的、天空通常是蓝色的这样的规律但他不理解为什么晴天草地的阴影是蓝紫色调的这样的物理原理。这种依赖数据驱动的学习方式导致生成的视频往往在表面现象上做到了相似却在物理规律上出现了错误。比如生成一段阳光明媚的室外场景时AI可能会把金属物体渲染成哑光质感或者让玻璃窗看起来没有任何反射。更严重的问题是当场景中有多个物体相互遮挡时AI很难正确处理它们之间复杂的阴影和反射关系。与此同时现有工具对视频场景的控制能力也十分有限。用户往往只能通过文字描述来影响生成结果无法精确控制摄像机从哪个角度拍摄、场景中的物体放在什么位置、光线从哪个方向照射过来。这三个要素——布局、光照、摄像机轨迹——在专业影视制作中是核制约创作自由度的核心变量但在现有AI工具中它们要么被混在一起无法单独调整要么根本没有被建模。LiVER的研究团队把这个问题比作一道解耦难题如何把光照、布局、摄像机这三个原本纠缠在一起的因素清晰地分离开来让用户能够像调音台上的推子一样独立地控制每一个维度**二、核心思路用3D物理渲染来教AI**LiVER的解题思路可以用一个电影特效制作的比喻来理解。在专业的电影工业里视觉特效团队在制作一个充满金属机器人或玻璃建筑的场景时不会直接用画笔一笔一笔地画出光影效果。他们的做法是先用3D软件搭建一个完整的三维场景设定好每个物体的材质属性是金属还是塑料是光滑还是粗糙然后在场景里放置一个虚拟光源让计算机按照真实的物理光学规律自动计算出所有的光影效果。这个过程叫做基于物理的渲染Physically-Based Rendering简称PBR。LiVER的思路正是借鉴了这种方法。研究团队不让AI直接生成最终视频而是先让一个智能助手研究中称之为渲染器智能体根据用户的文字描述自动搭建一个简化的3D场景然后用3D渲染引擎具体使用的是开源3D软件Blender按照物理规律计算出光照效果生成一套场景代理Scene Proxy图像序列。这套图像序列就像是电影拍摄前的分镜头草图但它包含了精确的物理光照信息。最后再把这套物理准确的草图作为输入引导AI视频生成模型来产生最终的高质量视频。这个流程的精妙之处在于AI视频生成模型不需要自己去推断光线应该怎么打因为正确答案已经被物理渲染引擎算好了并以图像的形式直接告诉了它。AI只需要把这些光照信息与场景内容融合在一起生成视觉上更加细腻、真实的最终画面。**三、场景代理把光分解成三种语言**LiVER框架中最具技术创意的部分是它如何表达场景的光照信息。研究团队没有试图用一张图来描述所有的光线效果而是把光照分解成三种不同的语言分别对应光在不同材质表面上的不同表现方式。第一种语言叫做漫反射Diffuse处理的是哑光、无光泽表面的光照效果。粗糙的石头、布料、未经打磨的木头光线打上去会向四面八方均匀散射没有明显的高光或反射。这种光照描述的是场景中最基础的明暗关系捕捉的是低频的、柔和的环境光效果。第二种语言叫做粗糙GGXRough GGX处理的是半光滑表面的光照效果。轻微磨砂的金属、陶瓷、部分塑料光线打上去会产生模糊的、扩散的高光区域。这种光照描述捕捉的是中频的宽泛反射是很多日常物品表面效果的主要来源。第三种语言叫做光泽GGXGlossy GGX处理的是高度光滑、镜面般的表面的光照效果。抛光金属、玻璃、镜子光线打上去会产生清晰的、尖锐的高光和环境反射。这种光照描述捕捉的是高频的精确反射是让材质看起来贵或精致的关键。将这三种光照图像叠在一起就像把一首音乐的低音、中音、高音三个声部分别录制成单独的音轨然后再混合成最终成品。每种材质对应不同声部的组合方式不同金属可能低音弱、高音强织物可能低音强、高音几乎没有。通过这三种光照语言的组合可以精确描述几乎所有材质表面的光照行为。在技术实现上这三种光照图像被按照通道拼合在一起形成一个9通道每种光照3个RGB通道共3种的图像序列构成最终的场景代理。这个场景代理不仅包含了精确的光照信息还包含了场景的几何布局和摄像机运动信息一举解决了三个控制维度的问题。**四、智能体如何读懂你的文字并搭建场景**从用户输入一段文字描述到LiVER生成场景代理中间经过了一个由多个AI模块协同工作的渲染器智能体流程。这个过程就像从总导演、美术指导到摄影师的分工协作。整个过程从场景构建开始。智能体首先像一位文学分析师一样仔细拆解用户提供的文字描述提取出其中涉及的物体类别、它们之间的空间关系比如长凳在树下、垃圾桶在建筑旁边并把这些信息组织成一个结构化的场景图谱。场景图谱中的每个节点代表一个物体每条边代表两个物体之间的位置关系。有了场景图谱之后智能体会从一个预先整理好的3D资产库基于Objaverse-XL这个包含超过1000万个3D物体的庞大数据库中为每个节点找到最合适的3D模型然后根据场景图谱的空间约束来摆放这些模型的位置形成一个粗略但几何上合理的3D场景。接下来是光照设置。智能体会从用户描述中提取与光线相关的线索比如温暖的傍晚阳光、阴天漫射光、霓虹灯氛围等。根据这些线索它会从Poly Haven这个高质量HDR环境贴图库中筛选出最匹配的全景光照图。HDR高动态范围环境贴图就像是把整个天空和周围环境拍成一张全景照片用它来照亮场景可以产生非常真实的环境光效果。如果库中没有完全匹配的贴图智能体还能调用专门的生成模型来临时创建一个。随后是摄像机规划。智能体从文字描述中识别拍摄手法的线索比如绕轨道拍摄、推拉变焦、升降镜头等然后根据这些线索规划摄像机的运动轨迹。它会先确定几个关键帧的摄像机位置和朝向再通过数学插值方法生成一条时间上平滑的完整轨迹。最后将场景几何、光照设置、摄像机轨迹全部输入Blender渲染引擎分别渲染出三种光照图像序列拼合成最终的场景代理准备好喂给视频生成模型。**五、如何把物理信息注入AI视频生成模型**得到了场景代理之后下一个挑战是如何让它真正引导AI视频生成模型而不只是被模型忽视LiVER的基础视频生成模型选用的是阿里巴巴开源的Wan2.2-5B这是一个在大量真实视频数据上训练的高质量视频扩散模型已经具备了很强的视觉质量生成能力。研究团队在它的基础上额外设计了两个轻量化的新模块。第一个模块叫做场景代理编码器专门负责从场景代理图像序列中提取关键信息。这个编码器由多个2D卷积神经网络块堆叠而成每个块包含卷积操作、归一化处理和激活函数。它的工作方式是逐帧处理场景代理图像把9通道的光照信息压缩提炼成一套更紧凑的特征向量。研究团队刻意选择了2D卷积而非更复杂的3D卷积这样在保持对光照信息高度敏感的同时计算量也更加合理。第二个模块叫做代理适配器负责把场景代理的信息与视频生成模型的内部表示融合在一起。在技术实现上场景代理编码器输出的特征会以一种残差叠加的方式加到视频模型的潜在表示Latent Representation也就是视频在模型内部的抽象编码上。为了保证训练初期模型不会被新加入的信息搞乱这个叠加操作有一个可学习的缩放权重初始值被设为零意味着训练刚开始时场景代理对视频生成完全没有影响随着训练的进行权重逐渐增大场景代理的影响也逐渐增强。这个设计的好处是让模型能够平稳过渡不会因为新加入的信息而遗忘之前学到的视觉质量。**六、三阶段训练循序渐进地教会模型**设计好了框架结构剩下的问题是怎么训练LiVER的研究团队设计了一套三阶段训练方案每个阶段都有明确的学习目标环环相扣。在第一阶段研究团队完全冻结了预训练的视频生成模型即Wan2.2-5B的所有参数保持不变只训练新加入的场景代理编码器和适配器模块。这个阶段持续10个训练周期目标是让新加入的模块学会如何把场景代理转化为有效的控制信号。这就像先让新来的助理学会如何解读导演的分镜脚本而不要一开始就让他介入到整个拍摄流程中。在第二阶段研究团队在继续训练编码器和适配器的同时还解冻了视频生成模型中的LoRA层。LoRA低秩适应是一种高效的微调技术它不改变模型原有的大量参数而是在模型中插入少量额外的低秩矩阵来捕捉新的能力。这样做既能让视频生成模型学会更好地响应场景代理的控制又不会彻底破坏它原本已经很好的视觉质量。这个阶段同样持续10个训练周期目标是建立场景代理与视频内容之间更精确的语义对应关系。在第三阶段训练策略与第二阶段基本相同但增加了一项重要变化将真实视频数据与合成视频数据以1:1的比例混合训练。合成数据来自LiVER-Syn其中包含了动态变化的光照效果比如光源绕场景旋转这些是真实拍摄的视频数据很难大量提供的。通过混合训练模型能够学会处理更多样化的光照场景不会因为真实数据中光照变化有限而出现能力局限。整个训练过程共进行了约10万步使用了8块英伟达H100 GPU总批量大小为16学习率为0.00001最终生成视频的分辨率为704×1280像素。**七、数据集给AI准备一个光照百科全书**为了训练LiVER研究团队专门构建了一个名为LiVERSet的数据集因为现有的视频数据集几乎都没有附带精确的光照、几何、摄像机参数标注。LiVERSet由两个互补的部分组成。第一部分叫做LiVER-Real收录的是真实世界拍摄的视频。真实视频的好处是自然光照效果丰富、画面质感真实但问题是这些视频本来没有附带任何3D标注。研究团队为此开发了一套自动标注流程首先用VGGT模型从视频中估计每一帧的摄像机位置然后对第一帧进行深度估计得到场景的深度图接着用Grounding-DINO和SAM 2两个模型对第一帧中的物体进行检测和分割提取出各个物体的二维轮廓再通过逆投影把这些二维轮廓还原成粗略的3D网格模型最后用DiffusionLight-Turbo模型从图像中估计出场景的HDR环境贴图代表场景的全局光照。有了这些信息之后再用Blender渲染出三种光照图像序列形成场景代理。文字描述则由Qwen 2.5-VL这个视觉语言模型自动为每个视频生成。第二部分叫做LiVER-Syn是完全在计算机中合成的视频数据集。研究团队从Objaverse-XL中筛选出了一批具有高质量PBR材质的3D模型通过随机组合这些模型来生成多样化的场景然后从Poly Haven库中随机选择HDR环境贴图来照亮场景。为了制造动态光照效果研究团队让HDR环境贴图在视频播放的过程中绕垂直轴旋转每个视频片段的总旋转角度在180度到240度之间随机选取这样就能产生光源方向明显变化的效果比如太阳从场景的一侧移动到另一侧。摄像机位置也通过程序化方式随机生成。整个LiVERSet共包含约11000段视频每段视频长度为81帧分辨率为720×1280像素。其中10000段用于训练1000段用于评估真实数据和合成数据各占一半。**八、实验验证和其他方法比较谁更胜一筹**研究团队选取了三个具有代表性的现有方法作为比较对象。CameraCtrl是一个专注于摄像机轨迹控制的视频生成方法通过给视频生成模型输入摄像机位姿序列来控制拍摄角度。MotionCtrl是一个同时控制摄像机和物体运动的方法通过摄像机位姿和稀疏物体轨迹来引导生成过程。VideoFrom3D是一个更接近LiVER思路的方法通过粗略的3D几何来引导视频生成它的做法是先用图像扩散模型生成关键锚定帧再用视频扩散模型在它们之间插值过渡。评估所用的指标覆盖了视频质量和控制精度两个大类。在视频质量方面使用了FVD衡量生成视频与真实视频在统计分布上的差异数值越低越好、FID衡量每帧图像质量数值越低越好和CLIP相似度衡量生成视频与文字描述的语义匹配程度数值越高越好。在控制精度方面使用了摄像机轨迹误差包括绝对轨迹误差ATE、逐步平移误差RPEt、逐步旋转误差RPEr、光照误差使用尺度不变均方误差SI-MSE衡量估计出的光照与真实光照的差距、光照不稳定性SI-MSE随时间的标准差衡量光照变化是否平稳以及布局误差用mIoU衡量生成视频中物体形状和位置与参考视频的匹配程度。在量化比较的结果中LiVER在几乎所有指标上都取得了优异的表现。以视频质量为例LiVER的FVD得分为32.56而VideoFrom3D为36.94CameraCtrl为48.03MotionCtrl为63.13。FID方面LiVER以129.56的成绩优于VideoFrom3D的157.89而CameraCtrl和MotionCtrl的FID则分别高达98.29和97.21这两个方法只生成16帧和LiVER生成的完整81帧版本对比时LiVER的对应16帧版本FID为42.32远低于它们。CLIP相似度上LiVER达到了30.97高于所有对比方法。在控制精度方面LiVER的摄像机轨迹误差ATE2.48RPEt0.71RPEr0.50显著低于VideoFrom3DATE17.55RPEt3.85RPEr3.12也低于CameraCtrlATE2.15RPEt1.39RPEr1.68。光照误差方面LiVER的SI-MSE为0.04优于其他所有方法均为0.05、0.06或0.07。布局准确度上LiVER的mIoU为0.87高于VideoFrom3D的0.74和CameraCtrl的0.68。研究团队还专门进行了用户调研邀请了25名参与者对四种方法生成的视频进行主观评价每人评价20组视频分别在视频质量、场景控制、摄像机控制、光照控制四个维度上选出他们认为最好的方法。结果显示LiVER在视频质量维度获得83.4%的偏好率场景控制维度获得83.3%摄像机控制维度获得72.1%光照控制维度获得59.3%。相比之下VideoFrom3D在摄像机控制和光照控制维度上表现相对较好24.1%和29.0%但仍远低于LiVER。**九、消融实验如果缺少某个关键步骤会怎样**为了验证LiVER框架中每个关键设计的必要性研究团队做了两组如果去掉这个部分会怎样的实验。第一组实验验证的是合成数据集的重要性。研究团队训练了一个只用真实视频数据LiVER-Real的对照模型不加入任何合成数据。结果发现这个模型生成的视频光照效果几乎是平坦均匀的无法重现动态变化的光源效果。这个结果说明真实世界视频中的光照变化相对有限大多数实景拍摄的光照条件相对稳定而合成数据集中大幅旋转的光源提供了真实数据无法覆盖的光照多样性对模型学会控制光照是必不可少的。第二组实验验证的是三阶段训练策略的重要性。研究团队训练了一个从头开始、端到端训练所有模块的对照模型没有经过分阶段的逐步引入。结果发现这个模型生成的视频出现了严重的问题视频几乎是静止的物体几乎不动场景控制能力也大幅下降。这个结果说明同时学习如何生成高质量视频和如何响应场景代理控制这两件事对于模型来说优化难度过高很容易陷入局部最优。分阶段训练让模型能够先巩固视频生成能力再逐步学习场景控制从而避免了灾难性遗忘的问题。**十、LiVER能做什么真的有用吗**除了比较性能数字LiVER在实际应用中展示出了几个令人印象深刻的能力。在光照控制方面通过简单地旋转HDR环境贴图可以生成一段光源方向持续变化的视频比如太阳从场景左侧缓缓移动到右侧随着光源方向的变化金属表面的高光位置跟着移动阴影方向也跟着转变整个过程自然流畅场景的几何形状和材质属性始终保持稳定不变。这种光照变化、其余一切不动的精确控制能力在现有视频生成工具中是几乎做不到的。在布局和摄像机控制方面通过场景代理中包含的几何信息LiVER能够比只依赖2D图像的对照方法更精确地控制场景中物体的相对位置以及摄像机的运动轨迹。这对于需要特定摄影构图效果的应用场景比如广告拍摄或电影分镜制作尤其有价值。在灵活编辑方面LiVER设计了一个开放的工作流程智能体自动生成的初始3D场景并不是一个固定不变的黑盒子而是可以被用户导入到标准3D软件中进行二次编辑的。用户可以在Blender中添加或删除物体、调整光照方向和颜色、设计全新的摄像机运动轨迹然后重新渲染出新的场景代理再送给LiVER生成新的视频。这种AI自动起草、人类精细调整的混合工作流程可以兼顾效率和创作自由度。**说到底LiVER意味着什么**归根结底LiVER做的事情是把影视特效工业中已经成熟使用了几十年的物理渲染技术与最新的AI视频生成技术结合在了一起。物理渲染引擎负责保证光照的物理正确性AI视频生成模型负责填充细节、提升画质、让生成内容看起来更加逼真自然。两者各司其职互相补足。这对于想要制作高质量视频内容的普通人来说意味着什么呢以前要制作一段有精确光照控制的视频你需要掌握Blender、Maya这样的专业3D软件还要懂得如何设置材质、光源和渲染参数学习曲线非常陡峭。有了LiVER这样的工具用户只需要用自然语言描述你想要的场景和光照效果系统会自动完成大部分繁琐的3D工作最终给你一段物理上准确、视觉上精美的视频。当然这篇研究也坦诚地指出了当前的局限性LiVER使用的3D场景重建比较粗略场景中的精细几何细节和材质信息仍然需要依赖AI根据文字描述来补充推断。这意味着最终视频的某些几何细节比如复杂的建筑结构或精细的植物叶片可能与用户期望不完全一致。研究团队表示未来会通过改进场景重建的精度和优化文字提示的解读能力来进一步提升效果。这项研究的完整细节可以通过arXiv编号2604.07966查阅如果你对AI视频生成、计算机图形学或影视制作技术有进一步的好奇心不妨去看看原始论文里面有更多技术细节的数学推导和可视化比较结果。---QAQ1LiVER生成的视频和普通AI视频生成工具有什么本质区别A普通AI视频生成工具主要靠学习大量视频数据来模仿真实世界的样子对光照的处理是猜测而非计算所以经常出现光影不一致的问题。LiVER的根本区别在于它引入了物理渲染引擎先用Blender按照真实光学规律计算出正确的光照效果生成包含漫反射、粗糙GGX和光泽GGX三种光照图像的场景代理再把这些物理准确的信息作为引导输入AI视频生成模型。用户还能单独控制光照方向、物体布局和摄像机轨迹三个参数而不会互相干扰。Q2LiVERSet数据集和普通视频数据集有什么不同A普通视频数据集只有视频本身没有附带物理标注。LiVERSet的特别之处在于它为每段视频都配备了完整的物理注释包括场景几何3D网格模型、全局光照HDR环境贴图、摄像机位姿和文字描述。它由两部分组成LiVER-Real是从真实视频中通过自动化流程提取这些标注的LiVER-Syn是完全在计算机中合成的包含了旋转光源等真实拍摄难以实现的动态光照场景。整个数据集共约11000段视频分辨率720×1280每段81帧。Q3LiVER的三阶段训练为什么不能直接一步到位A如果同时训练所有模块模型需要在生成高质量视频和响应场景代理控制信号这两个目标之间同时取得进展这个优化难度太高实验证明会导致视频几乎静止不动、场景控制能力严重退化。三阶段训练的逻辑是第一阶段冻结视频生成模型只训练新加入的场景代理编码器和适配器让它们先学会读懂场景代理第二阶段加入LoRA微调让视频生成模型学会响应控制第三阶段混入合成数据扩展光照多样性。循序渐进地引入新能力避免了灾难性遗忘问题。