NVFi:利用多视图视频对 3D 场景动态进行建模的创新方法

这篇 AI 论文介绍了一种使用多视图视频对 3D 场景动态进行建模的突破性方法

NVFi 正在应对理解和预测随时间变化的 3D 场景动态的复杂挑战。 此任务对于增强现实 (AR)、游戏和电影摄影等应用至关重要。 现有的计算模型无法学习多视图视频的属性。 虽然人类可以轻松掌握这些场景的物理、几何和其他方面的知识,但他们却很难完成这项任务。 问题在于,当前的方法(例如神经辐射及其衍生物)无法从学习的物理规则中预测和提取未来的运动。 NVFi 旨在通过合并仅源自多视图视频帧的解缠结速度场来缩小这一差距,这是以前的框架中尚未探索过的壮举。

动态自然 3D 场景带来了巨大的计算挑战。 神经辐射场技术的最新进展显示出在观察的时间范围内插入视图的非凡能力,但它们无法学习物体速度等明确的物理特征。 这种限制阻碍了他们准确预测未来运动模式的能力。 将物理学整合到神经模型中的研究显示出重建场景几何形状和外观场以及速度、粘度和速度的前景。 然而,这些物理属性通常相互交织或需要额外的前景分割,这限制了它们的可转移性。 NVFi 的开创性目标是理解和解开整个 3D 场景中的速度场。 这将使他们能够发展出超出训练观察范围的预测能力。

香港理工大学的研究人员开发了一个名为 NVFi 的框架,它由三个基本组件组成。 关键帧动态辐射率 (KDR) 字段用于了解 3D 中每个点的时间相关密度和外观。 第二个帧间速度场用于捕获每个点的时间相关 3D 速度。 最后,训练过程通过涉及关键帧和帧间组件的联合优化方法来协调,并通过物理信息约束进行增强。 该框架在采用动态辐射场的时间相关 NeRF 架构模型时具有灵活性,同时使用相对简单的神经网络架构(例如速度场的 MLP)。 第三个组成部分是核心创新,因为它将联合优化策略与特定损失函数相结合,能够学习解开的速度场,而无需特定于对象的掩模或附加信息。

来源和详细信息:
https://www.marktechpost.com/2023/12/16/this-ai-paper-introduces-a-groundbreaking-method-for-modeling-3d-scene-dynamics-using-multi-view-videos/