## Netflix发布VOID视频模型：不止擦除物体，更能“重写”物理现实
视频编辑的核心挑战不再是填补空白，而是重构因果。当现有模型能轻易抹去一个物体时，Netflix的研究团队提出了一个更根本的问题：如果那个物体从一开始就不存在，整个物理世界会如何演变？移除一排多米诺骨牌中的几块，后续骨牌不应继续倒下；抹去转动陀螺的手，陀螺应保持旋转而非静止。这要求模型具备因果推理能力，而不仅仅是像素修补。

为此，Netflix与合作者推出了“视频目标与交互删除”（VOID）框架。该框架基于智谱的CogVideoX模型构建，并引入了三项核心创新：利用物理仿真引擎构建反事实数据集、采用交互感知的“四值掩码”条件化策略，以及借助视觉-语言模型在推理时自动识别受影响的物理区域。VOID不仅移除指定物体，还能对其消失后引发的物理连锁反应进行合理建模与生成。

在人类偏好评估中，VOID以64.8%的比例被选为最佳结果，远超第二名Runway的18.4%。更重要的是，它展现了对未见物理效果的泛化能力，例如“移除拿气球的熊后，气球会飘走”或“移除按下搅拌机按钮的人后，搅拌机不会启动”。这表明VOID并非简单记忆数据，而是学会了利用底层模型的物理直觉进行推理。这项研究标志着视频编辑模型向“世界模拟器”迈出了关键一步，其影响可能深远触及影视后期、内容审核乃至合成数据生成等多个领域。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 视频生成, 物理模拟, 因果推理, CogVideoX
- **Credibility**: unverified
- **Published**: 2026-04-07 23:59:34
- **ID**: 53996
- **URL**: https://whisperx.ai/en/intel/53996