该研究依赖于预期违反(violation-of-expectation)框架来探测物理直觉理解,而无需任何特定任务的训练或适应。通过提示模型想象视频的未来(表示)并将其预测与实际观察到的视频的未来进行比较,可以获得一个定量的意外度量(measure of surprise),该度量可用于检测违反直观物理概念的情况。
这一范式已经扩展到评估 AI 系统的物理理解能力。类似于婴儿实验,向模型展示成对的场景,除了违反特定直觉物理概念的某个方面或事件外,两个场景的所有方面(物体属性、物体数量、遮挡物等)都保持相同。例如,一个球可能会滚到遮挡物后面,但在配对的视频中再也不会出现,从而测试物体持久性的概念。模型对不可能场景表现出更高的意外反应,反映了其对被违反概念的正确理解。
研究团队发现,V-JEPA 是唯一一个在所有数据集上都显著优于未训练网络的方法,在 IntPhys、GRASP 和 InfLevel-lab 上分别达到了 98%(95% CI [95%,99%])、66%(95% CI [64%,68%])、62%(95% CI [60%,63%])的平均准确率。这些结果表明,在学习到的表征空间中进行预测足以发展出对直觉物理的理解。这是在没有任何预定义抽象,且在预训练或方法开发过程中不知道基准的情况下实现的。
通过比较,该团队发现,VideoMAEv2、Qwen2-VL-7B 和 Gemini 1.5 pro 的性能仅略高于随机初始化模型。像素预测和多模态 LLM 的低性能证实了先前的一些发现。