AI 入门指北

清华开源空间智能模型:能记住120分钟视频,比Gemini还懂空间

2026-06-23

一句话结论: 清华大学开源了一个叫Spatial-TTT的模型,它能在看视频的过程中不断学习、更新对周围空间的记忆,就像人走路时记住房间布局一样。这个模型只有20亿参数(很小),却能在空间理解测试中打败谷歌的Gemini等大模型,还能处理最长2小时的视频。这意味着未来的机器人、自动驾驶、AR眼镜等设备,可能会更聪明地理解动态变化的世界。

为什么空间智能这么难?

想象你戴着AR眼镜走进一个商场,眼镜需要记住你走过的路线、每个店铺的位置,即使你转身或物体被遮挡,它也要知道哪里是哪里。这不是看一张照片就能解决的,因为相机会移动、视角会变化、目标时隐时现。

传统方法要么把整段视频一次性塞进模型(这会超出模型容量),要么模型只是“看”每一帧,却记不住前后联系。而我们的做法更像人:边走边记,边记边修正。

Spatial-TTT是怎么做到的?

研究团队提出了一种“边看边更新”的机制,叫TTT(Test-Time Training,即模型在运行时不断更新自己的内部参数)。它不像普通模型那样把所有视频帧都存起来,而是把记忆压缩到自己的“参数”里,每次看到新画面就更新一次记忆。

具体有三个关键设计:

  • 混合架构:一部分层专门负责记住长期信息,另一部分层保持原有的理解能力,两不耽误。
  • 空间预测:模型不光看单个点,还看点和点之间的位置关系(比如物体A在物体B的左边),这样记忆更稳。
  • 密集描述训练:训练数据不再是简单的“桌上有几个苹果”这种短问题,而是要求模型描述整个房间的布局,迫使它记住全局。

实际效果有多强?

在多个权威测试中,仅有2B参数的Spatial-TTT(2B参数模型)超过了GPT-5、Gemini-3-pro等闭源模型。例如在MindCube-Tiny测试中,准确率76.2%,而Gemini只有63.9%。

更厉害的是长视频能力:它能处理120分钟的视频,传统模型要么崩溃,要么直接内存不足。

这对普通人意味着什么?

以后你的扫地机器人不会在一个房间里反复撞墙;自动驾驶汽车能记住路口的复杂结构;AR眼镜能告诉你“你身后的第三家店有打折”。这些场景都依赖于“空间智能”——而清华的这个模型,正朝这个方向迈出了重要一步。