清华开源空间智能模型：能记住120分钟视频，比Gemini还懂空间

一句话结论： 清华大学开源了一个叫Spatial-TTT的模型，它能在看视频的过程中不断学习、更新对周围空间的记忆，就像人走路时记住房间布局一样。这个模型只有20亿参数（很小），却能在空间理解测试中打败谷歌的Gemini等大模型，还能处理最长2小时的视频。这意味着未来的机器人、自动驾驶、AR眼镜等设备，可能会更聪明地理解动态变化的世界。

为什么空间智能这么难？

想象你戴着AR眼镜走进一个商场，眼镜需要记住你走过的路线、每个店铺的位置，即使你转身或物体被遮挡，它也要知道哪里是哪里。这不是看一张照片就能解决的，因为相机会移动、视角会变化、目标时隐时现。

传统方法要么把整段视频一次性塞进模型（这会超出模型容量），要么模型只是“看”每一帧，却记不住前后联系。而我们的做法更像人：边走边记，边记边修正。

Spatial-TTT是怎么做到的？

研究团队提出了一种“边看边更新”的机制，叫TTT（Test-Time Training，即模型在运行时不断更新自己的内部参数）。它不像普通模型那样把所有视频帧都存起来，而是把记忆压缩到自己的“参数”里，每次看到新画面就更新一次记忆。

具体有三个关键设计：

混合架构：一部分层专门负责记住长期信息，另一部分层保持原有的理解能力，两不耽误。
空间预测：模型不光看单个点，还看点和点之间的位置关系（比如物体A在物体B的左边），这样记忆更稳。
密集描述训练：训练数据不再是简单的“桌上有几个苹果”这种短问题，而是要求模型描述整个房间的布局，迫使它记住全局。

实际效果有多强？

在多个权威测试中，仅有2B参数的Spatial-TTT（2B参数模型）超过了GPT-5、Gemini-3-pro等闭源模型。例如在MindCube-Tiny测试中，准确率76.2%，而Gemini只有63.9%。

更厉害的是长视频能力：它能处理120分钟的视频，传统模型要么崩溃，要么直接内存不足。

这对普通人意味着什么？

以后你的扫地机器人不会在一个房间里反复撞墙；自动驾驶汽车能记住路口的复杂结构；AR眼镜能告诉你“你身后的第三家店有打折”。这些场景都依赖于“空间智能”——而清华的这个模型，正朝这个方向迈出了重要一步。