VGGT for 4D Task: A simple survey

## 总结

### 4D VGGT

基本来说还是依赖于 Easi3R 的 mask 策略。其实目前两篇文章都还比较 naive。

## PAGE-4D: DISENTANGLED POSE AND GEOMETRY  ESTIMATION FOR 4D PERCEPTION

![image](https://img.tony102.com/i/2026/01/11/k7vfek.png)

作者用这张图说明了一件事情：在这个对极几何中（假设所有的运动都是刚性的），**运动为动态场景下的几何估计提供了关键线索，但同时也由于破坏静态对极约束而对相机位姿估计造成干扰**，如图 2(a) 所示。换言之，**用于重建动态物体的信号，恰恰也是阻碍可靠位姿恢复的因素**

补充说明一下对极几何：[对极几何](https://www.cnblogs.com/clarenceliang/p/6704970.html)

接下来作者这一段推导我觉得是很好的，但是后面的方法却没有很好的考虑这些东西。也有可能是太难了。

首先作者给出了在静态场景下：
$$
x_t= K [R_{t \leftarrow r} D_{r}(x_r) K^{-1} x_r + t_{t \leftarrow r}]
$$
其中 $t$ 代表 target frame，$r$ 代表 reference frame。$x_{t/r}$ 为齐次像素坐标，$K$ 为相机参数，$t_{t \leftarrow r}$ 是从 reference frame 的相机坐标中心到 target frame 的相机坐标中心的偏移向量。$D_r$ 代表 reference frame 的深度。$R$ 为 Rotation Matrix。

这个式子说明了经典的刚性场景几何假设：一旦深度与相机运动已知，跨帧像素对应关系即可无歧义地预测。

在 VGGT 中，由于相对相机运动的集中性，位姿估计往往可简化为对本质矩阵 $E$ 的拟合，从而在齐次像素坐标之间施加对极约束。
$$
\widetilde{x_t}^T E \widetilde{x_r} = 0, E = [t_{t \leftarrow r}] \times R_{t \leftarrow r}
$$
在静态场景中，对于所有未被遮挡的像素对上述几何关系与对极约束均成立。因此，在同一帧内对camera token 与geometry token 进行联合优化是一种合理的设计选择。

之后在动态场景下：
$$
x_t= K [R_{t \leftarrow r} D_{r}(x_r) K^{-1} x_r + t_{t \leftarrow r}] + KM_{t \leftarrow r}
$$
只需要在 $(1)$ 式的基础上考虑物体运动：$M_{t \leftarrow r}$ 表示由物体运动引起的位移。

然而，在存在动态运动时，用于位姿估计的对极约束（式 2）不再成立，其违背可表示为如下残差：
$$
\delta(x_r) \equiv \tilde{x}_t^{\top} E \tilde{x}_r 
\approx \frac{1}{Z_r}\, n(x_r)^{\top} \Delta X_{\perp}(x_r)
$$
其中，$n(x_r)$ 为与 $x_r$ 关联的对极线单位法向量，$\Delta X_\perp(x_r)$ 为动态位移在该法向方向上的分量。该残差刻画了动态运动将像素对应关系“推离”由相机运动预测的对极几何的程度。残差越大，静态场景假设的违背越严重，从而导致更大的位姿估计误差。

式 (4) 表明，在动态场景中，仅有静态的未遮挡像素对 $(x_r^{\text{sta}}, x_t^{\text{sta}})$满足对极约束，而一般的未遮挡像素对仅满足几何关系（式 3）。

结果作者就把这个作为一个理论分析，告诉大家要遮掩 motion 保留 static 部分，这一大段分析就没有别的用了。

尔后作者就弄了一个 soft mask，并且施加给 attention。当然由于 soft mask 是一个卷积块给出的，因此作者是 Fine-Tuning 了 **Middle Layer**。注意这里就非常有说法了，与后面的 VGGT4D 主张在浅层、中间层和深层做不同的事情是有比较大的出入的。

## VGGT4D: Mining Motion Cues in Visual Geometry Transformers  for 4D Scene Reconstruction

先记录一下两条比较冲突的 advocation：

- Moreover, its core assumption that tokens violating epipolar geometry receive low attention does not generalize to VGGT, whose global attention aggregates signals across multiple views.
- Our design is motivated by empirical evidence of a consistent layer-wise trend in the original VGGT: shallow transformer layers capture salient motion information, which gradually fade in deeper layers.

其他的做法就跟 Easi3R 差不太多了。不过一个比较迷惑的事情是，看起来他们的 mask 并不非常精确。应该说可能可以有一个比较大的改进。