## 总结 ### 4D VGGT 基本来说还是依赖于 Easi3R 的 mask 策略。其实目前两篇文章都还比较 naive。 ## PAGE-4D: DISENTANGLED POSE AND GEOMETRY ESTIMATION FOR 4D PERCEPTION  作者用这张图说明了一件事情:在这个对极几何中(假设所有的运动都是刚性的),**运动为动态场景下的几何估计提供了关键线索,但同时也由于破坏静态对极约束而对相机位姿估计造成干扰**,如图 2(a) 所示。换言之,**用于重建动态物体的信号,恰恰也是阻碍可靠位姿恢复的因素** 补充说明一下对极几何:[对极几何](https://www.cnblogs.com/clarenceliang/p/6704970.html) 接下来作者这一段推导我觉得是很好的,但是后面的方法却没有很好的考虑这些东西。也有可能是太难了。 首先作者给出了在静态场景下: $$ x_t= K [R_{t \leftarrow r} D_{r}(x_r) K^{-1} x_r + t_{t \leftarrow r}] $$ 其中 $t$ 代表 target frame,$r$ 代表 reference frame。$x_{t/r}$ 为齐次像素坐标,$K$ 为相机参数,$t_{t \leftarrow r}$ 是从 reference frame 的相机坐标中心到 target frame 的相机坐标中心的偏移向量。$D_r$ 代表 reference frame 的深度。$R$ 为 Rotation Matrix。 这个式子说明了经典的刚性场景几何假设:一旦深度与相机运动已知,跨帧像素对应关系即可无歧义地预测。 在 VGGT 中,由于相对相机运动的集中性,位姿估计往往可简化为对本质矩阵 $E$ 的拟合,从而在齐次像素坐标之间施加对极约束。 $$ \widetilde{x_t}^T E \widetilde{x_r} = 0, E = [t_{t \leftarrow r}] \times R_{t \leftarrow r} $$ 在静态场景中,对于所有未被遮挡的像素对上述几何关系与对极约束均成立。因此,在同一帧内对camera token 与geometry token 进行联合优化是一种合理的设计选择。 之后在动态场景下: $$ x_t= K [R_{t \leftarrow r} D_{r}(x_r) K^{-1} x_r + t_{t \leftarrow r}] + KM_{t \leftarrow r} $$ 只需要在 $(1)$ 式的基础上考虑物体运动:$M_{t \leftarrow r}$ 表示由物体运动引起的位移。 然而,在存在动态运动时,用于位姿估计的对极约束(式 2)不再成立,其违背可表示为如下残差: $$ \delta(x_r) \equiv \tilde{x}_t^{\top} E \tilde{x}_r \approx \frac{1}{Z_r}\, n(x_r)^{\top} \Delta X_{\perp}(x_r) $$ 其中,$n(x_r)$ 为与 $x_r$ 关联的对极线单位法向量,$\Delta X_\perp(x_r)$ 为动态位移在该法向方向上的分量。该残差刻画了动态运动将像素对应关系“推离”由相机运动预测的对极几何的程度。残差越大,静态场景假设的违背越严重,从而导致更大的位姿估计误差。 式 (4) 表明,在动态场景中,仅有静态的未遮挡像素对 $(x_r^{\text{sta}}, x_t^{\text{sta}})$满足对极约束,而一般的未遮挡像素对仅满足几何关系(式 3)。 结果作者就把这个作为一个理论分析,告诉大家要遮掩 motion 保留 static 部分,这一大段分析就没有别的用了。 尔后作者就弄了一个 soft mask,并且施加给 attention。当然由于 soft mask 是一个卷积块给出的,因此作者是 Fine-Tuning 了 **Middle Layer**。注意这里就非常有说法了,与后面的 VGGT4D 主张在浅层、中间层和深层做不同的事情是有比较大的出入的。 ## VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction 先记录一下两条比较冲突的 advocation: - Moreover, its core assumption that tokens violating epipolar geometry receive low attention does not generalize to VGGT, whose global attention aggregates signals across multiple views. - Our design is motivated by empirical evidence of a consistent layer-wise trend in the original VGGT: shallow transformer layers capture salient motion information, which gradually fade in deeper layers. 其他的做法就跟 Easi3R 差不太多了。不过一个比较迷惑的事情是,看起来他们的 mask 并不非常精确。应该说可能可以有一个比较大的改进。 Loading... ## 总结 ### 4D VGGT 基本来说还是依赖于 Easi3R 的 mask 策略。其实目前两篇文章都还比较 naive。 ## PAGE-4D: DISENTANGLED POSE AND GEOMETRY ESTIMATION FOR 4D PERCEPTION  作者用这张图说明了一件事情:在这个对极几何中(假设所有的运动都是刚性的),**运动为动态场景下的几何估计提供了关键线索,但同时也由于破坏静态对极约束而对相机位姿估计造成干扰**,如图 2(a) 所示。换言之,**用于重建动态物体的信号,恰恰也是阻碍可靠位姿恢复的因素** 补充说明一下对极几何:[对极几何](https://www.cnblogs.com/clarenceliang/p/6704970.html) 接下来作者这一段推导我觉得是很好的,但是后面的方法却没有很好的考虑这些东西。也有可能是太难了。 首先作者给出了在静态场景下: $$ x_t= K [R_{t \leftarrow r} D_{r}(x_r) K^{-1} x_r + t_{t \leftarrow r}] $$ 其中 $t$ 代表 target frame,$r$ 代表 reference frame。$x_{t/r}$ 为齐次像素坐标,$K$ 为相机参数,$t_{t \leftarrow r}$ 是从 reference frame 的相机坐标中心到 target frame 的相机坐标中心的偏移向量。$D_r$ 代表 reference frame 的深度。$R$ 为 Rotation Matrix。 这个式子说明了经典的刚性场景几何假设:一旦深度与相机运动已知,跨帧像素对应关系即可无歧义地预测。 在 VGGT 中,由于相对相机运动的集中性,位姿估计往往可简化为对本质矩阵 $E$ 的拟合,从而在齐次像素坐标之间施加对极约束。 $$ \widetilde{x_t}^T E \widetilde{x_r} = 0, E = [t_{t \leftarrow r}] \times R_{t \leftarrow r} $$ 在静态场景中,对于所有未被遮挡的像素对上述几何关系与对极约束均成立。因此,在同一帧内对camera token 与geometry token 进行联合优化是一种合理的设计选择。 之后在动态场景下: $$ x_t= K [R_{t \leftarrow r} D_{r}(x_r) K^{-1} x_r + t_{t \leftarrow r}] + KM_{t \leftarrow r} $$ 只需要在 $(1)$ 式的基础上考虑物体运动:$M_{t \leftarrow r}$ 表示由物体运动引起的位移。 然而,在存在动态运动时,用于位姿估计的对极约束(式 2)不再成立,其违背可表示为如下残差: $$ \delta(x_r) \equiv \tilde{x}_t^{\top} E \tilde{x}_r \approx \frac{1}{Z_r}\, n(x_r)^{\top} \Delta X_{\perp}(x_r) $$ 其中,$n(x_r)$ 为与 $x_r$ 关联的对极线单位法向量,$\Delta X_\perp(x_r)$ 为动态位移在该法向方向上的分量。该残差刻画了动态运动将像素对应关系“推离”由相机运动预测的对极几何的程度。残差越大,静态场景假设的违背越严重,从而导致更大的位姿估计误差。 式 (4) 表明,在动态场景中,仅有静态的未遮挡像素对 $(x_r^{\text{sta}}, x_t^{\text{sta}})$满足对极约束,而一般的未遮挡像素对仅满足几何关系(式 3)。 结果作者就把这个作为一个理论分析,告诉大家要遮掩 motion 保留 static 部分,这一大段分析就没有别的用了。 尔后作者就弄了一个 soft mask,并且施加给 attention。当然由于 soft mask 是一个卷积块给出的,因此作者是 Fine-Tuning 了 **Middle Layer**。注意这里就非常有说法了,与后面的 VGGT4D 主张在浅层、中间层和深层做不同的事情是有比较大的出入的。 ## VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction 先记录一下两条比较冲突的 advocation: - Moreover, its core assumption that tokens violating epipolar geometry receive low attention does not generalize to VGGT, whose global attention aggregates signals across multiple views. - Our design is motivated by empirical evidence of a consistent layer-wise trend in the original VGGT: shallow transformer layers capture salient motion information, which gradually fade in deeper layers. 其他的做法就跟 Easi3R 差不太多了。不过一个比较迷惑的事情是,看起来他们的 mask 并不非常精确。应该说可能可以有一个比较大的改进。 最后修改:2026 年 01 月 11 日 © 允许规范转载 打赏 赞赏作者 支付宝微信 赞 如果觉得我的文章对你有用,请随意赞赏