计算机视觉是我 Ph.D. 准备的核心基础。我的研究兴趣包括三维感知、语义占用预测、协同感知和占用世界模型，这些方向都离不开视觉表示、几何推理和场景理解。

这篇笔记整理计算机视觉中对我最重要的基础内容。

1. 视觉问题的层次

计算机视觉试图让机器从图像、视频或三维观测中理解世界。输出可能是类别、检测框、分割 mask、深度图、三维重建、占用网格或未来场景预测。

视觉问题可以分为多个层次：

低层视觉：滤波、边缘、角点、纹理、光流；
中层视觉：分割、匹配、跟踪、形状；
高层视觉：识别、检测、语义理解；
三维视觉：深度、姿态、重建、占用；
动态视觉：视频理解、运动估计、未来预测。

现代深度学习把很多步骤端到端学习，但经典视觉概念仍然重要，因为它们解释了数据背后的几何和物理结构。

2. 图像形成与相机模型

相机模型是视觉几何的起点。针孔相机模型描述三维点如何投影到二维图像：

\[s \begin{bmatrix} u \\ v \\ 1 \end{bmatrix} = K [R|t] \begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix}.\]

这里 (K) 是内参矩阵，(R,t) 是外参。理解投影、畸变、齐次坐标、相机坐标系、世界坐标系和 ego 坐标系，对于自动驾驶感知非常关键。

BEV perception 和 occupancy prediction 都需要把图像信息从相机视角转换到三维空间或鸟瞰图空间。

3. 经典视觉特征

经典视觉方法包括：

边缘检测；
Harris 角点；
SIFT；
HOG；
ORB；
图像匹配；
RANSAC；
单应性估计；
optical flow。

这些方法虽然不再是大多数 SOTA 系统的主干，但它们提供了重要思想：局部不变性、几何一致性、鲁棒估计和运动建模。

这些思想在现代模型中仍然存在，只是被神经网络表示吸收了。

4. 多视几何

多视几何是三维视觉的核心。

重要概念包括：

极线几何；
fundamental matrix；
essential matrix；
triangulation；
stereo matching；
PnP；
bundle adjustment；
SE(3) 变换；
pose graph。

对于协同感知，多视几何不仅发生在多相机之间，也发生在多智能体之间。不同车辆或传感器的特征必须对齐到统一坐标系，位姿误差会直接影响融合效果。

这也是为什么我需要把几何和深度学习一起学习。

5. 深度估计与三维重建

深度估计是从图像恢复三维结构的重要任务，包括：

monocular depth；
stereo depth；
multi-view stereo；
self-supervised depth；
depth completion；
LiDAR-camera fusion。

单目深度本质上存在尺度和歧义，多视角深度依赖几何约束，LiDAR 可以提供稀疏但准确的三维观测。

自动驾驶中的三维感知通常需要结合语义和几何，不只是估计 depth，还要理解空间中每个区域的类别和状态。

6. 三维场景表示

常见三维表示包括：

点云；
体素；
BEV；
mesh；
implicit field；
occupancy field；
signed distance function；
Gaussian Splatting；
object-centric representation。

不同表示有不同优缺点。点云稀疏但几何明确，体素规则但计算量大，BEV 适合自动驾驶规划，隐式场适合连续几何，occupancy 则适合描述 free/occupied/semantic space。

我的研究重点是语义占用和 token 化 BEV/3D 表示，因为它们既适合感知，也适合下游规划和通信。

7. 自动驾驶与具身感知

自动驾驶视觉系统需要在动态、安全关键环境中工作。它不只是识别图像，而是要建立可用于决策的空间表示。

关键任务包括：

目标检测；
语义分割；
深度估计；
BEV perception；
3D detection；
semantic occupancy；
motion forecasting；
planning-oriented perception；
collaborative perception。

具身智能也需要类似能力。智能体必须理解空间、记忆过去、预测未来，并根据感知结果行动。

8. 总结

计算机视觉基础帮助我理解三维感知系统的结构。

我需要把经典几何、现代深度学习和自动驾驶任务结合起来，而不是只学习孤立算法。最终目标是构建可靠、高效、可解释的三维场景理解系统。