计算机视觉基础
计算机视觉是我 Ph.D. 准备的核心基础。我的研究兴趣包括三维感知、语义占用预测、协同感知和占用世界模型,这些方向都离不开视觉表示、几何推理和场景理解。
这篇笔记整理计算机视觉中对我最重要的基础内容。
1. 视觉问题的层次
计算机视觉试图让机器从图像、视频或三维观测中理解世界。输出可能是类别、检测框、分割 mask、深度图、三维重建、占用网格或未来场景预测。
视觉问题可以分为多个层次:
- 低层视觉:滤波、边缘、角点、纹理、光流;
- 中层视觉:分割、匹配、跟踪、形状;
- 高层视觉:识别、检测、语义理解;
- 三维视觉:深度、姿态、重建、占用;
- 动态视觉:视频理解、运动估计、未来预测。
现代深度学习把很多步骤端到端学习,但经典视觉概念仍然重要,因为它们解释了数据背后的几何和物理结构。
2. 图像形成与相机模型
相机模型是视觉几何的起点。针孔相机模型描述三维点如何投影到二维图像:
\[s \begin{bmatrix} u \\ v \\ 1 \end{bmatrix} = K [R|t] \begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix}.\]这里 (K) 是内参矩阵,(R,t) 是外参。理解投影、畸变、齐次坐标、相机坐标系、世界坐标系和 ego 坐标系,对于自动驾驶感知非常关键。
BEV perception 和 occupancy prediction 都需要把图像信息从相机视角转换到三维空间或鸟瞰图空间。
3. 经典视觉特征
经典视觉方法包括:
- 边缘检测;
- Harris 角点;
- SIFT;
- HOG;
- ORB;
- 图像匹配;
- RANSAC;
- 单应性估计;
- optical flow。
这些方法虽然不再是大多数 SOTA 系统的主干,但它们提供了重要思想:局部不变性、几何一致性、鲁棒估计和运动建模。
这些思想在现代模型中仍然存在,只是被神经网络表示吸收了。
4. 多视几何
多视几何是三维视觉的核心。
重要概念包括:
- 极线几何;
- fundamental matrix;
- essential matrix;
- triangulation;
- stereo matching;
- PnP;
- bundle adjustment;
- SE(3) 变换;
- pose graph。
对于协同感知,多视几何不仅发生在多相机之间,也发生在多智能体之间。不同车辆或传感器的特征必须对齐到统一坐标系,位姿误差会直接影响融合效果。
这也是为什么我需要把几何和深度学习一起学习。
5. 深度估计与三维重建
深度估计是从图像恢复三维结构的重要任务,包括:
- monocular depth;
- stereo depth;
- multi-view stereo;
- self-supervised depth;
- depth completion;
- LiDAR-camera fusion。
单目深度本质上存在尺度和歧义,多视角深度依赖几何约束,LiDAR 可以提供稀疏但准确的三维观测。
自动驾驶中的三维感知通常需要结合语义和几何,不只是估计 depth,还要理解空间中每个区域的类别和状态。
6. 三维场景表示
常见三维表示包括:
- 点云;
- 体素;
- BEV;
- mesh;
- implicit field;
- occupancy field;
- signed distance function;
- Gaussian Splatting;
- object-centric representation。
不同表示有不同优缺点。点云稀疏但几何明确,体素规则但计算量大,BEV 适合自动驾驶规划,隐式场适合连续几何,occupancy 则适合描述 free/occupied/semantic space。
我的研究重点是语义占用和 token 化 BEV/3D 表示,因为它们既适合感知,也适合下游规划和通信。
7. 自动驾驶与具身感知
自动驾驶视觉系统需要在动态、安全关键环境中工作。它不只是识别图像,而是要建立可用于决策的空间表示。
关键任务包括:
- 目标检测;
- 语义分割;
- 深度估计;
- BEV perception;
- 3D detection;
- semantic occupancy;
- motion forecasting;
- planning-oriented perception;
- collaborative perception。
具身智能也需要类似能力。智能体必须理解空间、记忆过去、预测未来,并根据感知结果行动。
8. 总结
计算机视觉基础帮助我理解三维感知系统的结构。
我需要把经典几何、现代深度学习和自动驾驶任务结合起来,而不是只学习孤立算法。最终目标是构建可靠、高效、可解释的三维场景理解系统。
Enjoy Reading This Article?
Here are some more articles you might like to read next: