计算机视觉基础

计算机视觉是我 Ph.D. 准备的核心基础。我的研究兴趣包括三维感知、语义占用预测、协同感知和占用世界模型,这些方向都离不开视觉表示、几何推理和场景理解。

这篇笔记整理计算机视觉中对我最重要的基础内容。


1. 视觉问题的层次

计算机视觉试图让机器从图像、视频或三维观测中理解世界。输出可能是类别、检测框、分割 mask、深度图、三维重建、占用网格或未来场景预测。

视觉问题可以分为多个层次:

  • 低层视觉:滤波、边缘、角点、纹理、光流;
  • 中层视觉:分割、匹配、跟踪、形状;
  • 高层视觉:识别、检测、语义理解;
  • 三维视觉:深度、姿态、重建、占用;
  • 动态视觉:视频理解、运动估计、未来预测。

现代深度学习把很多步骤端到端学习,但经典视觉概念仍然重要,因为它们解释了数据背后的几何和物理结构。


2. 图像形成与相机模型

相机模型是视觉几何的起点。针孔相机模型描述三维点如何投影到二维图像:

\[s \begin{bmatrix} u \\ v \\ 1 \end{bmatrix} = K [R|t] \begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix}.\]

这里 (K) 是内参矩阵,(R,t) 是外参。理解投影、畸变、齐次坐标、相机坐标系、世界坐标系和 ego 坐标系,对于自动驾驶感知非常关键。

BEV perception 和 occupancy prediction 都需要把图像信息从相机视角转换到三维空间或鸟瞰图空间。


3. 经典视觉特征

经典视觉方法包括:

  • 边缘检测;
  • Harris 角点;
  • SIFT;
  • HOG;
  • ORB;
  • 图像匹配;
  • RANSAC;
  • 单应性估计;
  • optical flow。

这些方法虽然不再是大多数 SOTA 系统的主干,但它们提供了重要思想:局部不变性、几何一致性、鲁棒估计和运动建模。

这些思想在现代模型中仍然存在,只是被神经网络表示吸收了。


4. 多视几何

多视几何是三维视觉的核心。

重要概念包括:

  • 极线几何;
  • fundamental matrix;
  • essential matrix;
  • triangulation;
  • stereo matching;
  • PnP;
  • bundle adjustment;
  • SE(3) 变换;
  • pose graph。

对于协同感知,多视几何不仅发生在多相机之间,也发生在多智能体之间。不同车辆或传感器的特征必须对齐到统一坐标系,位姿误差会直接影响融合效果。

这也是为什么我需要把几何和深度学习一起学习。


5. 深度估计与三维重建

深度估计是从图像恢复三维结构的重要任务,包括:

  • monocular depth;
  • stereo depth;
  • multi-view stereo;
  • self-supervised depth;
  • depth completion;
  • LiDAR-camera fusion。

单目深度本质上存在尺度和歧义,多视角深度依赖几何约束,LiDAR 可以提供稀疏但准确的三维观测。

自动驾驶中的三维感知通常需要结合语义和几何,不只是估计 depth,还要理解空间中每个区域的类别和状态。


6. 三维场景表示

常见三维表示包括:

  • 点云;
  • 体素;
  • BEV;
  • mesh;
  • implicit field;
  • occupancy field;
  • signed distance function;
  • Gaussian Splatting;
  • object-centric representation。

不同表示有不同优缺点。点云稀疏但几何明确,体素规则但计算量大,BEV 适合自动驾驶规划,隐式场适合连续几何,occupancy 则适合描述 free/occupied/semantic space。

我的研究重点是语义占用和 token 化 BEV/3D 表示,因为它们既适合感知,也适合下游规划和通信。


7. 自动驾驶与具身感知

自动驾驶视觉系统需要在动态、安全关键环境中工作。它不只是识别图像,而是要建立可用于决策的空间表示。

关键任务包括:

  • 目标检测;
  • 语义分割;
  • 深度估计;
  • BEV perception;
  • 3D detection;
  • semantic occupancy;
  • motion forecasting;
  • planning-oriented perception;
  • collaborative perception。

具身智能也需要类似能力。智能体必须理解空间、记忆过去、预测未来,并根据感知结果行动。


8. 总结

计算机视觉基础帮助我理解三维感知系统的结构。

我需要把经典几何、现代深度学习和自动驾驶任务结合起来,而不是只学习孤立算法。最终目标是构建可靠、高效、可解释的三维场景理解系统。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • 围绕三维感知进一步明确 Ph.D. 研究方向
  • From Occupancy Prediction to Occupancy World Models