为计算机视觉 Ph.D. 研究构建知识体系
在准备计算机视觉、自动驾驶和具身感知方向的 Ph.D. 申请时,我越来越清楚地意识到:真正有生命力的研究想法,必须建立在宽而系统的知识基础之上。
我目前关注的研究问题包括三维感知、语义占用预测、协同感知和占用世界模型。这些问题并不属于某一个孤立方向,而是连接了数学、机器学习、深度学习、计算机视觉、计算机图形学、机器人、强化学习、自动驾驶和 AI Agent。
这篇文章是我为 Ph.D. 研究准备建立的知识体系路线图。它不是一个固定课程表,而是一张长期使用的认知地图,帮助我把理论、算法、系统和研究问题连接起来。
1. 数学基础
数学是机器学习、视觉、图形学、机器人和自动驾驶共同的语言。我的目标不只是会用公式,而是理解数学工具如何解释模型行为、优化稳定性、几何推理和不确定性。
1.1 矩阵论与线性代数
矩阵论对于注意力机制、优化、几何变换和三维视觉非常重要。我需要系统复习向量空间、基、维数、秩、零空间、子空间、正交投影、最小二乘、特征值、特征向量、谱分解、SVD、正定矩阵、半正定矩阵、矩阵范数、条件数、块矩阵、Schur 补以及矩阵微积分。
这些概念会直接出现在我的研究中,例如 token merging 中的低秩结构、BEV 表示中的空间变换、多智能体特征对齐以及 Transformer 中的注意力计算。
1.2 数值分析
数值分析帮助我理解算法为什么稳定、为什么不稳定,以及为什么同一个理论方法在实际训练或部署中会表现不同。浮点误差、病态问题、收敛性、迭代法、数值优化、插值、近似、数值微分和积分,都会影响深度模型训练和嵌入式部署。
对于感知系统而言,数值分析也能解释梯度爆炸、优化震荡、混合精度训练误差和 GPU 部署中的精度问题。
1.3 概率统计
概率是感知、不确定性估计、传感器融合、占用预测和世界模型的基础。我需要掌握随机变量、分布、期望、方差、协方差、贝叶斯公式、最大似然估计、MAP、KL 散度、熵、交叉熵、假设检验、蒙特卡洛估计和校准等内容。
在语义占用预测中,模型并不只是输出一个确定标签。遮挡区域、远距离区域、动态目标和多智能体通信误差都需要不确定性建模。
1.4 优化
深度神经网络训练本质上是优化问题。我需要理解 SGD、Momentum、Adam、AdamW、学习率调度、warmup、cosine decay、正则化、约束优化、KKT 条件、Hessian、曲率、鞍点、sharp/flat minima 以及数值稳定技巧。
这些知识对构建稳定的三维感知、Transformer、占用预测和多智能体系统非常关键。
2. 机器学习基础
在进入高级视觉系统之前,我需要扎实掌握机器学习基础,包括监督学习、经验风险最小化、偏差-方差权衡、线性回归、逻辑回归、SVM、核方法、决策树、随机森林、Boosting、聚类、GMM、EM、概率图模型、贝叶斯学习、模型选择、正则化和交叉验证。
统计学习理论也很重要。泛化误差、VC 维、Rademacher 复杂度、分布偏移、域偏移、OOD 检测和鲁棒性,都是自动驾驶模型能否跨场景、天气、传感器和城市泛化的关键。
现代深度学习依赖表示学习。我需要理解不变性、等变性、对比学习、InfoNCE、自监督学习、MAE、DINO、信息瓶颈、CNN 和 Transformer 的归纳偏置,以及多模态表示学习。
这些内容都和我的 token 化三维场景表示、协同感知和通信高效表示学习直接相关。
3. 深度学习
深度学习是现代计算机视觉和自动驾驶感知的核心技术基础。
我需要系统复习 MLP、激活函数、CNN、归一化方法、残差连接、Dropout、随机深度以及分类、分割、检测和密集预测损失。
Transformer 是当前视觉、三维感知和多智能体感知的核心架构之一。我需要深入理解 scaled dot-product attention、多头注意力、位置编码、RoPE、encoder、decoder、cross-attention、ViT、patch embedding、高效注意力、稀疏注意力、token pruning、token selection 和 token merging。
这些概念和我的研究高度相关:BEV token、时空记忆、通信 token 合并以及协同占用预测都离不开 Transformer 的表示能力。
4. 计算机视觉
计算机视觉提供了感知系统的核心基础。我计划系统学习图像形成、相机模型、滤波、边缘、角点、特征描述子、单应性、图像配准、光流、目标识别、图像分割、跟踪和视频理解。
对于自动驾驶和三维感知,多视几何尤为重要。我需要掌握针孔相机模型、内参、外参、坐标变换、SE(3)、极线几何、基础矩阵、本质矩阵、三角化、bundle adjustment、PnP 和深度估计。
三维场景表示包括点云、体素、BEV、mesh、隐式场、occupancy field、SDF、Gaussian Splatting 和神经场景表示。这一部分连接了视觉、图形学和三维世界建模。
5. 图形学、强化学习与具身智能
计算机图形学对于三维几何、渲染、仿真和神经场景表示越来越重要。坐标变换、网格、光栅化、z-buffer、光线追踪、材质、纹理映射和可微渲染,都是理解三维视觉和仿真的基础。
强化学习虽然不是我的主要研究方向,但它帮助我理解智能体如何把感知连接到决策。MDP、动态规划、Monte Carlo、TD learning、Q-learning、policy gradient、actor-critic、model-based RL、offline RL 和 multi-agent RL,都是理解 embodied agent 的重要工具。
AI Agent 和具身智能则把感知、记忆、规划和行动统一起来。对我而言,重点是其中的感知和世界建模层:智能体如何建立空间记忆,如何预测未来状态,如何在不完整观测下做出可靠决策。
6. 自动驾驶感知与协同感知
我的主要研究方向位于自动驾驶感知和三维场景理解。
BEV 表示和传感器融合是基础。early fusion、middle fusion、late fusion、camera-only BEV、LiDAR-camera fusion、lift-splat、cross-attention lifting、temporal alignment 和 ego-motion compensation 都需要系统理解。
语义占用预测是我的核心兴趣之一。它不仅预测当前场景中的 occupied/free/semantic 状态,也可以扩展到 future occupancy forecasting 和 occupancy world models。
协同感知引入多智能体推理和通信约束。关键问题包括:什么信息值得通信?什么时候通信?和谁通信?如何对齐并融合接收到的信息?在带宽受限的情况下,token selection、token merging、量化、剪枝和 task-aware communication 都非常重要。
7. 总结
这套知识体系的目标不是收集孤立知识点,而是帮助我建立研究能力。
对每个主题,我希望自己能够做到:
- 清楚定义概念;
- 解释它为什么重要;
- 把它和我的研究问题连接起来;
- 实现代表性算法;
- 阅读并批判相关论文。
研究不是记住很多方法,而是能在不同领域之间建立联系。这套知识体系就是我从数学、机器学习、视觉、图形学、自动驾驶到具身智能之间建立连接的开始。
Enjoy Reading This Article?
Here are some more articles you might like to read next: