数学基础
数学是我准备计算机视觉 Ph.D. 研究时最需要长期打磨的基础。很多深度学习模型看起来是工程系统,但它们背后仍然由线性代数、概率、优化和数值计算支撑。
对我而言,学习数学不是为了追求形式上的完整,而是为了更好地理解三维感知、Transformer、语义占用预测、协同感知和世界模型中的核心问题。
1. 矩阵论与线性代数
线性代数是深度学习和计算机视觉的共同语言。向量、矩阵、张量、线性变换和子空间构成了神经网络表示的基本结构。
在视觉任务中,图像特征、BEV 特征、点云特征和 token 表示都可以看作高维向量或矩阵。注意力机制中的 (Q)、(K)、(V) 也是矩阵运算:
\[\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V.\]因此,我需要深入理解:
- 向量空间、基、维数和秩;
- 线性变换和坐标变换;
- 正交性、投影和最小二乘;
- 特征值、特征向量和谱分解;
- SVD 与低秩近似;
- 正定矩阵和半正定矩阵;
- 矩阵范数与条件数;
- 块矩阵、Schur 补和矩阵不等式;
- 矩阵微积分。
这些内容和我的研究直接相关。token merging 可以从低秩近似和信息压缩角度理解;多智能体感知中的坐标对齐依赖 SE(3) 变换;优化稳定性又和 Hessian、谱性质、条件数有关。
2. 数值分析
数值分析研究算法在有限精度计算中的稳定性和误差。深度学习论文中很少直接强调数值分析,但实际训练和部署离不开它。
我需要关注:
- 浮点表示与舍入误差;
- 稳定性、收敛性和条件数;
- 线性方程组求解;
- 最小二乘问题;
- Jacobi、Gauss-Seidel、共轭梯度等迭代法;
- 插值与近似;
- 数值微分和积分;
- ODE 求解和基本仿真方法。
在深度学习系统中,数值问题会表现为 loss 震荡、梯度爆炸、梯度消失、混合精度不稳定、NaN、推理误差放大等现象。
对于自动驾驶和嵌入式感知系统,数值稳定性尤其重要,因为模型不仅要在 GPU 上训练,还可能部署到资源受限平台。
3. 概率统计
感知系统面对的是不确定世界。遮挡、传感器噪声、远距离目标、天气变化、动态物体和通信误差都会引入不确定性。
因此,我需要扎实理解概率统计:
- 随机变量、PMF、PDF、CDF;
- 期望、方差、协方差;
- 高斯分布、伯努利分布、类别分布、泊松分布;
- 多元高斯和协方差结构;
- 条件概率和贝叶斯公式;
- MLE 与 MAP;
- KL 散度、JS 散度、熵和交叉熵;
- 假设检验和置信区间;
- Monte Carlo 估计;
- 不确定性估计与模型校准。
语义占用预测本质上是对空间状态的概率建模。每个 voxel 不一定只有一个确定标签,更现实的输出应当包含类别概率和置信度。对未来占用预测而言,不确定性更加重要,因为未来可能有多个合理分支。
4. 优化
神经网络训练是一个大规模非凸优化问题。即使模型结构很漂亮,如果优化不稳定,最终结果也很难可靠。
我需要理解:
- 梯度下降和反向传播;
- SGD、Momentum、Nesterov;
- Adam、AdamW 和自适应优化;
- warmup、cosine decay、step decay;
- weight decay、dropout、stochastic depth;
- 约束优化、Lagrange 方法和 KKT 条件;
- Hessian、曲率和鞍点;
- sharp minima 与 flat minima;
- log-sum-exp 等数值稳定技巧。
在三维感知和协同感知中,优化问题更复杂。模型可能包含 view transformation、temporal memory、multi-agent fusion、token selection 和 occupancy decoder。不同模块的梯度尺度不同,loss 设计也会影响模型关注的空间区域。
5. 与三维视觉的联系
数学不是独立课程,而是研究问题背后的结构。
在三维视觉中:
- 相机投影依赖矩阵和齐次坐标;
- 多视几何依赖线性代数和优化;
- 深度估计涉及概率和不确定性;
- occupancy prediction 需要 dense prediction loss;
- BEV 特征对齐依赖坐标变换;
- token communication 需要信息压缩和表示学习;
- world models 需要时序建模和未来状态分布。
如果只从工程角度看模型,很容易停留在“调参”和“堆模块”。数学基础能帮助我判断一个方法为什么有效、什么时候会失败,以及如何提出更本质的问题。
6. 学习目标
我希望自己学习数学时能够做到:
- 能用清楚语言解释概念;
- 能推导核心公式;
- 能实现代表性算法;
- 能把数学工具连接到视觉模型;
- 能在论文阅读中识别数学假设。
数学基础是慢变量。它不会立刻变成一个实验结果,但会长期影响我提出问题和理解问题的能力。
Enjoy Reading This Article?
Here are some more articles you might like to read next: