机器学习是现代计算机视觉和自动驾驶感知系统的理论基础。深度学习虽然已经成为主流方法，但很多核心问题仍然来自机器学习：泛化、过拟合、表示、正则化、分布偏移和不确定性。

这篇笔记整理我在 Ph.D. 准备阶段需要长期复习的机器学习基础。

1. 监督学习与经验风险最小化

监督学习的基本形式是从输入 (x) 预测标签 (y)。模型 (f_\theta) 通过训练数据学习参数，使经验风险最小：

\[\min_\theta \frac{1}{N}\sum_{i=1}^N \ell(f_\theta(x_i), y_i).\]

这看似简单，但包含几个关键问题：

训练集能否代表真实分布？
损失函数是否和目标任务一致？
模型容量是否合适？
正则化如何影响泛化？
测试时分布变化怎么办？

在自动驾驶感知中，这些问题非常现实。训练数据可能来自有限城市、天气和传感器配置，而实际部署环境更加复杂。

2. 经典机器学习方法

我需要掌握的经典方法包括：

线性回归和逻辑回归；
支持向量机和核方法；
决策树、随机森林和 Boosting；
KNN；
聚类方法；
Gaussian Mixture Model；
EM 算法；
朴素贝叶斯；
概率图模型；
PCA 和降维方法。

这些方法不仅是历史基础，也提供了很多重要思想。例如，SVM 强调 margin，Boosting 强调组合弱学习器，GMM 和 EM 强调隐变量建模，PCA 强调低维结构。

这些思想在现代深度学习中仍然存在，只是形式变得更复杂。

3. 偏差、方差与泛化

机器学习的核心问题之一是泛化。训练误差低并不代表测试表现好。

偏差-方差权衡帮助我理解模型能力：

高偏差模型过于简单，容易欠拟合；
高方差模型过于灵活，容易过拟合；
正则化和数据增强可以降低过拟合风险；
更好的表示可以同时改善拟合和泛化。

在深度学习中，传统偏差-方差图像并不能完全解释所有现象，但它仍然是理解模型行为的起点。

对于自动驾驶，泛化不仅是测试集准确率，更是跨城市、跨天气、跨传感器、跨场景结构的鲁棒性。

4. 统计学习理论

统计学习理论试图解释为什么从有限样本可以学习到能泛化的模型。

我需要理解：

经验风险和期望风险；
VC 维；
Rademacher 复杂度；
泛化界；
结构风险最小化；
模型容量；
分布偏移；
OOD 检测。

这些概念对于安全关键系统非常重要。自动驾驶模型不能只在 benchmark 上有效，还需要在真实世界变化中保持可靠。

5. 表示学习

现代机器学习越来越依赖表示学习。模型的关键不只是分类器，而是能否学到有用的中间表示。

重要概念包括：

不变性和等变性；
对比学习；
InfoNCE；
自监督学习；
MAE 和 DINO；
信息瓶颈；
多模态表示；
token-based representation。

对于我的研究，表示学习尤其重要。协同感知中通信的不是原始数据，而是特征或 token。如果表示本身不紧凑、不稳定、不包含任务相关信息，那么后续通信压缩很难成功。

6. 分布偏移与鲁棒性

自动驾驶感知面对的环境变化很强：

白天和夜晚；
晴天、雨天、雾天；
城市、高速、乡村道路；
不同相机和 LiDAR；
不同交通规则；
罕见障碍物；
新类别或长尾场景。

这要求模型具备鲁棒性和不确定性意识。一个模型在常规场景上 mIoU 很高，并不一定在安全关键场景上可靠。

因此，我需要关注 domain adaptation、domain generalization、OOD detection、uncertainty calibration 和 robustness evaluation。

7. 与我的研究方向的联系

机器学习基础直接支撑我的研究问题：

语义占用预测需要 dense prediction 和结构化输出；
协同感知需要多智能体特征融合；
token communication 需要学习紧凑表示；
bandwidth-aware communication 可以看作带约束的学习问题；
occupancy world models 需要未来状态建模和不确定性表达。

机器学习不是单独的一门课，而是理解这些研究问题的共同框架。

8. 学习计划

我会结合 Andrew Ng 的机器学习课程、Bishop 的 PRML、统计学习资料和现代 representation learning 论文来学习。

目标不是记住所有算法细节，而是能够在读论文时识别：这个方法的学习目标是什么？它假设了什么？它如何泛化？它的表示是否适合任务？它在分布变化下会怎样？

这才是机器学习基础对研究真正有用的地方。