机器学习基础

机器学习是现代计算机视觉和自动驾驶感知系统的理论基础。深度学习虽然已经成为主流方法,但很多核心问题仍然来自机器学习:泛化、过拟合、表示、正则化、分布偏移和不确定性。

这篇笔记整理我在 Ph.D. 准备阶段需要长期复习的机器学习基础。


1. 监督学习与经验风险最小化

监督学习的基本形式是从输入 (x) 预测标签 (y)。模型 (f_\theta) 通过训练数据学习参数,使经验风险最小:

\[\min_\theta \frac{1}{N}\sum_{i=1}^N \ell(f_\theta(x_i), y_i).\]

这看似简单,但包含几个关键问题:

  • 训练集能否代表真实分布?
  • 损失函数是否和目标任务一致?
  • 模型容量是否合适?
  • 正则化如何影响泛化?
  • 测试时分布变化怎么办?

在自动驾驶感知中,这些问题非常现实。训练数据可能来自有限城市、天气和传感器配置,而实际部署环境更加复杂。


2. 经典机器学习方法

我需要掌握的经典方法包括:

  • 线性回归和逻辑回归;
  • 支持向量机和核方法;
  • 决策树、随机森林和 Boosting;
  • KNN;
  • 聚类方法;
  • Gaussian Mixture Model;
  • EM 算法;
  • 朴素贝叶斯;
  • 概率图模型;
  • PCA 和降维方法。

这些方法不仅是历史基础,也提供了很多重要思想。例如,SVM 强调 margin,Boosting 强调组合弱学习器,GMM 和 EM 强调隐变量建模,PCA 强调低维结构。

这些思想在现代深度学习中仍然存在,只是形式变得更复杂。


3. 偏差、方差与泛化

机器学习的核心问题之一是泛化。训练误差低并不代表测试表现好。

偏差-方差权衡帮助我理解模型能力:

  • 高偏差模型过于简单,容易欠拟合;
  • 高方差模型过于灵活,容易过拟合;
  • 正则化和数据增强可以降低过拟合风险;
  • 更好的表示可以同时改善拟合和泛化。

在深度学习中,传统偏差-方差图像并不能完全解释所有现象,但它仍然是理解模型行为的起点。

对于自动驾驶,泛化不仅是测试集准确率,更是跨城市、跨天气、跨传感器、跨场景结构的鲁棒性。


4. 统计学习理论

统计学习理论试图解释为什么从有限样本可以学习到能泛化的模型。

我需要理解:

  • 经验风险和期望风险;
  • VC 维;
  • Rademacher 复杂度;
  • 泛化界;
  • 结构风险最小化;
  • 模型容量;
  • 分布偏移;
  • OOD 检测。

这些概念对于安全关键系统非常重要。自动驾驶模型不能只在 benchmark 上有效,还需要在真实世界变化中保持可靠。


5. 表示学习

现代机器学习越来越依赖表示学习。模型的关键不只是分类器,而是能否学到有用的中间表示。

重要概念包括:

  • 不变性和等变性;
  • 对比学习;
  • InfoNCE;
  • 自监督学习;
  • MAE 和 DINO;
  • 信息瓶颈;
  • 多模态表示;
  • token-based representation。

对于我的研究,表示学习尤其重要。协同感知中通信的不是原始数据,而是特征或 token。如果表示本身不紧凑、不稳定、不包含任务相关信息,那么后续通信压缩很难成功。


6. 分布偏移与鲁棒性

自动驾驶感知面对的环境变化很强:

  • 白天和夜晚;
  • 晴天、雨天、雾天;
  • 城市、高速、乡村道路;
  • 不同相机和 LiDAR;
  • 不同交通规则;
  • 罕见障碍物;
  • 新类别或长尾场景。

这要求模型具备鲁棒性和不确定性意识。一个模型在常规场景上 mIoU 很高,并不一定在安全关键场景上可靠。

因此,我需要关注 domain adaptation、domain generalization、OOD detection、uncertainty calibration 和 robustness evaluation。


7. 与我的研究方向的联系

机器学习基础直接支撑我的研究问题:

  • 语义占用预测需要 dense prediction 和结构化输出;
  • 协同感知需要多智能体特征融合;
  • token communication 需要学习紧凑表示;
  • bandwidth-aware communication 可以看作带约束的学习问题;
  • occupancy world models 需要未来状态建模和不确定性表达。

机器学习不是单独的一门课,而是理解这些研究问题的共同框架。


8. 学习计划

我会结合 Andrew Ng 的机器学习课程、Bishop 的 PRML、统计学习资料和现代 representation learning 论文来学习。

目标不是记住所有算法细节,而是能够在读论文时识别:这个方法的学习目标是什么?它假设了什么?它如何泛化?它的表示是否适合任务?它在分布变化下会怎样?

这才是机器学习基础对研究真正有用的地方。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • 围绕三维感知进一步明确 Ph.D. 研究方向
  • From Occupancy Prediction to Occupancy World Models