深度学习基础
深度学习是现代计算机视觉、自动驾驶感知和具身智能的核心工具。我的研究方向虽然聚焦三维感知、语义占用预测和协同感知,但这些问题背后都依赖深度模型的表示能力。
这篇笔记整理我需要长期掌握的深度学习基础。
1. 神经网络基础
最基本的神经网络可以看作多层函数复合:
\[f_\theta(x)=f_L(\cdots f_2(f_1(x))).\]每一层通过线性变换和非线性激活提取表示。需要掌握的基础包括:
- MLP;
- 激活函数;
- 反向传播;
- 损失函数;
- 参数初始化;
- 梯度消失和梯度爆炸;
- 正则化;
- BatchNorm、LayerNorm、RMSNorm;
- 残差连接。
深层网络的训练并不是简单堆层数。归一化、残差结构和优化策略共同决定了模型是否能稳定学习。
2. CNN 与视觉归纳偏置
CNN 曾经是计算机视觉的核心架构。即使 Transformer 变得主流,CNN 的归纳偏置仍然非常重要。
卷积具有几个特点:
- 局部连接;
- 参数共享;
- 平移等变性;
- 层级特征;
- 高效计算。
这些特点非常适合图像和局部空间结构。对于 BEV 特征、体素特征和局部三维结构,卷积仍然是有效工具。
经典 CNN 架构包括 AlexNet、VGG、ResNet、DenseNet、MobileNet、EfficientNet 等。ResNet 尤其重要,因为残差连接让深层网络训练变得稳定。
3. Transformer
Transformer 通过注意力机制建模长距离依赖。注意力计算为:
\[\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V.\]我需要理解:
- query、key、value;
- multi-head attention;
- self-attention 和 cross-attention;
- encoder 和 decoder;
- 位置编码;
- RoPE 和相对位置编码;
- Vision Transformer;
- window attention;
- sparse attention;
- efficient attention。
Transformer 对我的研究尤其重要,因为协同感知中的多智能体特征融合、token communication、时空记忆和占用世界模型都可以用 attention 进行建模。
4. 表示、token 与 memory
现代视觉模型越来越多地使用 token 化表示。图像可以分成 patch token,BEV 特征可以分成空间 token,三维场景也可以被压缩为一组 token。
Token 表示的优势在于:
- 可以被选择;
- 可以被合并;
- 可以用于跨模态融合;
- 可以作为通信单元;
- 可以存入记忆模块;
- 可以用 attention 灵活交互。
在协同感知中,token 的意义不仅是模型内部表示,还可能是智能体之间传输的信息单元。
5. 训练稳定性
深度学习研究中,训练稳定性常常决定方法是否可用。
我需要关注:
- 学习率;
- warmup;
- weight decay;
- gradient clipping;
- loss balancing;
- class imbalance;
- mixed precision;
- distributed training;
- checkpoint 和 reproducibility。
语义占用预测是 dense prediction 问题,类别不平衡非常严重。free space、background 和常见类别可能占据大部分 voxel,而动态物体和稀有类别更难学习。
因此,loss 设计和训练策略很关键。
6. 深度学习与三维感知
三维感知系统通常包含多个模块:
- 图像 backbone;
- view transformation;
- BEV encoder;
- temporal fusion;
- occupancy decoder;
- multi-agent fusion;
- post-processing 或 planning interface。
每个模块都依赖深度学习表示。模型不仅要识别图像语义,还要把多视角信息提升到三维空间,并在时间和多智能体之间融合。
这使得深度学习基础和几何基础必须结合起来学习。
7. 研究视角
对我来说,深度学习不是简单调用网络结构,而是理解模型如何表示世界。
我希望从以下角度思考深度模型:
- 模型学到的表示是什么?
- 这种表示是否适合三维空间?
- 它能否在时间上保持一致?
- 它是否适合通信压缩?
- 它能否表达不确定性?
- 它是否能支持未来预测?
这些问题会贯穿我后续关于语义占用、协同感知和世界模型的研究。
Enjoy Reading This Article?
Here are some more articles you might like to read next: