强化学习与决策

强化学习研究智能体如何通过与环境交互学习决策。与监督学习不同,强化学习关注序贯决策:当前动作会影响未来状态和奖励。

虽然我的主要研究方向是三维感知、语义占用预测、协同感知和占用世界模型,但强化学习对我仍然重要,因为它帮助我理解感知如何服务于行动。


1. 序贯决策

强化学习中的基本循环是:

  1. 智能体观察状态 (s_t);
  2. 选择动作 (a_t);
  3. 环境转移到 (s_{t+1});
  4. 智能体获得奖励 (r_t)。
目标是学习策略 (\pi(a s)),最大化长期回报:
\[J(\pi)=\mathbb{E}_{\pi}\left[\sum_{t=0}^{\infty}\gamma^t r_t\right].\]

这和静态视觉任务不同。视觉分类只输出一个标签,而智能体的动作会改变之后看到的数据。


2. MDP

Markov Decision Process 是强化学习的核心形式化框架,包含:

  • 状态 (S);
  • 动作 (A);
  • 转移概率 (P(s’ s,a));
  • 奖励函数 (R(s,a));
  • 折扣因子 (\gamma)。

Markov 假设认为当前状态包含决策所需的全部信息。

在真实自动驾驶和具身智能中,这个假设往往不完全成立,因为智能体只能获得部分观测。因此需要 memory、belief state 或 world model 来补充当前观测。


3. 价值函数与 Bellman 方程

价值函数衡量状态或状态-动作对的长期收益:

\[V^\pi(s)=\mathbb{E}_\pi\left[\sum_{t=0}^{\infty}\gamma^t r_t | s_0=s\right].\]

动作价值函数为:

\[Q^\pi(s,a)=\mathbb{E}_\pi\left[\sum_{t=0}^{\infty}\gamma^t r_t | s_0=s,a_0=a\right].\]

Bellman 方程把当前价值和未来价值联系起来,是动态规划和强化学习算法的基础。


4. 动态规划与无模型方法

如果环境模型已知,可以使用动态规划:

  • policy evaluation;
  • policy improvement;
  • policy iteration;
  • value iteration。

如果环境模型未知,可以通过经验学习:

  • Monte Carlo;
  • TD learning;
  • SARSA;
  • Q-learning;
  • eligibility traces。

这些方法帮助我理解从交互数据中估计长期价值的基本思想。


5. 深度强化学习

深度强化学习使用神经网络表示价值函数或策略。

重要方法包括:

  • DQN;
  • policy gradient;
  • actor-critic;
  • A2C/A3C;
  • PPO;
  • SAC;
  • DDPG/TD3。

深度 RL 面临训练不稳定、样本效率低、探索困难、奖励设计复杂和安全性问题。

这些问题也是它在真实自动驾驶部署中困难的原因。


6. 有模型强化学习与世界模型

有模型强化学习学习环境动态模型,然后用模型进行规划或想象 rollout。

世界模型可以写作:

\[z_{t+1}=f_\theta(z_t,a_t).\]

对于自动驾驶感知,世界模型也可以不直接预测 reward,而是预测未来空间状态:

\[\hat{O}_{t+1:t+H}=f_\theta(O_{1:t}).\]

这就是 occupancy world model 的思想:让模型预测未来的空间占用和语义状态,从而支持下游决策。


7. 多智能体强化学习

多智能体强化学习研究多个智能体之间的协作或竞争。

关键问题包括:

  • centralized training decentralized execution;
  • credit assignment;
  • communication;
  • coordination;
  • opponent modeling;
  • partial observability。

这些问题和协同感知有相通之处。多个车辆或机器人需要在有限通信下共享信息、协调行为并构建共同场景理解。


8. 与我的研究的关系

我目前不直接研究控制策略,但强化学习帮助我理解:

  • 为什么感知输出要服务于决策;
  • 为什么未来预测重要;
  • 为什么 uncertainty 会影响行动;
  • 为什么 world model 是感知和规划之间的桥梁;
  • 为什么多智能体通信需要 task-aware。

因此,强化学习是我理解具身智能和自动驾驶系统的重要补充。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • 围绕三维感知进一步明确 Ph.D. 研究方向
  • From Occupancy Prediction to Occupancy World Models