从占用预测到占用世界模型

语义占用预测描述当前三维世界状态。

但自动智能体需要的不只是当前状态。它们还需要预测接下来会发生什么。

这自然引出一个方向:

占用预测能否发展为占用世界模型?


1. 当前占用与未来占用

当前占用预测估计时间 (t) 的语义空间状态:

\[\hat{O}_t=f_\theta(x_{1:t}).\]

未来占用预测估计未来多个时间步:

\[\hat{O}_{t+1:t+H}=f_\theta(x_{1:t}).\]

两者差别很大。当前占用问的是“现在场景是什么”,未来占用问的是“场景将如何演化”。

对自动驾驶和具身智能来说,后者更接近决策需求。


2. 为什么世界模型重要

世界模型是智能体内部用于预测环境变化的模型。

在强化学习中,世界模型可以预测未来 latent state 和 reward。在自动驾驶感知中,世界模型可以预测未来空间状态。

Occupancy 是世界建模的合适格式,因为它直接表示物理空间。

占用世界模型可以支持:

  • 未来碰撞风险估计;
  • 轨迹规划;
  • 不确定性感知决策;
  • 场景演化模拟;
  • 遮挡动态目标推理。

它让智能体拥有结构化“想象未来”的能力。


3. 4D Occupancy

如果 3D occupancy 描述空间,那么 4D occupancy 描述空间随时间变化:

\[O \in \{0,1,\ldots,K\}^{T \times X \times Y \times Z}.\]

时间成为额外维度。

这种表示同时捕获:

  • 物体在哪里;
  • 物体如何移动;
  • 空间何时变为 occupied;
  • 未来哪些区域不确定。

对自动驾驶而言,4D occupancy 可以统一表示车辆、行人、骑行者、静态障碍、free space 和未来 unknown regions。


4. Motion-Aware Memory

未来占用预测需要记忆。

单帧观测很难可靠预测未来。模型需要理解运动、速度、加速度和交互。

Motion-aware memory 应该存储:

  • 最近 occupancy 状态;
  • BEV features;
  • 目标运动线索;
  • ego-motion;
  • 时间不确定性;
  • 智能体之间的交互。

Token memory 是一种可能设计。它不存储每一帧 dense feature map,而是存储重要区域和运动模式的紧凑 token。

这与 token-based collaborative perception 自然连接。


5. 协同世界模型

单智能体世界模型受自身观测限制。

协同世界模型可以利用多智能体信息构建更完整、更可预测的场景表示。

这对以下场景特别有用:

  • 被遮挡动态物体;
  • 路口;
  • 远距离区域;
  • 拥挤交通;
  • ego 视野外区域。

如果另一个车辆看到了 ego 看不见的行人,协同世界模型可能更准确预测未来 occupancy。

但未来预测对通信质量更敏感。接收信息的小误差可能影响未来状态推断。


6. 未来预测的不确定性

未来天然不确定。

可能存在多个合理未来:

  • 行人停下或继续走;
  • 车辆直行或转弯;
  • 遮挡物体出现或不出现;
  • 交通参与者相互反应。

确定性预测可能不够。更有用的未来占用模型应表达不确定性。

可能方向包括:

  • probabilistic occupancy;
  • multi-modal prediction;
  • uncertainty map;
  • calibrated semantic occupancy;
  • scenario-conditioned forecasting。

对规划而言,不确定性不是细节,而是决策问题本身的一部分。


7. 评价问题

评价 occupancy world model 很难。

除了 IoU 和 mIoU,还需要考虑:

  • 预测时间 horizon;
  • 时间一致性;
  • 动态目标质量;
  • 校准;
  • 安全关键区域;
  • 遮挡区域表现;
  • 对规划是否有用。

平均 mIoU 高并不代表安全关键场景表现好。


8. 我的研究视角

我把占用世界模型看作感知和具身智能之间的桥梁。

它连接:

  • 语义占用预测;
  • 时间建模;
  • 运动预测;
  • 协同感知;
  • 不确定性推理;
  • 面向规划的表示学习。

长期问题是:

自动智能体如何构建紧凑、可通信、可预测的三维世界表示?




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • 围绕三维感知进一步明确 Ph.D. 研究方向
  • From Occupancy Prediction to Occupancy World Models