语义占用预测描述当前三维世界状态。

但自动智能体需要的不只是当前状态。它们还需要预测接下来会发生什么。

这自然引出一个方向：

占用预测能否发展为占用世界模型？

1. 当前占用与未来占用

当前占用预测估计时间 (t) 的语义空间状态：

\[\hat{O}_t=f_\theta(x_{1:t}).\]

未来占用预测估计未来多个时间步：

\[\hat{O}_{t+1:t+H}=f_\theta(x_{1:t}).\]

两者差别很大。当前占用问的是“现在场景是什么”，未来占用问的是“场景将如何演化”。

对自动驾驶和具身智能来说，后者更接近决策需求。

2. 为什么世界模型重要

世界模型是智能体内部用于预测环境变化的模型。

在强化学习中，世界模型可以预测未来 latent state 和 reward。在自动驾驶感知中，世界模型可以预测未来空间状态。

Occupancy 是世界建模的合适格式，因为它直接表示物理空间。

占用世界模型可以支持：

未来碰撞风险估计；
轨迹规划；
不确定性感知决策；
场景演化模拟；
遮挡动态目标推理。

它让智能体拥有结构化“想象未来”的能力。

3. 4D Occupancy

如果 3D occupancy 描述空间，那么 4D occupancy 描述空间随时间变化：

\[O \in \{0,1,\ldots,K\}^{T \times X \times Y \times Z}.\]

时间成为额外维度。

这种表示同时捕获：

物体在哪里；
物体如何移动；
空间何时变为 occupied；
未来哪些区域不确定。

对自动驾驶而言，4D occupancy 可以统一表示车辆、行人、骑行者、静态障碍、free space 和未来 unknown regions。

4. Motion-Aware Memory

未来占用预测需要记忆。

单帧观测很难可靠预测未来。模型需要理解运动、速度、加速度和交互。

Motion-aware memory 应该存储：

最近 occupancy 状态；
BEV features；
目标运动线索；
ego-motion；
时间不确定性；
智能体之间的交互。

Token memory 是一种可能设计。它不存储每一帧 dense feature map，而是存储重要区域和运动模式的紧凑 token。

这与 token-based collaborative perception 自然连接。

5. 协同世界模型

单智能体世界模型受自身观测限制。

协同世界模型可以利用多智能体信息构建更完整、更可预测的场景表示。

这对以下场景特别有用：

被遮挡动态物体；
路口；
远距离区域；
拥挤交通；
ego 视野外区域。

如果另一个车辆看到了 ego 看不见的行人，协同世界模型可能更准确预测未来 occupancy。

但未来预测对通信质量更敏感。接收信息的小误差可能影响未来状态推断。

6. 未来预测的不确定性

未来天然不确定。

可能存在多个合理未来：

行人停下或继续走；
车辆直行或转弯；
遮挡物体出现或不出现；
交通参与者相互反应。

确定性预测可能不够。更有用的未来占用模型应表达不确定性。

可能方向包括：

probabilistic occupancy；
multi-modal prediction；
uncertainty map；
calibrated semantic occupancy；
scenario-conditioned forecasting。

对规划而言，不确定性不是细节，而是决策问题本身的一部分。

7. 评价问题

评价 occupancy world model 很难。

除了 IoU 和 mIoU，还需要考虑：

预测时间 horizon；
时间一致性；
动态目标质量；
校准；
安全关键区域；
遮挡区域表现；
对规划是否有用。

平均 mIoU 高并不代表安全关键场景表现好。

8. 我的研究视角

我把占用世界模型看作感知和具身智能之间的桥梁。

它连接：

语义占用预测；
时间建模；
运动预测；
协同感知；
不确定性推理；
面向规划的表示学习。

长期问题是：

自动智能体如何构建紧凑、可通信、可预测的三维世界表示？

从占用预测到占用世界模型