协同感知:超越单智能体视野

单智能体感知存在天然限制。

无论模型多强,一个车辆或机器人只能从自己的视角观察世界。它可能被其他物体遮挡,受传感器范围限制,也会受到天气、光照和视角几何的影响。

协同感知提出的问题很简单:

多个智能体能否共享信息,从而构建更完整的场景理解?


1. 单智能体感知的局限

自动驾驶车辆的传感器可能包括相机、LiDAR、radar、GPS、IMU 和地图。即使传感器很强,观测仍然是局部的。

常见失败场景包括:

  • 被遮挡的行人;
  • 大车后方隐藏车辆;
  • 路口看不见的横向来车;
  • 远距离障碍物漏检;
  • 拥挤动态场景中的不稳定预测。

单智能体可以尝试从上下文推断隐藏区域,但从单一视角推断永远存在不确定性。

协同感知提供另一种可能:让真正观察到这些区域的智能体提供信息。


2. 智能体可以共享什么

协同感知可以在不同层级共享信息。

2.1 原始数据

共享图像或点云保留最多信息,但通信成本极高,也带来同步、隐私和带宽问题。

2.2 中间特征

共享神经网络特征是现代协同感知常用方式。特征比原始数据更紧凑,又比最终预测保留更多上下文。

2.3 最终预测

共享检测框、地图或占用结果通信开销较小,解释性更强,但可能丢失不确定性和中间表示。

2.4 Token

共享 token 是我特别关注的方向。一个 token 可以表示空间区域、物体、BEV patch、记忆单元或场景元素。

Token 是灵活的信息单位,可以选择、排序、合并或压缩,非常适合通信受限感知。


3. 核心挑战

协同感知不是简单“发送更多信息”。

主要挑战包括:

3.1 带宽

通信带宽有限,智能体不能传输无限特征图。模型必须决定发送什么、发送多少、何时发送、哪些区域值得发送。

这使感知问题变成资源分配问题。

3.2 位姿对齐

不同智能体在不同坐标系中观察世界。融合前必须变换到统一坐标系。位姿噪声会导致空间错位,尤其在远距离区域更明显。

3.3 时间同步

不同智能体的观测可能不是同一时刻。在动态交通场景中,即使小延迟也会影响融合。

3.4 消息质量

不是所有信息都有用。有些特征冗余、噪声大或与 ego agent 当前需求无关。

好的通信策略应该偏向高价值信息。


4. 协同占用预测

占用预测非常适合作为协同感知任务。

输出是空间化的,不同智能体可以贡献不同区域的观测。如果 ego agent 看不到障碍物后方,另一个 agent 可能提供直接证据。

协同可以帮助:

  • 降低遮挡不确定性;
  • 改善远距离预测;
  • 稳定语义标签;
  • 补全隐藏区域;
  • 改善动态目标表示。

但 dense occupancy features 通信开销大,因此通信效率是核心问题。

关键问题是:

三维场景中的哪些部分应该被通信?


5. Ego-Centric Request

我认为 ego-centric communication 很重要。

与其让每个智能体广播固定消息,不如让 ego agent 根据自身需求主动请求信息。

Ego agent 可以识别:

  • 不确定区域;
  • 遮挡区域;
  • 规划轨迹附近区域;
  • 高风险交通区域;
  • 邻近智能体视角更好的区域。

然后它向合适的邻居请求信息。

这种机制让通信从被动广播变成主动信息获取,更符合最终服务 ego agent 决策的目标。


6. Task-Aware Communication

通信应该是任务感知的。

对于占用预测,一条消息有用,是因为它能改善最终 occupancy output,尤其是重要区域的预测。

设计原则包括:

  • 优先不确定或遮挡区域;
  • 保留动态物体附近信息;
  • 减少背景冗余 token;
  • 根据场景复杂度调整通信量;
  • 同时评估精度和通信成本。

目标不是单纯最小化通信,而是在有限通信下传递最有用的信息。


7. 我的研究方向

协同感知连接了我的知识体系中的多个部分:

  • 多视几何用于对齐;
  • 深度学习用于特征表示;
  • 语义占用用于 dense 3D prediction;
  • Agent 和强化学习用于通信决策;
  • 世界模型用于时间推理。

我希望研究准确、高效、时间一致、对位姿噪声和带宽变化鲁棒的协同感知系统。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • 围绕三维感知进一步明确 Ph.D. 研究方向
  • From Occupancy Prediction to Occupancy World Models