带宽感知的自适应 token 通信

项目概述

本项目从信息论视角研究 高效多智能体感知，重点关注 通信带宽 和 感知性能 之间的权衡。

核心思想是把智能体之间的通信看作一个信息分配问题。在协同感知中，并不是所有 feature、token 或 message 对最终任务都有同等价值。有些信息对于解决遮挡或不确定区域非常关键，而另一些信息可能是冗余的，因为 ego agent 已经看到了类似内容，或者多个邻近智能体重复观测到了同一区域。

项目目标是建立一个 带宽感知的统一框架，用于解释和指导资源受限条件下的通信高效感知系统设计。

该工作仍在进行中，计划面向 NeurIPS 2026 投稿。

研究问题

在协同感知系统中，多个智能体需要交换信息以建立更完整的环境理解。

但现实系统中存在几个限制：

通信带宽有限；
延迟和包大小会影响系统实时性；
dense feature sharing 成本很高；
邻近智能体之间经常传输冗余信息；
不同空间区域对任务的重要性不同；
现有方法常依赖启发式压缩比例，缺少统一解释。

因此，本项目研究：

在有限带宽下，应该传输什么信息，以及传输多少信息才足够？

这个问题对协同语义占用预测尤其重要。占用预测需要密集三维场景理解，而密集三维表示通常通信成本很高。一个合理的通信机制应当把带宽分配给最能降低不确定性、最能改善任务结果的信息。

Rate-Distortion 视角

本项目把问题形式化为 Rate-Distortion 框架：

Rate：通信成本，例如传输 token 数、字节数或 feature payload；
Distortion：感知质量下降，例如 occupancy prediction error 或 mIoU loss。

目标是在以下因素之间进行优化：

表示紧凑性；
信息完整性；
感知准确率；
带宽受限条件下的鲁棒性。

一个简化目标可以写成：

[ \min_{\mathcal{M}} \; D(Y,\hat{Y}_{\mathcal{M}}) + \lambda R(\mathcal{M}) ]

其中：

(\mathcal{M}) 是传输的 message set；
(R(\mathcal{M})) 衡量通信 rate；
(D(Y,\hat{Y}_{\mathcal{M}})) 衡量感知 distortion；
(\lambda) 控制感知准确率和通信成本之间的权衡。

这个公式使通信不再只是固定工程约束，而是可以与感知质量一起优化的变量。

核心思路

1. 信息感知表示

系统不把 feature 当作普通 tensor，而是把 token 建模为具有不同任务价值的信息载体。

每个 token 可以从多个角度评估：

语义相关性；
不确定性降低能力；
相对 ego memory 的新颖性；
与邻近智能体观测的互补性；
对最终 occupancy prediction 的预期贡献。

这样通信模块就可以优先传输更可能改善最终感知输出的信息。

2. 选择性信息传输

系统只在智能体之间传输一部分信息，选择依据包括：

对下游任务的相关性；
与其他智能体信息的冗余程度；
时间新颖性；
带宽预算；
receiver-side request。

与其广播所有 intermediate features，系统在通信预算下选择紧凑 token set：

[ |\mathcal{M}| \leq B ]

其中 (B) 是带宽或 token 预算。

3. 通信-记忆权衡

框架同时考虑：

通信：智能体之间的信息交换；
记忆：时间信息复用；
本地感知：ego agent 已经拥有的信息。

如果某个区域已经由 temporal memory 表示得很好，就不需要重复传输。相反，如果某个遮挡区域在 ego memory 中缺失，就应该获得更多通信预算。

因此可以概括为：

只通信那些本地观测和时间记忆无法解释的信息。

4. 自适应带宽分配

项目也研究自适应通信预算。简单场景可能只需要少量通信，而遮挡严重、动态目标密集或不确定性高的场景需要更多通信。

可用于自适应分配的信号包括：

ego uncertainty map；
occupancy entropy；
object density；
多智能体预测分歧；
时间变化幅度；
视角互补性和距离。

长期目标是让通信预算随场景变化，而不是固定在某个手工设置。

系统层意义

该理论框架可以指导：

设计通信高效 token 表示；
在带宽约束下选择 informative features；
平衡实时通信和 temporal memory；
学习与下游占用质量对齐的 token importance；
用 accuracy-rate curve 比较系统，而不是只报告一个压缩比例。

它也自然连接到：

协同占用预测；
多智能体感知 pipeline；
token merging 和 token pruning；
receiver-driven communication；
future occupancy world models。

该项目可以看作我在 token-based collaborative occupancy prediction 方向上的理论和算法延伸。

计划方法组件

框架计划包含以下可实现模块：

不确定性感知请求生成：ego agent 找出本地观测和记忆不足的区域；
token utility estimation：邻近智能体估计哪些 token 对 receiver 最有帮助；
rate-constrained token selection：在显式带宽预算下选择 message；
adaptive token merging：将冗余 tokens 合并为紧凑代表；
rate-distortion evaluation：用 mIoU 与通信成本曲线比较方法。

这些模块将信息论原则和可训练的深度感知模块连接起来。

研究意义

本项目希望：

为通信高效感知提供更原则化的理论基础；
连接信息论与深度学习系统；
解释为什么某些 token 值得传输，而另一些是冗余的；
支持可扩展多智能体感知；
指导有限带宽下的未来 occupancy world model 学习。

更广泛的动机是：协同自主系统不能假设无限通信。实际系统必须学会如何把带宽花在最有价值的信息上。