Ph.D. research statement 不应该是一组关键词列表。

它应该回答更深的问题：

我想花几年时间研究什么问题？这个问题为什么重要？我已经做了什么？我接下来能贡献什么？

准备 2027 Fall Ph.D. 申请时，我正在尝试把自己的 statement 组织在一个中心方向周围：

面向自动与具身智能体的高效预测式三维场景理解。

这篇笔记是我对这个结构的整理。

1. 核心论点

Research statement 需要一个 thesis，而不只是兴趣列表。

我目前的核心论点是：

自动和具身智能体需要的三维感知系统，不仅要准确，还要通信高效、具备时间记忆，并且能够预测未来。

这句话连接了四件事：

三维感知：智能体在物理空间中行动，因此需要结构化空间理解。
通信效率：真实多智能体系统不能传输所有信息。
时间意识：感知应该利用历史，而不只是单帧输入。
未来预测：智能体需要推理未来场景演化，而不只是重建当前。

这个 thesis 可以避免 profile 显得分散，让网站、CV、项目和 Blog 都围绕同一个中心展开。

2. 为什么这个问题重要

研究动机应该比某个 benchmark 更宽。

自动驾驶和机器人都面对 partial observability：

相机看不穿遮挡；
单车无法观察所有区域；
传感器有噪声和范围限制；
通信存在带宽和延迟约束；
规划依赖未来状态。

所以研究问题不只是：

能否在 occupancy benchmark 上提升 mIoU？

更大的问题是：

智能体如何在有限观测、有限通信、有限计算和有限时间下，建立有用的三维世界 belief？

这个表达让工作同时与计算机视觉、机器人和具身智能相关。

3. 当前工作能说明什么

Statement 应该用当前项目作为证据。

对我来说，这些证据可以组织成三个阶段。

3.1 语义占用作为结构化输出

语义占用预测吸引我，是因为它把几何和语义结合在一种下游系统更容易使用的形式中。

模型不只是检测目标或分割图像，而是预测体素化三维场景：

\[\hat{O} \in \mathbb{R}^{X \times Y \times Z \times C},\]

其中每个 voxel 存储 semantic occupancy logits。

这种输出更接近规划需求，因为它描述了 occupied space、free space 和语义类别。

3.2 带宽约束下的协同感知

单智能体感知受遮挡和视野限制。

协同感知允许邻近智能体共享互补信息，但通信成本很高。我的当前工作研究 token-based communication：

\[M_{j \rightarrow i} = \{z_k^j : k \in \mathcal{S}_{j \rightarrow i}\},\]

其中 (\mathcal{S}_{j \rightarrow i}) 是从智能体 (j) 发送到 ego agent (i) 的 token 子集。

这让系统可以思考哪些信息值得传输。

3.3 占用世界模型

当前帧 occupancy 很有用，但智能体还需要预测未来。

Occupancy world models 将感知从：

\[\hat{O}_t = f_\theta(X_{\leq t})\]

扩展到：

\[\hat{O}_{t:t+K} = f_\theta(X_{\leq t}),\]

其中模型预测未来 (K) 个时间步的 occupancy states。

这把感知与时间推理和规划连接起来。

4. 未来研究目标

Research statement 还要展示向前走的方向。

我目前把未来 Ph.D. 研究目标整理成三个可能 aim。

Aim 1: 高效三维场景表示

自主智能体如何紧凑表示三维场景，同时保留任务相关信息？

这包括：

tokenized 3D 和 BEV representations；
semantic occupancy 与 free-space modeling；
uncertainty-aware representation learning；
memory-efficient temporal scene representations。

Aim 2: 通信感知的多智能体感知

在带宽、延迟和可靠性约束下，智能体应该如何决定共享什么？

这包括：

receiver-driven information requests；
adaptive token selection；
perception communication 的 rate-distortion 视角；
对位姿噪声、缺失智能体和延迟消息的鲁棒性。

Aim 3: 预测式占用世界模型

感知模型如何推理未来三维场景演化？

这包括：

motion-aware token memory；
future occupancy forecasting；
对动态和遮挡区域的不确定性建模；
predictive perception 与 downstream planning 的联系。

这三个 aim 比较有野心，但它们属于一条连续轨迹。

5. 如何匹配导师

好的 statement 应该让 advisor fit 很容易看出来。

对于每位潜在导师或实验室，我希望明确：

我的方向中哪一部分与他们的工作重合；
我能贡献什么技术基础；
我希望和他们一起探索什么新问题；
为什么他们的实验室适合这个问题。

Statement 不应该像通用模板。

对计算机视觉实验室，我会强调三维表示学习和语义占用；对机器人实验室，我会强调具身感知、预测和规划；对自动驾驶实验室，我会强调协同感知和部署约束。

核心方向不变，但连接点会变化。

6. 什么让 Statement 可信

Research statement 的可信度来自“野心有证据支撑”。

在申请材料里，我希望展示：

我有连续研究方向；
我实现过完整系统；
我理解文献和开放问题；
我能连接数学、代码、实验和写作；
我重视可复现性和真实约束；
我对未来工作有具体计划。

这也是我维护网站研究笔记的原因。Blog 并不是申请材料之外的东西，它展示了我如何思考。

7. 一个可能的 Statement 结构

一个简洁结构可以是：

开头 thesis：面向自动与具身智能体的高效预测式三维场景理解。
研究动机：部分可观测、有限通信、时间不确定性、规划需求。
已有工作：语义占用、协同 token 通信、世界模型。
未来 aims：高效表示、通信感知感知、预测式占用世界模型。
导师匹配：为什么目标实验室适合这个问题。
结尾：我希望成为什么样的研究者。

这个结构很简单，但能让 statement 保持聚焦。

8. 总结

最重要的是 coherence。

我不希望申请材料看起来像一堆无关主题：computer vision、autonomous driving、LLM、robotics 和 systems。

我更希望它呈现一条轨迹：

资源受限系统 -> 三维感知 -> 协同占用预测 -> token 通信 -> 时间记忆 -> 占用世界模型。

这条轨迹仍在发展，但已经越来越清晰。

Research statement 的目的，就是让这条轨迹能被别人快速看懂。

围绕三维感知撰写 Ph.D. Research Statement

1. 核心论点

2. 为什么这个问题重要

3. 当前工作能说明什么

3.1 语义占用作为结构化输出

3.2 带宽约束下的协同感知

3.3 占用世界模型

4. 未来研究目标

Aim 1: 高效三维场景表示

Aim 2: 通信感知的多智能体感知

Aim 3: 预测式占用世界模型

5. 如何匹配导师

6. 什么让 Statement 可信

7. 一个可能的 Statement 结构

8. 总结

Enjoy Reading This Article?