围绕三维感知撰写 Ph.D. Research Statement
Ph.D. research statement 不应该是一组关键词列表。
它应该回答更深的问题:
我想花几年时间研究什么问题?这个问题为什么重要?我已经做了什么?我接下来能贡献什么?
准备 2027 Fall Ph.D. 申请时,我正在尝试把自己的 statement 组织在一个中心方向周围:
面向自动与具身智能体的高效预测式三维场景理解。
这篇笔记是我对这个结构的整理。
1. 核心论点
Research statement 需要一个 thesis,而不只是兴趣列表。
我目前的核心论点是:
自动和具身智能体需要的三维感知系统,不仅要准确,还要通信高效、具备时间记忆,并且能够预测未来。
这句话连接了四件事:
- 三维感知:智能体在物理空间中行动,因此需要结构化空间理解。
- 通信效率:真实多智能体系统不能传输所有信息。
- 时间意识:感知应该利用历史,而不只是单帧输入。
- 未来预测:智能体需要推理未来场景演化,而不只是重建当前。
这个 thesis 可以避免 profile 显得分散,让网站、CV、项目和 Blog 都围绕同一个中心展开。
2. 为什么这个问题重要
研究动机应该比某个 benchmark 更宽。
自动驾驶和机器人都面对 partial observability:
- 相机看不穿遮挡;
- 单车无法观察所有区域;
- 传感器有噪声和范围限制;
- 通信存在带宽和延迟约束;
- 规划依赖未来状态。
所以研究问题不只是:
能否在 occupancy benchmark 上提升 mIoU?
更大的问题是:
智能体如何在有限观测、有限通信、有限计算和有限时间下,建立有用的三维世界 belief?
这个表达让工作同时与计算机视觉、机器人和具身智能相关。
3. 当前工作能说明什么
Statement 应该用当前项目作为证据。
对我来说,这些证据可以组织成三个阶段。
3.1 语义占用作为结构化输出
语义占用预测吸引我,是因为它把几何和语义结合在一种下游系统更容易使用的形式中。
模型不只是检测目标或分割图像,而是预测体素化三维场景:
\[\hat{O} \in \mathbb{R}^{X \times Y \times Z \times C},\]其中每个 voxel 存储 semantic occupancy logits。
这种输出更接近规划需求,因为它描述了 occupied space、free space 和语义类别。
3.2 带宽约束下的协同感知
单智能体感知受遮挡和视野限制。
协同感知允许邻近智能体共享互补信息,但通信成本很高。我的当前工作研究 token-based communication:
\[M_{j \rightarrow i} = \{z_k^j : k \in \mathcal{S}_{j \rightarrow i}\},\]其中 (\mathcal{S}_{j \rightarrow i}) 是从智能体 (j) 发送到 ego agent (i) 的 token 子集。
这让系统可以思考哪些信息值得传输。
3.3 占用世界模型
当前帧 occupancy 很有用,但智能体还需要预测未来。
Occupancy world models 将感知从:
\[\hat{O}_t = f_\theta(X_{\leq t})\]扩展到:
\[\hat{O}_{t:t+K} = f_\theta(X_{\leq t}),\]其中模型预测未来 (K) 个时间步的 occupancy states。
这把感知与时间推理和规划连接起来。
4. 未来研究目标
Research statement 还要展示向前走的方向。
我目前把未来 Ph.D. 研究目标整理成三个可能 aim。
Aim 1: 高效三维场景表示
自主智能体如何紧凑表示三维场景,同时保留任务相关信息?
这包括:
- tokenized 3D 和 BEV representations;
- semantic occupancy 与 free-space modeling;
- uncertainty-aware representation learning;
- memory-efficient temporal scene representations。
Aim 2: 通信感知的多智能体感知
在带宽、延迟和可靠性约束下,智能体应该如何决定共享什么?
这包括:
- receiver-driven information requests;
- adaptive token selection;
- perception communication 的 rate-distortion 视角;
- 对位姿噪声、缺失智能体和延迟消息的鲁棒性。
Aim 3: 预测式占用世界模型
感知模型如何推理未来三维场景演化?
这包括:
- motion-aware token memory;
- future occupancy forecasting;
- 对动态和遮挡区域的不确定性建模;
- predictive perception 与 downstream planning 的联系。
这三个 aim 比较有野心,但它们属于一条连续轨迹。
5. 如何匹配导师
好的 statement 应该让 advisor fit 很容易看出来。
对于每位潜在导师或实验室,我希望明确:
- 我的方向中哪一部分与他们的工作重合;
- 我能贡献什么技术基础;
- 我希望和他们一起探索什么新问题;
- 为什么他们的实验室适合这个问题。
Statement 不应该像通用模板。
对计算机视觉实验室,我会强调三维表示学习和语义占用;对机器人实验室,我会强调具身感知、预测和规划;对自动驾驶实验室,我会强调协同感知和部署约束。
核心方向不变,但连接点会变化。
6. 什么让 Statement 可信
Research statement 的可信度来自“野心有证据支撑”。
在申请材料里,我希望展示:
- 我有连续研究方向;
- 我实现过完整系统;
- 我理解文献和开放问题;
- 我能连接数学、代码、实验和写作;
- 我重视可复现性和真实约束;
- 我对未来工作有具体计划。
这也是我维护网站研究笔记的原因。Blog 并不是申请材料之外的东西,它展示了我如何思考。
7. 一个可能的 Statement 结构
一个简洁结构可以是:
- 开头 thesis:面向自动与具身智能体的高效预测式三维场景理解。
- 研究动机:部分可观测、有限通信、时间不确定性、规划需求。
- 已有工作:语义占用、协同 token 通信、世界模型。
- 未来 aims:高效表示、通信感知感知、预测式占用世界模型。
- 导师匹配:为什么目标实验室适合这个问题。
- 结尾:我希望成为什么样的研究者。
这个结构很简单,但能让 statement 保持聚焦。
8. 总结
最重要的是 coherence。
我不希望申请材料看起来像一堆无关主题:computer vision、autonomous driving、LLM、robotics 和 systems。
我更希望它呈现一条轨迹:
资源受限系统 -> 三维感知 -> 协同占用预测 -> token 通信 -> 时间记忆 -> 占用世界模型。
这条轨迹仍在发展,但已经越来越清晰。
Research statement 的目的,就是让这条轨迹能被别人快速看懂。
Enjoy Reading This Article?
Here are some more articles you might like to read next: