为 Ph.D. 准备读论文，和为了课程读论文不太一样。

课程阅读的目标通常是理解方法、复现主要推导、完成作业或考试；而研究阅读的目标更高：

找到论文真正解决的问题；
理解方法为什么有效；
看清论文依赖了哪些假设；
判断还有什么问题没有解决；
把论文转化成可能的实验计划或新研究问题。

这篇笔记总结我在准备 Ph.D. 申请，以及阅读三维感知、协同感知和占用世界模型论文时使用的方法。

1. 读问题，而不只是读答案

论文中最有价值的部分不一定是最后的网络结构。

一篇好论文通常会提出一个更清晰的问题：

当前系统的关键瓶颈是什么？什么样的表示或学习信号能让这个瓶颈更容易被解决？

对于我的方向，我会尝试把每篇论文映射到几个问题上：

表示方式：三维空间如何表示？BEV feature、voxel grid、occupancy volume、token set、implicit field，还是 object-centric memory？
观测来源：智能体到底看到了什么？单目、多视角图像、LiDAR、多智能体消息、历史帧，还是未来监督？
通信机制：如果涉及多个智能体，传输什么、何时传输、在什么预算下传输？
时间推理：模型只是重建当前帧，还是维护记忆并预测未来？
部署约束：带宽、延迟、显存、算力、鲁棒性有什么限制？

这样读论文可以避免把论文看成一个个孤立技巧。每篇论文都会变成理解领域如何解决大问题的一块证据。

2. 三遍阅读法

我通常用三遍阅读法。

2.1 快速筛选

第一遍一般花 20 到 40 分钟。

我会读：

标题；
摘要；
引言；
主图；
方法总览；
主要定量结果；
消融实验；
如果有的话，读限制和讨论部分。

第一遍的输出是一个决策：

现在精读：与当前项目高度相关；
之后再读：相关但不紧急；
只做背景了解：有帮助但不是核心；
跳过：与当前研究问题联系不大。

这样可以避免阅读列表无限膨胀。

2.2 深度阅读

对于重要论文，我会慢慢读方法和实验。

我重点看六件事：

问题定义：输入、输出、假设和约束是什么？
表示方式：支撑方法成立的核心数据结构是什么？
学习目标：loss 或监督信号如何塑造模型？
系统设计：哪些模块真正重要，它们如何连接？
证据：哪些实验真正支持主要 claim？
失败情况：方法在哪里会变弱？

比如在协同占用预测中，我会问：

传输的是 dense feature map、sparse feature、voxel representation，还是 token set？
通信是 sender-driven、receiver-driven，还是联合优化？
是否考虑位姿误差、延迟、遮挡或带宽限制？
是否清楚报告通信开销？
当可用智能体数量减少时，方法是否仍然稳健？

2.3 研究提取

最后一遍最重要。

理解论文之后，我会强迫自己写下：

一句话概括论文核心 insight；
一个方法有效的原因；
一个可能失效的假设；
一个我会补充的实验；
一个能连接到自己工作的想法。

如果我无法从一篇论文中提取至少一个研究问题，说明我可能只理解了表面，而没有理解它的研究价值。

3. 论文笔记模板

对重要论文，我会整理成一个结构化笔记。

Paper:
Problem:
Core idea:
Representation:
Method:
Loss / objective:
Datasets:
Main results:
Ablations:
Assumptions:
Limitations:
Possible extensions:
Connection to my work:
Implementation difficulty:

这个模板很简单，但它把 论文说了什么 和 我如何理解论文 分开了。

其中 “Connection to my work” 尤其重要。论文不应该只进入我的记忆，而应该进入我的研究系统。

4. 论文优先级的简单评分

为了决定哪些论文值得精读，我有时会使用一个非正式评分：

\[U(p) = \alpha R(p) + \beta N(p) + \gamma I(p) + \delta S(p),\]

其中：

(R(p)) 表示与当前项目的相关性；
(N(p)) 表示想法的新颖性；
(I(p)) 表示实现价值；
(S(p)) 表示对长期研究方向的战略价值。

这不是严格指标，而是提醒自己：不是每篇有名论文在当前阶段都同样有用。

例如：

一篇很有影响力的论文，可能离当前实验很远；
一篇 workshop 论文，可能有一个非常实用的消融实验；
一篇 survey 可能没有实现细节，但对定位研究方向很重要。

目标不是读完所有论文，而是把真正重要的论文读深。

5. 为实现而读

当我问自己“如果我要实现它，该怎么做”时，论文会变得具体很多。

我通常会写一个实现清单：

需要什么数据预处理？
模块之间传递哪些 tensor？
每个关键表示的 shape 是什么？
需要哪些 loss？
必须先复现哪个 baseline？
哪些消融实验最关键？
需要记录哪些日志来 debug？

对三维感知来说，tensor shape 尤其重要。

一个 occupancy 模型可能经历：

\[\text{images} \rightarrow \text{multi-view features} \rightarrow \text{3D / BEV tokens} \rightarrow \text{occupancy logits} \rightarrow \text{semantic occupancy grid}.\]

如果我不能清楚写出这些变换，说明我还没有真正理解这个方法。

6. 为消融实验而读

消融实验能暴露作者真正认为重要的东西。

读消融时，我会问：

哪个模块带来的提升最大？
在更强 baseline 下提升是否仍然成立？
性能提升来自提出的 idea，还是来自额外算力？
通信、延迟和显存是否公平测量？
是否缺少某些会挑战主要 claim 的消融？

对于我的 token communication 工作，重要消融包括：

固定 Top-K tokens 与自适应 token selection；
dense feature sharing 与 token communication；
有无 temporal memory；
sender-driven 与 receiver-driven communication；
不同带宽预算；
遮挡和稀疏智能体场景下的性能。

好的消融实验不只是证据，也是未来工作的地图。

7. 为研究品味而读

研究品味指的是判断什么问题值得做的能力。

读论文可以训练这种能力，但前提是主动阅读。

我会关注：

问题是基础性的，还是只针对某个 benchmark？
方法是否以优雅方式简化了问题？
如果换数据集，贡献是否仍然重要？
idea 是否连接更大的研究方向？
limitations 是否自然指向下一步工作？

在我目前的方向里，我越来越关注把感知和约束连接起来的论文：

有限带宽；
部分可观测；
时间不确定性；
部署成本；
下游规划价值。

这些约束让研究更难，但也让研究更有意义。

8. 总结

我觉得最有用的论文阅读习惯，是每次阅读后都产出一个 artifact。

读完一篇论文，我希望至少留下其中一种东西：

一篇结构化笔记；
一个实现清单；
一个消融想法；
一张图；
一个研究问题；
一段未来可以写进 research statement 的表述。

这会让论文阅读从被动消费变成主动研究准备。

对 Ph.D. 申请来说，重要的不是证明我读过很多论文，而是证明我能识别问题、理解方法、设计实验，并逐步形成连续的研究方向。

我如何为 Ph.D. 准备阅读论文