AI Agent 和具身智能正在成为未来智能系统的重要方向。传统计算机视觉通常关注图像或视频理解，而具身智能提出了更大的问题：

一个智能体如何感知、记忆、推理、规划并在物理世界中行动？

对我的 Ph.D. 准备而言，我更关注 embodied agent 的感知和世界建模层。三维感知、语义占用预测、协同感知和占用世界模型，都可以看作是在为智能体构建结构化场景表示。

1. 什么是 AI Agent

AI Agent 是能够感知环境、做出决策并采取行动以实现目标的系统。

一个通用循环可以写作：

Observation → Perception → Memory → Reasoning / Planning → Action → New Observation

这和静态预测任务不同。在图像分类中，模型输入图像并输出标签；在 agent 系统中，输出动作会改变未来输入分布。

Agent 通常包含：

observation；
state representation；
memory；
planner 或 policy；
action space；
goal 或 reward。

2. Agent 架构

典型 agent 架构包括：

感知模块：从传感器数据中提取信息；
记忆模块：存储过去观测和状态；
世界模型：预测环境如何变化；
规划器或策略：根据目标选择行动；
控制器：执行低层动作。

在真实系统中，这些模块可能是端到端学习的，也可能是模块化设计的，或者二者结合。

3. 具身智能

具身智能研究能够在物理或仿真环境中感知和行动的智能体。它强调智能不是静态数据上的预测，而是与环境交互中形成的能力。

具身智能系统通常具有：

身体或载体；
传感器；
可执行动作；
空间和时间推理能力；
环境反馈；
目标驱动行为。

自动驾驶车辆也可以看作具身智能体，因为它需要感知道路、预测交通参与者并通过控制动作影响未来状态。

4. 感知-行动闭环

具身智能的核心是感知-行动闭环：

Sense → Understand → Decide → Act → Sense Again

这个闭环带来几个挑战：

感知错误会影响未来动作；
动作会改变未来观测；
智能体必须在不确定性下决策；
环境是动态的；
决策需要实时完成。

如果自动驾驶车辆错误地把某个区域预测为 free space，规划器可能会选择危险轨迹。这说明可靠三维感知对具身智能非常关键。

5. 具身感知

具身感知是为行动服务的感知。它不同于普通图像识别，需要考虑：

ego-motion；
partial observability；
occlusion；
active viewpoint selection；
temporal memory；
physical constraints；
action consequences。

语义占用预测是具身感知的自然表示，因为它直接描述三维空间中的 free、occupied 和 semantic 状态。

6. 记忆与世界模型

智能体只观察到世界的一部分，因此记忆是必要的。

记忆可以包括：

RNN hidden state；
Transformer memory token；
spatial map；
object memory；
episodic memory；
tokenized scene memory。

世界模型则预测未来状态：

\[z_{t+1}=f_\theta(z_t,a_t).\]

对于感知系统，世界模型可以预测未来 occupancy：

\[\hat{O}_{t+1:t+H}=f_\theta(O_{1:t}).\]

这与我的 occupancy world model 方向直接相关。

7. 多智能体与协作

许多真实智能系统都不是单智能体。自动驾驶车辆、机器人团队、无人机群和路侧基础设施都可以形成多智能体系统。

多智能体感知的优势包括：

减少遮挡；
扩展视野；
提高远距离感知；
提供互补视角；
增强鲁棒性。

挑战包括通信带宽、位姿对齐、时间同步、消息噪声和 agent selection。

这正是协同感知研究的核心。

8. 与自动驾驶的联系

自动驾驶可以看作动态、安全关键环境中的具身智能问题。

车辆需要：

感知当前三维场景；
记忆过去状态；
预测未来运动；
理解不确定性；
做出安全决策；
与其他智能体交互。

因此，三维占用、协同感知和世界模型都可以放在具身智能框架下理解。

9. 总结

我对 AI Agent 和具身智能的兴趣主要集中在感知和世界建模层。

长期来看，我希望研究的问题是：智能体如何在有限观测、有限通信和动态环境中建立可靠的三维世界表示，并利用这种表示预测未来。

AI Agent 与具身智能