SOURCE // LABS

Claude Code 助力自动驾驶:Argoverse 2 场景挖掘四阶段方案解析

Claude Code 助力自动驾驶:Argoverse 2 场景挖掘四阶段方案解析

在自动驾驶领域,如何从海量的传感器数据中高效、精准地挖掘出关键交通场景(如强切入、紧急制动等边缘案例),一直是个核心难题。在 CVPR 2026Argoverse 2 场景挖掘挑战赛中,研究人员提交了一种颠覆传统的四阶段自动化解决方案,展示了 AI Agent(智能体)在垂直工业界代码编写与逻辑验证中的巨大潜力。

该系统完全摒弃了纯人工编写规则的繁琐过程,构建了包含自动生成、精细筛选、代码审查和视觉验证的闭环管线:

第一阶段:智能体自主代码生成。系统利用由 GLM 5.1 驱动的 Claude Code 智能体。该智能体能够理解自然语言定义的场景挖掘需求,并自主编写底层的 Python 挖掘代码,将物理世界中的场景语义转化为可执行的数据检索脚本。

第二阶段:迭代式训练集筛选。为了优化代码性能,系统引入了时序平衡准确率(Timestamp Balanced Accuracy, TBA)作为硬性指标。通过设定 0.8 的高阈值,迭代式筛选出最优质的 few-shot(少样本)示例,从而在少样本提示词中形成高质量的正向反馈闭环。

第三阶段:语义级代码双重审查。生成代码的稳定性至关重要。研究团队设计了独立的第二路 Claude Code 会话,专门对第一阶段生成的代码进行静态与语义审查,修复潜在的逻辑漏洞与边际效应,确保代码运行的鲁棒性。

第四阶段:多模态场景级终审。最后,为彻底消除误报,系统引入了多模态大模型 Qwen3-VL。它能够直接理解自动驾驶的多视角视频与 3D 点云场景,对代码检索出的片段进行“眼见为实”的视觉交叉验证,过滤掉不符合物理常识的假阳性数据,显著提升了 Argoverse 2 测试集上的最终表现。

AgentUpdate 深度解析

本方案不仅是自动驾驶场景挖掘的一次技术创新,更是 AI Agent 生态向高价值、高门槛工业领域渗透的典型范式。传统的场景挖掘严重依赖算法工程师手写复杂的几何与启发式规则,开发周期长且容错率低。该研究通过将 Claude Code 的代码生成能力、GLM 5.1 的通用推理能力,以及 Qwen3-VL 的多模态视觉感知能力有机结合,构建了一个具有自我演进能力的“全栈 Agent 团队”。这种“代码生成+双重审查+多模态视觉验证”的复合架构,相比于单一的大模型端到端输出,在可靠性和可解释性上有了质的飞跃。它预示着未来的 AI 工作流将不再是单兵作战,而是由不同特化属性的 Agent 协同完成复杂的软件工程与物理世界仿真任务,对工业级智能体落地具有极强的启发意义。