视觉语言模型(VLM)在图像地理定位任务中展现出巨大潜力,然而,它们在结构化地理推理和自主进化能力方面仍存在显著不足。当前主流方法大多依赖隐式参数记忆,这不仅容易利用过时知识,还可能产生“幻觉”推理。此外,现有的推理过程往往是“一次性”的,缺乏基于推理结果进行自我进化的反馈循环。
为解决这些挑战,研究人员提出了一种名为GeoSkill的训练无关框架,其核心是一个能够持续演化的“技能图谱”(Skill-Graph)。GeoSkill的运作机制分为几个关键阶段:首先是图谱初始化阶段,通过将人类专家的经验路径提炼成原子化的自然语言技能来构建初始的技能图谱。在执行阶段,GeoSkill利用一个推理模型,在当前技能图谱的指导下进行直接推理。最核心的是其“自主进化”机制,旨在实现系统的持续增长。该机制通过一个更大的模型,在来源于网络规模数据和经过验证的真实世界推理的图像-坐标对上执行多轮推理(rollouts)。
通过深入分析这些推理过程中成功与失败的轨迹,自主进化机制能够迭代地合成和剪枝技能,从而有效地扩展技能图谱并纠正地理偏见,而这一切都无需进行任何参数更新。实验结果表明,GeoSkill在GeoRC数据集上取得了令人满意的地理定位准确性和推理忠实度,同时在多样化的外部数据集上展现出卓越的泛化能力。更值得关注的是,其自主进化机制不仅促成了新颖且可验证技能的涌现,还显著增强了系统对真实世界地理知识的认知能力,使其超越了单一案例研究的局限性。