随着现代科研产出规模和复杂度的不断攀升,传统的科学同行评审在评估研究的可重复性方面面临日益严峻的挑战。有效评估可重复性需要精准重建实验依赖关系、方法选择、数据流向以及结果生成过程,这往往超出了人类评审员能够投入的时间和精力。
为解决这一难题,研究人员提出了“代理式可重复性评估”(ARA)系统。ARA将可重复性评估形式化为一个基于科学文档的结构化推理任务。给定一篇论文,ARA通过AI代理自动提取一个有向工作流图,明确链接研究的来源、方法、实验和输出。随后,它利用结构化和基于内容的评分机制,评估该工作流图的重构性,从而完成对研究可重复性的评估。
为了验证ARA系统的通用性和有效性,研究团队在213篇ReScience C文章上进行了实验。这批文章构成了迄今为止规模最大、跨领域最广且经过人工验证的计算可重复性研究基准。实验结果表明,ARA在不同的LLM模型、模型温度和科学领域中,均能实现一致的工作流重构和评估能力。ARA在三个基准测试中达到了约61%的准确率,尤其在ReproBench和GoldStandardDB基准上,其准确率(ReproBench 60.71% vs. 36.84%;GoldStandardDB 61.68% vs. 43.56%)显著优于现有方法。这些成果突显了ARA在大规模应用中辅助人工评审的巨大潜力,并有望推动下一代科学同行评审的迭代升级。