ARA：AI代理革新科学同行评审可重复性评估

随着现代科研产出规模和复杂度的不断攀升，传统的科学同行评审在评估研究的可重复性方面面临日益严峻的挑战。有效评估可重复性需要精准重建实验依赖关系、方法选择、数据流向以及结果生成过程，这往往超出了人类评审员能够投入的时间和精力。

为解决这一难题，研究人员提出了“代理式可重复性评估”（ARA）系统。ARA将可重复性评估形式化为一个基于科学文档的结构化推理任务。给定一篇论文，ARA通过AI代理自动提取一个有向工作流图，明确链接研究的来源、方法、实验和输出。随后，它利用结构化和基于内容的评分机制，评估该工作流图的重构性，从而完成对研究可重复性的评估。

为了验证ARA系统的通用性和有效性，研究团队在213篇ReScience C文章上进行了实验。这批文章构成了迄今为止规模最大、跨领域最广且经过人工验证的计算可重复性研究基准。实验结果表明，ARA在不同的LLM模型、模型温度和科学领域中，均能实现一致的工作流重构和评估能力。ARA在三个基准测试中达到了约61%的准确率，尤其在ReproBench和GoldStandardDB基准上，其准确率（ReproBench 60.71% vs. 36.84%；GoldStandardDB 61.68% vs. 43.56%）显著优于现有方法。这些成果突显了ARA在大规模应用中辅助人工评审的巨大潜力，并有望推动下一代科学同行评审的迭代升级。

ARA：AI代理革新科学同行评审可重复性评估

推荐阅读

微软Agent框架：AIContextProvider如何为智能体提供动态上下文

AI智能体深度集成：开发者构建全自动崩溃故障排查与修复工作流

AI智能SEO Agent实战：揭网站深层顽疾，远超人工审计

相关工具与资源推荐

相关技能市场

Matt Pocock's AI Skills

关联产品

openai-agents-python

AI-Search-Hub

caveman