ProgramBench

由 facebookresearch 研发

开源项目 Python 全球 free #llm-benchmarking#reverse-engineering#code-generation#program-synthesis

关于产品

ProgramBench 是由 facebookresearch 开发的一个基准测试，旨在评估语言模型（LLM）从零开始重建程序的能力。它挑战 AI Agent 仅根据已编译的二进制文件及其文档，来架构和实现一套完整的代码库，以复现原始程序的行为。这是一个评估大型语言模型在逆向工程和代码生成方面表现的重要工具。

核心能力

二进制到源代码的重建评估
评估AI Agent的程序架构与实现能力
提供标准数据集和排行榜进行性能比较
支持Python环境快速部署
专注于语言模型的逆向工程能力

支持平台

desktop

资源链接

访问官网 ↗ GitHub 仓库 ↗