ProgramBench
by facebookresearch
介绍
ProgramBench 是由 facebookresearch 开发的一个基准测试,旨在评估语言模型(LLM)从零开始重建程序的能力。它挑战 AI Agent 仅根据已编译的二进制文件及其文档,来架构和实现一套完整的代码库,以复现原始程序的行为。这是一个评估大型语言模型在逆向工程和代码生成方面表现的重要工具。
功能特征
- 二进制到源代码的重建评估
- 评估AI Agent的程序架构与实现能力
- 提供标准数据集和排行榜进行性能比较
- 支持Python环境快速部署
- 专注于语言模型的逆向工程能力
支持平台
desktop