探索与 program-synthesis 相关的全量生态内容池。
ProgramBench 是由 facebookresearch 开发的一个基准测试,旨在评估语言模型(LLM)从零开始重建程序的能力。它挑战 AI Agent 仅根据已编译的二进制文件及其文档,来架构和实现一套完整的代码库,以复现原始程序的行为。这是一个评估大型语言模型在逆向工程和代码生成方面表现的重要工具。