第 4 期: 自动化寻优循环实战(Running the Agent)
[Translation Pending]\n\n至此,环境的 baseline 已经准备完毕。在这一步,我们正式把一切控制权都移交给你的 AI Agent!无论你使用的是哪种底座,下面是整个调度体系的心流。
介入任意编程 AI
首先,在项目终端启动你的主流研发级模型,比如使用官方最推荐的命令行伴侣:
Claude CodeCodex- 开发机里的任意自主 Agent (如
Multica/OpenInterpreter)
为了安全考虑,必须禁用所有不相关的越权读写网络/底层系统硬件的 Permission,仅授予读写当前项目目录的权限。
发出总攻指令 (Prompt)
向你的 AI 发送如下最简单直接的一句指令(你可以用中文,或者原味英文):
Hi have a look at program.md and let's kick off a new experiment! let's do the setup first.(你好,请看一眼 program.md 文件,然后让我们发车启动全新实验!请先搞定 Setup 小测)
由于 program.md 被 Karpathy 定位为 "Super lightweight skill"(超级轻量技能包),Agent 一旦扫到这个文件,就会像被输入了 DNA 一样知道接下来的游戏规则是什么:它会主动修改代码、执行评估、查看 log 丢弃或保留。
Agent 的行为观察日志
在你离开电脑(或者去睡觉去喝咖啡)的时候,AI 将会进入绝对静默但高效的“打工流”:
- 分析你的
train.py里的架构盲点(比如发现注意力机制存在冗余)。 编辑文件-> 去掉或替换冗余特性。执行-> 开始满头大汗算力狂飙执行正好 5 分钟的验证试验。观测指标-> 如果最终 validation bits per byte (val_bpb) 下降了,则说明它的改进是绝佳的;如果没有改进,它会自行回滚代码,并撰写下一次假设来重新破局!
时间恒定理论的巨大威力: 正是因为规定死了5分钟的时间预算,任何诸如“调整学习率”、“放大模型”在内的取巧做法都能在等价的时间衡量下得到真正的校验!它将会找到在这个特定平台上,当前架构的最优解!