第 4 期: 自动化寻优循环实战（Running the Agent）

3 MIN READ | UPDATED: 2026-05-07

[Translation Pending]\n\n至此，环境的 baseline 已经准备完毕。在这一步，我们正式把一切控制权都移交给你的 AI Agent！无论你使用的是哪种底座，下面是整个调度体系的心流。

介入任意编程 AI

首先，在项目终端启动你的主流研发级模型，比如使用官方最推荐的命令行伴侣：

为了安全考虑，必须禁用所有不相关的越权读写网络/底层系统硬件的 Permission，仅授予读写当前项目目录的权限。

向你的 AI 发送如下最简单直接的一句指令（你可以用中文，或者原味英文）：

Hi have a look at program.md and let's kick off a new experiment! let's do the setup first. （你好，请看一眼 program.md 文件，然后让我们发车启动全新实验！请先搞定 Setup 小测）

由于 program.md 被 Karpathy 定位为 "Super lightweight skill"（超级轻量技能包），Agent 一旦扫到这个文件，就会像被输入了 DNA 一样知道接下来的游戏规则是什么：它会主动修改代码、执行评估、查看 log 丢弃或保留。

在你离开电脑（或者去睡觉去喝咖啡）的时候，AI 将会进入绝对静默但高效的“打工流”：

分析你的 train.py 里的架构盲点（比如发现注意力机制存在冗余）。
编辑文件 -> 去掉或替换冗余特性。
执行 -> 开始满头大汗算力狂飙执行正好 5 分钟的验证试验。
观测指标 -> 如果最终 validation bits per byte (val_bpb) 下降了，则说明它的改进是绝佳的；如果没有改进，它会自行回滚代码，并撰写下一次假设来重新破局！

时间恒定理论的巨大威力： 正是因为规定死了5分钟的时间预算，任何诸如“调整学习率”、“放大模型”在内的取巧做法都能在等价的时间衡量下得到真正的校验！它将会找到在这个特定平台上，当前架构的最优解！