第 1 期: 什么是 Autoresearch?(概念与全景)
思想实验的起源
传统的机器学习实验室研究流程非常单线:查论文 -> 设计网络 -> 新建脚本 -> 写训练循环 -> 试错找 Bug -> 发到计算集群 -> 查看曲线下降。
Karpathy 提出:既然目前的 Agent 写代码能力已经如此强悍,为什么我们还要自己改架构?
Autoresearch 项目的目标极其直接且硬核:给你最基础的 train.py (单机单卡的最简 GPT 代码),以及一个目标验证集。然后把你最喜欢的编程大模型(比如 Claude Code)当做苦工,让它自动修改网络结构或超参数,自己保存最好的结构,扔掉更差的。
5分钟的时间沙盒
Autoresearch 最天才的一个设定就是不追求无限训练,而是设定极其严格的 5 分钟 (5-minute time budget) 时间控制。 它的基本判断法则如下:
- 5 分钟(剔除编译):AI 改完代码后,程序自动挂机开始无脑训练,时间一到立即切断训练。
- 唯一指标 - val_bpb:即 Validation bits per byte (测试集上的字节位元开销)。无论你的模型怎么膨胀缩小或修改词表 (Vocab),BPB 指标始终是可类比对照的!
- 优胜劣汰:AI 会在训练结束后被注入这份性能报告日志。如果
val_bpb变小了(变好了),AI 就会在这套改好的代码基础上继续深挖;如果爆炸了或者没变好,它会自动回退 (Discard)。
在此规则下,Agent 可以做到一小时尝试 12个创意,一晚上(你睡觉时) 跑完 100个试验。醒来时等待你的,是一套真正经过物理验证的最佳模型架构!