第 1 期: 什么是 Autoresearch？（概念与全景）

3 分钟阅读 | 更新于：2026-05-07

思想实验的起源

传统的机器学习实验室研究流程非常单线：查论文 -> 设计网络 -> 新建脚本 -> 写训练循环 -> 试错找 Bug -> 发到计算集群 -> 查看曲线下降。

Karpathy 提出：既然目前的 Agent 写代码能力已经如此强悍，为什么我们还要自己改架构？

Autoresearch 项目的目标极其直接且硬核：给你最基础的 train.py (单机单卡的最简 GPT 代码)，以及一个目标验证集。然后把你最喜欢的编程大模型（比如 Claude Code）当做苦工，让它自动修改网络结构或超参数，自己保存最好的结构，扔掉更差的。

Autoresearch 最天才的一个设定就是不追求无限训练，而是设定极其严格的 5 分钟 (5-minute time budget) 时间控制。它的基本判断法则如下：

5 分钟（剔除编译）：AI 改完代码后，程序自动挂机开始无脑训练，时间一到立即切断训练。
唯一指标 - val_bpb：即 Validation bits per byte (测试集上的字节位元开销)。无论你的模型怎么膨胀缩小或修改词表 (Vocab)，BPB 指标始终是可类比对照的！
优胜劣汰：AI 会在训练结束后被注入这份性能报告日志。如果 val_bpb 变小了（变好了），AI 就会在这套改好的代码基础上继续深挖；如果爆炸了或者没变好，它会自动回退 (Discard)。

在此规则下，Agent 可以做到一小时尝试 12个创意，一晚上(你睡觉时) 跑完 100个试验。醒来时等待你的，是一套真正经过物理验证的最佳模型架构！