第 3 期: 核心架构剖析(三个决定性文件)
[Translation Pending]\n\n相较于其他数以百计的文件,autoresearch 坚持了极端的轻量主义。里面其实只有三个最重要的骨架文件。分清它们,你才懂这个系统在玩什么概念:
1. prepare.py (不碰,给系统的铁律)
- 作用:数据预处理的神器。里面包含了固定的常量配置(Constants)、一次性数据的获取准备(数据集下载/Tokenize打包),甚至兼顾了 Dataloader 和评估器的组件调用。
- 权限:人类和 AI 都不准改! 这确保了只要用这作为底座,所有的测试都在同一个评估标准下。
2. train.py (随便碰,Agent 发挥的画板)
- 作用:这就是沙盒的灵魂。里面装载了核心架构:整个包含所有层的 GPT 模型定义、强效优化器 (Muon + AdamW 混编)以及 5 分钟计时长的 Training 循环。
- 权限:这是只属于 AI Agent 的游乐场!你可以看成这是一个白板。如果系统要尝试新的 Flash Attention 或者调整 Batch Size 甚至是删掉 LayerNorm 改用新特性层,通通在这个文件里动手。
3. program.md (人类改的终极指挥棒)
- 作用:基线指导声明(Baseline instructions)。
- 权限:只有研究员(人类/你)会在这留下指令。
- 核心解读:研究员在
program.md里用自然语言告诉 AI 诸如:“不要改变评估接口”、“尝试降低计算瓶颈”、“可以调整注意力头” 等法则。把智能体 (Agent) 引向这个 markdown 文件,它就会心领神会。
这也是为什么大家惊呼这个代码写得非常“后现代”:研究人员以前都在熬夜调 train.py;但在现在,研究人员只负责写一份名叫 program.md 的 Markdown 指令就去睡觉了。