第 10 期 | 性能基准与最佳实践 — 把 Caveman 融入你的开发工作流 — 🪨 Caveman 完全指南：让 AI Agent 省 75% Token 的终极武器

🎯 学习目标

学完本期你将掌握：

如何运行 Caveman 官方 Benchmark 和 Eval 套件
三臂评估方法论：为什么 Caveman 比"请简短回答"更好
完整的日常开发工作流：从启动到提交的全链路
不同场景下的最佳档位选择策略

📖 核心内容

10.1 官方 Benchmark 数据

Caveman 的 Token 压缩效果不是自吹自擂——它有真实的 Claude API Token 计数数据支撑。

测试 Prompt	正常 Token	Caveman Token	压缩率
React re-render 解释	69	19	72%
Auth middleware Bug	89	23	74%
TypeScript 泛型教学	156	42	73%
Express 性能优化建议	203	51	75%
Docker 部署排障	178	38	79%
数据库索引优化	145	33	77%
CSS Grid 布局指导	112	28	75%
Git 分支策略建议	98	24	76%

统计摘要：

范围：22% — 87%
平均：~71-75%
中位数：~75%

💡 重要: Caveman 只影响输出 Token。思考/推理 Token 完全不受影响。Caveman 不会让大脑变小，只让嘴巴变小。

10.2 运行官方基准测试

你可以自己复现这些数据：

# 克隆仓库
git clone https://github.com/JuliusBrussee/caveman.git
cd caveman

# 运行 LLM 评估 (需要 Claude CLI 和有效的 API Key)
uv run python evals/llm_run.py

# 离线分析结果 (无需 API Key)
uv run --with tiktoken python evals/measure.py

三臂评估设计 (Three-Arm Eval)

Caveman 的 Eval 不是简单地比较"正常 vs Caveman"——那会混淆 Caveman 的效果和"泛泛的简短指令"。

graph TD
    A["三臂评估设计"]
    
    A --> B["Arm 1: Verbose
(无任何约束)
Claude 正常回答"]
    A --> C["Arm 2: Terse
(只说 'be brief')
通用简短指令"]
    A --> D["Arm 3: Caveman
(完整 Skill 规则)
结构化压缩"]
    
    B --> E["基线对照"]
    C --> F["证明 Caveman ≠ 简单地说'请简短'"]
    D --> G["真实压缩效果"]
    
    F -.->|"对比"| G

为什么需要三臂？

如果只比较 Verbose vs Caveman，你无法区分压缩效果是来自：

Caveman 的结构化规则（[thing] [action] [reason] 模式）
还是只是因为你告诉了 Agent "请简短回答"

三臂设计中，Arm 2 (Terse) 就是控制组——它只说"be brief"。如果 Caveman 比 Terse 还省更多 Token 且保持更高准确性，就证明了 Caveman 的规则设计本身有价值，而不仅仅是"要求简短"。

实测结果：Caveman 比 Terse 模式额外多省 15-25% Token，且技术准确性更高。

10.3 学术背景：简短 ≠ 粗糙

2026 年 3 月的论文 "Brevity Constraints Reverse Performance Hierarchies in Language Models" 发现：

graph LR
    A["传统假设
更多 Token = 更好回答"] -->|"❌ 论文推翻"| B["实验结果
简短约束提升准确率 26%"]
    
    C["大模型 (冗长)"] -->|"加简短约束"| D["准确率提升"]
    E["小模型 (简洁)"] -->|"无约束"| F["准确率反而更高"]
    
    D --> G["结论: 冗长是噪声
不是信号"]
    F --> G

核心发现：

简短约束提升准确率 26 个百分点（在特定基准上）
逆转模型排名：原本表现更差的小模型，在简短约束下反而超过了大模型
冗长是噪声：模型花在修辞上的算力本可以用于推理

这从学术层面验证了 Caveman 的核心假设：去掉废话，推理更准。

10.4 完整的 Caveman 日常工作流

graph TD
    A["🚀 启动 Agent 会话"] --> B["Hook 自动激活 Caveman
[CAVEMAN] 徽章亮起"]
    
    B --> C{"开发阶段"}
    
    C -->|"🔨 编码"| D["🪨 /caveman full
简洁技术回答
排查问题、写代码"]
    
    C -->|"🐛 调试"| E["🔥 /caveman ultra
极速排障
最少文字直击要点"]
    
    C -->|"📖 学习"| F["🪶 /caveman lite
保留完整句子
理解概念更轻松"]
    
    C -->|"🇨🇳 中文项目"| G["📜 /caveman wenyan
文言文模式
中文 Token 最省"]
    
    D --> H["✅ 代码修改完成"]
    E --> H
    F --> H
    G --> H
    
    H --> I["🔍 /caveman-review
一行式代码审查
L42: 🔴 bug: ..."]
    
    I --> J{"审查通过?"}
    J -->|"❌ 有问题"| K["修复问题"]
    K --> I
    
    J -->|"✅ 通过"| L["📝 /caveman-commit
精炼 commit message
fix(auth): token <= not <"]
    
    L --> M["📦 git push"]
    
    M --> N["🗜️ /caveman:compress
压缩 CLAUDE.md
为下次会话省 Token"]
    
    N --> O["🎉 完成!"]
    
    style B fill:#FFD700
    style I fill:#87CEEB
    style L fill:#90EE90
    style N fill:#DDA0DD

10.5 场景 × 档位选择矩阵

工作场景	推荐档位	原因
日常编码	`full`	平衡可读性和压缩率
快速 Debug	`ultra`	最少文字直击根因
学习新技术	`lite`	需要更多解释上下文
代码审查	`/caveman-review`	专用审查格式
Git 提交	`/caveman-commit`	专用 commit 格式
写文档	正常模式	文档需要完整表达
中文项目	`wenyan`	中文 Token 更省
Pair Programming	`lite`	同事也需要读懂
CI/CD 审查	`ultra` + `review`	机器消费，越短越好
上下文压缩	`/caveman:compress`	压缩 CLAUDE.md

10.6 各平台完整工作流对比

工作流步骤	Claude Code	Antigravity	Gemini CLI	Codex	OpenCode
1. 会话启动	Hook 自动激活	GEMINI.md 规则	Extension 自动	hooks.json	AGENTS.md
2. 模式切换	`/caveman ultra`	自然语言	`/caveman ultra`	`$caveman ultra`	自然语言
3. 编码交互	✅ 完整 Tool 调用	✅ 完整 Tool 调用	✅ 完整 Tool 调用	✅ 完整 Tool 调用	✅ 完整 Tool 调用
4. 代码审查	`/caveman-review`	自然语言	`/caveman-review`	`$caveman-review`	自然语言
5. 提交代码	`/caveman-commit`	自然语言	`/caveman-commit`	`$caveman-commit`	自然语言
6. 压缩上下文	`/caveman:compress`	自然语言	`/caveman:compress`	`$caveman-compress`	自然语言
7. 状态监控	✅ `[CAVEMAN:MODE]`	❌	❌	❌	❌
8. 退出 Caveman	"stop caveman"	"stop caveman"	"stop caveman"	"stop caveman"	"stop caveman"

10.7 进阶最佳实践

实践 1：CLAUDE.md 分层策略

~/.claude/CLAUDE.md          ← 全局 Caveman always-on (所有项目生效)
<project>/CLAUDE.md          ← 项目特定规则 (已 compress 压缩)
<project>/CLAUDE.original.md ← 人类可读原文 (编辑这个)

实践 2：团队统一配置

# 在项目根目录提交 Caveman 配置
echo 'Terse like caveman. Technical substance exact...' >> CLAUDE.md
echo 'Terse like caveman. Technical substance exact...' >> GEMINI.md

# 让所有团队成员使用同样的 Caveman 行为
git add CLAUDE.md GEMINI.md
git commit -m "chore: add caveman always-on for team"

实践 3：CI/CD 集成

# .github/workflows/pr-review.yml
- name: Caveman Code Review
  run: |
    # 使用 Claude Code Action + caveman-review 规则
    # 每个 PR 自动获得一行式审查

实践 4：与 cavemem 组合使用

# 安装 cavemem (记忆压缩)
# 与 caveman (输出压缩) 组合，双重优化
npm install -g cavemem

# caveman 压缩输出 → 省输出 Token
# cavemem 压缩记忆 → 省输入 Token  
# 两者组合 → 总 Token 消耗降低 60%+

实践 5：自定义 Caveman 规则

如果你需要特定领域的 Caveman 规则，可以创建自定义 Skill：

<!-- .claude/skills/my-caveman/SKILL.md -->
## My Custom Caveman Rules

Base: Terse like caveman. Technical substance exact.

Additional rules for this project:
- Always mention file paths in full
- Include line numbers when discussing bugs
- Use Chinese for variable name explanations
- Keep API endpoint paths in backticks

📊 投资回报总结

graph LR
    subgraph Investment["💰 投入"]
        A1["安装: 1 分钟"]
        A2["配置: 5 分钟"]
        A3["学习: 本教程 10 期"]
    end
    
    subgraph Return["📈 回报"]
        B1["输出 Token: -75%"]
        B2["输入 Token: -46%"]
        B3["响应速度: +3x"]
        B4["月费用: -$46"]
        B5["可读性: ↑"]
    end
    
    Investment --> Return

指标	无 Caveman	有 Caveman	改善幅度
平均每次回答 Token	~300	~80	-73%
每次会话输入 Token	~2800	~1500	-46%
每日 Token 消耗	~68,000	~19,200	-72%
每月费用 (估算)	~$63	~$17	-$46/月
回答阅读时间	~15 秒	~5 秒	-66%
技术准确性	100%	100%	不变

📝 全系列回顾

期数	主题	核心收获
01	Caveman 是什么	Token 压缩哲学 + 生态全景
02	三大平台安装	Claude Code / Antigravity / Gemini CLI 安装对比
03	Hooks 深度解析	自动激活引擎 + Flag File 机制
04	四档变速	Lite / Full / Ultra / 文言文 + 切换方法
05	/caveman 核心 Skill	日常开发实战 + 回答模式
06	/caveman-commit	精炼 Git 提交 + Git Hook 集成
07	/caveman-review	一行式代码审查 + GitHub Actions
08	/caveman:compress	压缩 CLAUDE.md + 输入 Token 优化
09	Always-On 配置	五大平台规则文件 + 团队共享
10	基准 + 最佳实践	完整工作流 + 投资回报

🎓 毕业任务

完成以下任务，你就是一个合格的 Caveman 使用者：

在你的主力 Agent 上安装 Caveman
用 full 模式完成一次完整的功能开发
用 /caveman-review 审查自己的代码
用 /caveman-commit 生成 commit message
用 /caveman:compress 压缩你的 CLAUDE.md
配置 Always-On，确保下次会话自动生效
（加分）将配置提交到 Git，让团队也用上 Caveman

第 10 期 | 性能基准与最佳实践 — 把 Caveman 融入你的开发工作流