第 10 期 | 性能基准与最佳实践 — 把 Caveman 融入你的开发工作流
💡 进群学习加 wx: agentupdate
(申请发送: agentupdate)
(申请发送: agentupdate)
🎯 学习目标
学完本期你将掌握:
- 如何运行 Caveman 官方 Benchmark 和 Eval 套件
- 三臂评估方法论:为什么 Caveman 比"请简短回答"更好
- 完整的日常开发工作流:从启动到提交的全链路
- 不同场景下的最佳档位选择策略
📖 核心内容
10.1 官方 Benchmark 数据
Caveman 的 Token 压缩效果不是自吹自擂——它有真实的 Claude API Token 计数数据支撑。
| 测试 Prompt | 正常 Token | Caveman Token | 压缩率 |
|---|---|---|---|
| React re-render 解释 | 69 | 19 | 72% |
| Auth middleware Bug | 89 | 23 | 74% |
| TypeScript 泛型教学 | 156 | 42 | 73% |
| Express 性能优化建议 | 203 | 51 | 75% |
| Docker 部署排障 | 178 | 38 | 79% |
| 数据库索引优化 | 145 | 33 | 77% |
| CSS Grid 布局指导 | 112 | 28 | 75% |
| Git 分支策略建议 | 98 | 24 | 76% |
统计摘要:
- 范围:22% — 87%
- 平均:~71-75%
- 中位数:~75%
💡 重要: Caveman 只影响输出 Token。思考/推理 Token 完全不受影响。Caveman 不会让大脑变小,只让嘴巴变小。
10.2 运行官方基准测试
你可以自己复现这些数据:
# 克隆仓库
git clone https://github.com/JuliusBrussee/caveman.git
cd caveman
# 运行 LLM 评估 (需要 Claude CLI 和有效的 API Key)
uv run python evals/llm_run.py
# 离线分析结果 (无需 API Key)
uv run --with tiktoken python evals/measure.py
三臂评估设计 (Three-Arm Eval)
Caveman 的 Eval 不是简单地比较"正常 vs Caveman"——那会混淆 Caveman 的效果和"泛泛的简短指令"。
graph TD
A["三臂评估设计"]
A --> B["Arm 1: Verbose
(无任何约束)
Claude 正常回答"]
A --> C["Arm 2: Terse
(只说 'be brief')
通用简短指令"]
A --> D["Arm 3: Caveman
(完整 Skill 规则)
结构化压缩"]
B --> E["基线对照"]
C --> F["证明 Caveman ≠ 简单地说'请简短'"]
D --> G["真实压缩效果"]
F -.->|"对比"| G为什么需要三臂?
如果只比较 Verbose vs Caveman,你无法区分压缩效果是来自:
- Caveman 的结构化规则(
[thing] [action] [reason]模式) - 还是只是因为你告诉了 Agent "请简短回答"
三臂设计中,Arm 2 (Terse) 就是控制组——它只说"be brief"。如果 Caveman 比 Terse 还省更多 Token 且保持更高准确性,就证明了 Caveman 的规则设计本身有价值,而不仅仅是"要求简短"。
实测结果:Caveman 比 Terse 模式额外多省 15-25% Token,且技术准确性更高。
10.3 学术背景:简短 ≠ 粗糙
2026 年 3 月的论文 "Brevity Constraints Reverse Performance Hierarchies in Language Models" 发现:
graph LR
A["传统假设
更多 Token = 更好回答"] -->|"❌ 论文推翻"| B["实验结果
简短约束提升准确率 26%"]
C["大模型 (冗长)"] -->|"加简短约束"| D["准确率提升"]
E["小模型 (简洁)"] -->|"无约束"| F["准确率反而更高"]
D --> G["结论: 冗长是噪声
不是信号"]
F --> G核心发现:
- 简短约束提升准确率 26 个百分点(在特定基准上)
- 逆转模型排名:原本表现更差的小模型,在简短约束下反而超过了大模型
- 冗长是噪声:模型花在修辞上的算力本可以用于推理
这从学术层面验证了 Caveman 的核心假设:去掉废话,推理更准。
10.4 完整的 Caveman 日常工作流
graph TD
A["🚀 启动 Agent 会话"] --> B["Hook 自动激活 Caveman
[CAVEMAN] 徽章亮起"]
B --> C{"开发阶段"}
C -->|"🔨 编码"| D["🪨 /caveman full
简洁技术回答
排查问题、写代码"]
C -->|"🐛 调试"| E["🔥 /caveman ultra
极速排障
最少文字直击要点"]
C -->|"📖 学习"| F["🪶 /caveman lite
保留完整句子
理解概念更轻松"]
C -->|"🇨🇳 中文项目"| G["📜 /caveman wenyan
文言文模式
中文 Token 最省"]
D --> H["✅ 代码修改完成"]
E --> H
F --> H
G --> H
H --> I["🔍 /caveman-review
一行式代码审查
L42: 🔴 bug: ..."]
I --> J{"审查通过?"}
J -->|"❌ 有问题"| K["修复问题"]
K --> I
J -->|"✅ 通过"| L["📝 /caveman-commit
精炼 commit message
fix(auth): token <= not <"]
L --> M["📦 git push"]
M --> N["🗜️ /caveman:compress
压缩 CLAUDE.md
为下次会话省 Token"]
N --> O["🎉 完成!"]
style B fill:#FFD700
style I fill:#87CEEB
style L fill:#90EE90
style N fill:#DDA0DD10.5 场景 × 档位选择矩阵
| 工作场景 | 推荐档位 | 原因 |
|---|---|---|
| 日常编码 | full |
平衡可读性和压缩率 |
| 快速 Debug | ultra |
最少文字直击根因 |
| 学习新技术 | lite |
需要更多解释上下文 |
| 代码审查 | /caveman-review |
专用审查格式 |
| Git 提交 | /caveman-commit |
专用 commit 格式 |
| 写文档 | 正常模式 | 文档需要完整表达 |
| 中文项目 | wenyan |
中文 Token 更省 |
| Pair Programming | lite |
同事也需要读懂 |
| CI/CD 审查 | ultra + review |
机器消费,越短越好 |
| 上下文压缩 | /caveman:compress |
压缩 CLAUDE.md |
10.6 各平台完整工作流对比
| 工作流步骤 | Claude Code | Antigravity | Gemini CLI | Codex | OpenCode |
|---|---|---|---|---|---|
| 1. 会话启动 | Hook 自动激活 | GEMINI.md 规则 | Extension 自动 | hooks.json | AGENTS.md |
| 2. 模式切换 | /caveman ultra |
自然语言 | /caveman ultra |
$caveman ultra |
自然语言 |
| 3. 编码交互 | ✅ 完整 Tool 调用 | ✅ 完整 Tool 调用 | ✅ 完整 Tool 调用 | ✅ 完整 Tool 调用 | ✅ 完整 Tool 调用 |
| 4. 代码审查 | /caveman-review |
自然语言 | /caveman-review |
$caveman-review |
自然语言 |
| 5. 提交代码 | /caveman-commit |
自然语言 | /caveman-commit |
$caveman-commit |
自然语言 |
| 6. 压缩上下文 | /caveman:compress |
自然语言 | /caveman:compress |
$caveman-compress |
自然语言 |
| 7. 状态监控 | ✅ [CAVEMAN:MODE] |
❌ | ❌ | ❌ | ❌ |
| 8. 退出 Caveman | "stop caveman" | "stop caveman" | "stop caveman" | "stop caveman" | "stop caveman" |
10.7 进阶最佳实践
实践 1:CLAUDE.md 分层策略
~/.claude/CLAUDE.md ← 全局 Caveman always-on (所有项目生效)
<project>/CLAUDE.md ← 项目特定规则 (已 compress 压缩)
<project>/CLAUDE.original.md ← 人类可读原文 (编辑这个)
实践 2:团队统一配置
# 在项目根目录提交 Caveman 配置
echo 'Terse like caveman. Technical substance exact...' >> CLAUDE.md
echo 'Terse like caveman. Technical substance exact...' >> GEMINI.md
# 让所有团队成员使用同样的 Caveman 行为
git add CLAUDE.md GEMINI.md
git commit -m "chore: add caveman always-on for team"
实践 3:CI/CD 集成
# .github/workflows/pr-review.yml
- name: Caveman Code Review
run: |
# 使用 Claude Code Action + caveman-review 规则
# 每个 PR 自动获得一行式审查
实践 4:与 cavemem 组合使用
# 安装 cavemem (记忆压缩)
# 与 caveman (输出压缩) 组合,双重优化
npm install -g cavemem
# caveman 压缩输出 → 省输出 Token
# cavemem 压缩记忆 → 省输入 Token
# 两者组合 → 总 Token 消耗降低 60%+
实践 5:自定义 Caveman 规则
如果你需要特定领域的 Caveman 规则,可以创建自定义 Skill:
<!-- .claude/skills/my-caveman/SKILL.md -->
## My Custom Caveman Rules
Base: Terse like caveman. Technical substance exact.
Additional rules for this project:
- Always mention file paths in full
- Include line numbers when discussing bugs
- Use Chinese for variable name explanations
- Keep API endpoint paths in backticks
📊 投资回报总结
graph LR
subgraph Investment["💰 投入"]
A1["安装: 1 分钟"]
A2["配置: 5 分钟"]
A3["学习: 本教程 10 期"]
end
subgraph Return["📈 回报"]
B1["输出 Token: -75%"]
B2["输入 Token: -46%"]
B3["响应速度: +3x"]
B4["月费用: -$46"]
B5["可读性: ↑"]
end
Investment --> Return| 指标 | 无 Caveman | 有 Caveman | 改善幅度 |
|---|---|---|---|
| 平均每次回答 Token | ~300 | ~80 | -73% |
| 每次会话输入 Token | ~2800 | ~1500 | -46% |
| 每日 Token 消耗 | ~68,000 | ~19,200 | -72% |
| 每月费用 (估算) | ~$63 | ~$17 | -$46/月 |
| 回答阅读时间 | ~15 秒 | ~5 秒 | -66% |
| 技术准确性 | 100% | 100% | 不变 |
📝 全系列回顾
| 期数 | 主题 | 核心收获 |
|---|---|---|
| 01 | Caveman 是什么 | Token 压缩哲学 + 生态全景 |
| 02 | 三大平台安装 | Claude Code / Antigravity / Gemini CLI 安装对比 |
| 03 | Hooks 深度解析 | 自动激活引擎 + Flag File 机制 |
| 04 | 四档变速 | Lite / Full / Ultra / 文言文 + 切换方法 |
| 05 | /caveman 核心 Skill | 日常开发实战 + 回答模式 |
| 06 | /caveman-commit | 精炼 Git 提交 + Git Hook 集成 |
| 07 | /caveman-review | 一行式代码审查 + GitHub Actions |
| 08 | /caveman:compress | 压缩 CLAUDE.md + 输入 Token 优化 |
| 09 | Always-On 配置 | 五大平台规则文件 + 团队共享 |
| 10 | 基准 + 最佳实践 | 完整工作流 + 投资回报 |
🎓 毕业任务
完成以下任务,你就是一个合格的 Caveman 使用者:
- 在你的主力 Agent 上安装 Caveman
- 用
full模式完成一次完整的功能开发 - 用
/caveman-review审查自己的代码 - 用
/caveman-commit生成 commit message - 用
/caveman:compress压缩你的 CLAUDE.md - 配置 Always-On,确保下次会话自动生效
- (加分)将配置提交到 Git,让团队也用上 Caveman