第 10 期 | 性能基准与最佳实践 — 把 Caveman 融入你的开发工作流

⏱ 预计阅读 17 分钟 更新于 2026/5/7
💡 进群学习加 wx: agentupdate
(申请发送: agentupdate)

🎯 学习目标

学完本期你将掌握:

  1. 如何运行 Caveman 官方 Benchmark 和 Eval 套件
  2. 三臂评估方法论:为什么 Caveman 比"请简短回答"更好
  3. 完整的日常开发工作流:从启动到提交的全链路
  4. 不同场景下的最佳档位选择策略

📖 核心内容

10.1 官方 Benchmark 数据

Caveman 的 Token 压缩效果不是自吹自擂——它有真实的 Claude API Token 计数数据支撑。

测试 Prompt 正常 Token Caveman Token 压缩率
React re-render 解释 69 19 72%
Auth middleware Bug 89 23 74%
TypeScript 泛型教学 156 42 73%
Express 性能优化建议 203 51 75%
Docker 部署排障 178 38 79%
数据库索引优化 145 33 77%
CSS Grid 布局指导 112 28 75%
Git 分支策略建议 98 24 76%

统计摘要:

  • 范围:22% — 87%
  • 平均:~71-75%
  • 中位数:~75%

💡 重要: Caveman 只影响输出 Token。思考/推理 Token 完全不受影响。Caveman 不会让大脑变小,只让嘴巴变小。

10.2 运行官方基准测试

你可以自己复现这些数据:

# 克隆仓库
git clone https://github.com/JuliusBrussee/caveman.git
cd caveman

# 运行 LLM 评估 (需要 Claude CLI 和有效的 API Key)
uv run python evals/llm_run.py

# 离线分析结果 (无需 API Key)
uv run --with tiktoken python evals/measure.py

三臂评估设计 (Three-Arm Eval)

Caveman 的 Eval 不是简单地比较"正常 vs Caveman"——那会混淆 Caveman 的效果和"泛泛的简短指令"。

graph TD
    A["三臂评估设计"]
    
    A --> B["Arm 1: Verbose
(无任何约束)
Claude 正常回答"] A --> C["Arm 2: Terse
(只说 'be brief')
通用简短指令"] A --> D["Arm 3: Caveman
(完整 Skill 规则)
结构化压缩"] B --> E["基线对照"] C --> F["证明 Caveman ≠ 简单地说'请简短'"] D --> G["真实压缩效果"] F -.->|"对比"| G

为什么需要三臂?

如果只比较 Verbose vs Caveman,你无法区分压缩效果是来自:

  • Caveman 的结构化规则([thing] [action] [reason] 模式)
  • 还是只是因为你告诉了 Agent "请简短回答"

三臂设计中,Arm 2 (Terse) 就是控制组——它只说"be brief"。如果 Caveman 比 Terse 还省更多 Token 且保持更高准确性,就证明了 Caveman 的规则设计本身有价值,而不仅仅是"要求简短"。

实测结果:Caveman 比 Terse 模式额外多省 15-25% Token,且技术准确性更高。

10.3 学术背景:简短 ≠ 粗糙

2026 年 3 月的论文 "Brevity Constraints Reverse Performance Hierarchies in Language Models" 发现:

graph LR
    A["传统假设
更多 Token = 更好回答"] -->|"❌ 论文推翻"| B["实验结果
简短约束提升准确率 26%"] C["大模型 (冗长)"] -->|"加简短约束"| D["准确率提升"] E["小模型 (简洁)"] -->|"无约束"| F["准确率反而更高"] D --> G["结论: 冗长是噪声
不是信号"] F --> G

核心发现:

  1. 简短约束提升准确率 26 个百分点(在特定基准上)
  2. 逆转模型排名:原本表现更差的小模型,在简短约束下反而超过了大模型
  3. 冗长是噪声:模型花在修辞上的算力本可以用于推理

这从学术层面验证了 Caveman 的核心假设:去掉废话,推理更准。

10.4 完整的 Caveman 日常工作流

graph TD
    A["🚀 启动 Agent 会话"] --> B["Hook 自动激活 Caveman
[CAVEMAN] 徽章亮起"] B --> C{"开发阶段"} C -->|"🔨 编码"| D["🪨 /caveman full
简洁技术回答
排查问题、写代码"] C -->|"🐛 调试"| E["🔥 /caveman ultra
极速排障
最少文字直击要点"] C -->|"📖 学习"| F["🪶 /caveman lite
保留完整句子
理解概念更轻松"] C -->|"🇨🇳 中文项目"| G["📜 /caveman wenyan
文言文模式
中文 Token 最省"] D --> H["✅ 代码修改完成"] E --> H F --> H G --> H H --> I["🔍 /caveman-review
一行式代码审查
L42: 🔴 bug: ..."] I --> J{"审查通过?"} J -->|"❌ 有问题"| K["修复问题"] K --> I J -->|"✅ 通过"| L["📝 /caveman-commit
精炼 commit message
fix(auth): token <= not <"] L --> M["📦 git push"] M --> N["🗜️ /caveman:compress
压缩 CLAUDE.md
为下次会话省 Token"] N --> O["🎉 完成!"] style B fill:#FFD700 style I fill:#87CEEB style L fill:#90EE90 style N fill:#DDA0DD

10.5 场景 × 档位选择矩阵

工作场景 推荐档位 原因
日常编码 full 平衡可读性和压缩率
快速 Debug ultra 最少文字直击根因
学习新技术 lite 需要更多解释上下文
代码审查 /caveman-review 专用审查格式
Git 提交 /caveman-commit 专用 commit 格式
写文档 正常模式 文档需要完整表达
中文项目 wenyan 中文 Token 更省
Pair Programming lite 同事也需要读懂
CI/CD 审查 ultra + review 机器消费,越短越好
上下文压缩 /caveman:compress 压缩 CLAUDE.md

10.6 各平台完整工作流对比

工作流步骤 Claude Code Antigravity Gemini CLI Codex OpenCode
1. 会话启动 Hook 自动激活 GEMINI.md 规则 Extension 自动 hooks.json AGENTS.md
2. 模式切换 /caveman ultra 自然语言 /caveman ultra $caveman ultra 自然语言
3. 编码交互 ✅ 完整 Tool 调用 ✅ 完整 Tool 调用 ✅ 完整 Tool 调用 ✅ 完整 Tool 调用 ✅ 完整 Tool 调用
4. 代码审查 /caveman-review 自然语言 /caveman-review $caveman-review 自然语言
5. 提交代码 /caveman-commit 自然语言 /caveman-commit $caveman-commit 自然语言
6. 压缩上下文 /caveman:compress 自然语言 /caveman:compress $caveman-compress 自然语言
7. 状态监控 [CAVEMAN:MODE]
8. 退出 Caveman "stop caveman" "stop caveman" "stop caveman" "stop caveman" "stop caveman"

10.7 进阶最佳实践

实践 1:CLAUDE.md 分层策略

~/.claude/CLAUDE.md          ← 全局 Caveman always-on (所有项目生效)
<project>/CLAUDE.md          ← 项目特定规则 (已 compress 压缩)
<project>/CLAUDE.original.md ← 人类可读原文 (编辑这个)

实践 2:团队统一配置

# 在项目根目录提交 Caveman 配置
echo 'Terse like caveman. Technical substance exact...' >> CLAUDE.md
echo 'Terse like caveman. Technical substance exact...' >> GEMINI.md

# 让所有团队成员使用同样的 Caveman 行为
git add CLAUDE.md GEMINI.md
git commit -m "chore: add caveman always-on for team"

实践 3:CI/CD 集成

# .github/workflows/pr-review.yml
- name: Caveman Code Review
  run: |
    # 使用 Claude Code Action + caveman-review 规则
    # 每个 PR 自动获得一行式审查

实践 4:与 cavemem 组合使用

# 安装 cavemem (记忆压缩)
# 与 caveman (输出压缩) 组合,双重优化
npm install -g cavemem

# caveman 压缩输出 → 省输出 Token
# cavemem 压缩记忆 → 省输入 Token  
# 两者组合 → 总 Token 消耗降低 60%+

实践 5:自定义 Caveman 规则

如果你需要特定领域的 Caveman 规则,可以创建自定义 Skill:

<!-- .claude/skills/my-caveman/SKILL.md -->
## My Custom Caveman Rules

Base: Terse like caveman. Technical substance exact.

Additional rules for this project:
- Always mention file paths in full
- Include line numbers when discussing bugs
- Use Chinese for variable name explanations
- Keep API endpoint paths in backticks

📊 投资回报总结

graph LR
    subgraph Investment["💰 投入"]
        A1["安装: 1 分钟"]
        A2["配置: 5 分钟"]
        A3["学习: 本教程 10 期"]
    end
    
    subgraph Return["📈 回报"]
        B1["输出 Token: -75%"]
        B2["输入 Token: -46%"]
        B3["响应速度: +3x"]
        B4["月费用: -$46"]
        B5["可读性: ↑"]
    end
    
    Investment --> Return
指标 无 Caveman 有 Caveman 改善幅度
平均每次回答 Token ~300 ~80 -73%
每次会话输入 Token ~2800 ~1500 -46%
每日 Token 消耗 ~68,000 ~19,200 -72%
每月费用 (估算) ~$63 ~$17 -$46/月
回答阅读时间 ~15 秒 ~5 秒 -66%
技术准确性 100% 100% 不变

📝 全系列回顾

期数 主题 核心收获
01 Caveman 是什么 Token 压缩哲学 + 生态全景
02 三大平台安装 Claude Code / Antigravity / Gemini CLI 安装对比
03 Hooks 深度解析 自动激活引擎 + Flag File 机制
04 四档变速 Lite / Full / Ultra / 文言文 + 切换方法
05 /caveman 核心 Skill 日常开发实战 + 回答模式
06 /caveman-commit 精炼 Git 提交 + Git Hook 集成
07 /caveman-review 一行式代码审查 + GitHub Actions
08 /caveman:compress 压缩 CLAUDE.md + 输入 Token 优化
09 Always-On 配置 五大平台规则文件 + 团队共享
10 基准 + 最佳实践 完整工作流 + 投资回报

🎓 毕业任务

完成以下任务,你就是一个合格的 Caveman 使用者:

  • 在你的主力 Agent 上安装 Caveman
  • full 模式完成一次完整的功能开发
  • /caveman-review 审查自己的代码
  • /caveman-commit 生成 commit message
  • /caveman:compress 压缩你的 CLAUDE.md
  • 配置 Always-On,确保下次会话自动生效
  • (加分)将配置提交到 Git,让团队也用上 Caveman

🔗 参考资料