开发实战：5个妙招助你削减 Claude Code 30% 的 Token 费用

在过去几个月里，我每天都在使用 Claude Code。尽管它的输出质量令人惊叹，但月底收到 API 账单时还是不免感到肉痛。经过多次尝试，我总结出了几个实用习惯。在不牺牲代码生成质量的前提下，这些习惯能稳定地将 Token 消耗降低 25% 到 35%。如果你也面临同样的账单压力，不妨试试以下方法。

1. 在项目根目录下放置 CLAUDE.md 文件

Claude Code 会在启动时自动读取根目录下的 CLAUDE.md 文件，并将其作为持久化的上下文。如果没有这个文件，Claude 每次启动新会话时都必须重新检索你的项目结构，这将消耗大量的“文件读取” Token。

建议将该文件控制在 200 行以内。如果文件过长，Claude 会耗费额外的 Token 来对该文件进行摘要。一个精简且实用的模板示例如下：

# Project: <name>

## Stack
- Language: Go 1.22 / TypeScript 5
- Framework: Gin / React 19
- DB: PostgreSQL via GORM

## Layout
- 'controller/' — HTTP handlers
- 'service/'    — business logic
- 'model/'      — DB models

## Conventions
- Use 'common.Marshal' instead of 'encoding/json'
- All new code must compile under 'go vet'

2 & 3. 妙用 Prompt 缓存（Prompt Caching）

Anthropic 提供了强大的 Prompt 缓存功能。当你的 Context 命中缓存时，读取成本仅为正常价格的 10% 左右。以下是最大化缓存命中率的实战建议：

不要在会话中途修改 CLAUDE.md：任何修改都会导致整个项目的上下文缓存失效。
追加提问，而非重写 Prompt：在进行追问时，采用追加（Append）的方式，不要频繁重写前面的提示词。
一次粘贴，多次引用：对于长文件，粘贴一次后，后续只需指代“上文提及的文件”，切忌重复粘贴相同代码。

对于一个包含 20 万 Token 的大型项目上下文，我的缓存命中率稳定在 70% 左右，这使我的单次会话输入成本从 0.60 美元骤降至 0.18 美元。

4. 优先使用 Read 工具，而非直接复制粘贴代码

向 Claude 传入文件内容有两种方式：
A) “这是文件内容：<手动复制粘贴 5000 行代码>”
B) “请阅读 src/foo.go 文件”

尽管两种方式都能达到目的，但方法 B 显然更为便宜。因为在方法 B 中，Claude 仅在真正需要时才会通过工具读取文件，且通常只会精准读取相关的 50 行代码片段。而如果你采用方法 A，无论 Claude 最终是否用得上，你都必须为这 5000 行代码支付完整的 Token 费用。

5. 日常任务改用更轻量的小模型

在执行“为该函数编写单元测试”这类机械化任务时，你并不需要大动干戈地调用 Opus 模型。对于常规、事务性的代码修改，切换到 Sonnet 甚至 Haiku 是更具性价比的选择，例如：

生成样板代码（Boilerplate）
添加日志输出
在整个文件中批量重命名变量
编写简单的测试用例

Claude Code 允许你在会话中随时切换模型。在我的日常工作中，Sonnet 可以搞定大约 70% 的代码修改，而我只把 Opus 留给高难度的逻辑推理（如架构决策、疑难 Bug 排查和复杂重构）。

对比每百万输出 Token 的粗略价格：
Opus 4.7: $75 | Sonnet 4.5: $15 | Haiku 4: $3。在 70% 的日常工作中改用小模型，能帮你瞬间省下 5 到 15 倍的成本。

哪些尝试没有奏效？

手动“压缩” Prompt：费时费力且收效甚微，甚至会导致 Claude 丢失关键的上下文。
使用极度便宜的第三方“Opus”中转 API：我曾两次发现这些所谓的廉价渠道其实是用开源模型伪装的，代码生成质量出现了断崖式下跌。

【AgentUpdate 深度解析】随着 AI Agent 从简单的聊天助手演变为像 Claude Code 这样具备自主执行能力的“AI 程序员”，Token 消耗与上下文管理已经成为制约其大规模落地最核心的工程挑战。本文分享的优化方案本质上是早期阶段的“上下文工程（Context Engineering）”。通过引入 CLAUDE.md 作为静态二级缓存，配合 Anthropic 的 Prompt 缓存机制，开发者实际上在本地构建了一个多级存储架构。未来，优秀的 AI Agent 架构必然具备“成本感知”能力，能根据任务复杂度在后台自动进行模型路由（推理用 Opus，执行用 Haiku），并智能裁剪和持久化上下文。这不仅是个人开发者的省钱妙招，更是下一代企业级 Agent 框架必须内置的底层核心能力。

开发实战：5个妙招助你削减 Claude Code 30% 的 Token 费用

1. 在项目根目录下放置 CLAUDE.md 文件

2 & 3. 妙用 Prompt 缓存（Prompt Caching）

4. 优先使用 Read 工具，而非直接复制粘贴代码

5. 日常任务改用更轻量的小模型

哪些尝试没有奏效？

推荐阅读

押注AI智能体成效初显：百度营收超预期，大模型商业化迎拐点

谷歌内部爆发“算力争夺战”：AI研究员为争TPU资源暗中较劲

谷歌前CEO施密特毕业典礼谈AI遭嘘声，年轻人就业焦虑引爆舆论

相关工具与资源推荐

相关技能市场

Awesome Claude Skills

Claude Skills Collection

Anthropic Agent Skills