⚡ News

开发实战:5个妙招助你削减 Claude Code 30% 的 Token 费用

开发实战:5个妙招助你削减 Claude Code 30% 的 Token 费用

在过去几个月里,我每天都在使用 Claude Code。尽管它的输出质量令人惊叹,但月底收到 API 账单时还是不免感到肉痛。经过多次尝试,我总结出了几个实用习惯。在不牺牲代码生成质量的前提下,这些习惯能稳定地将 Token 消耗降低 25% 到 35%。如果你也面临同样的账单压力,不妨试试以下方法。

1. 在项目根目录下放置 CLAUDE.md 文件

Claude Code 会在启动时自动读取根目录下的 CLAUDE.md 文件,并将其作为持久化的上下文。如果没有这个文件,Claude 每次启动新会话时都必须重新检索你的项目结构,这将消耗大量的“文件读取” Token。

建议将该文件控制在 200 行以内。如果文件过长,Claude 会耗费额外的 Token 来对该文件进行摘要。一个精简且实用的模板示例如下:

# Project: <name>

## Stack
- Language: Go 1.22 / TypeScript 5
- Framework: Gin / React 19
- DB: PostgreSQL via GORM

## Layout
- 'controller/' — HTTP handlers
- 'service/'    — business logic
- 'model/'      — DB models

## Conventions
- Use 'common.Marshal' instead of 'encoding/json'
- All new code must compile under 'go vet'

2 & 3. 妙用 Prompt 缓存(Prompt Caching)

Anthropic 提供了强大的 Prompt 缓存功能。当你的 Context 命中缓存时,读取成本仅为正常价格的 10% 左右。以下是最大化缓存命中率的实战建议:

  • 不要在会话中途修改 CLAUDE.md:任何修改都会导致整个项目的上下文缓存失效。
  • 追加提问,而非重写 Prompt:在进行追问时,采用追加(Append)的方式,不要频繁重写前面的提示词。
  • 一次粘贴,多次引用:对于长文件,粘贴一次后,后续只需指代“上文提及的文件”,切忌重复粘贴相同代码。

对于一个包含 20 万 Token 的大型项目上下文,我的缓存命中率稳定在 70% 左右,这使我的单次会话输入成本从 0.60 美元骤降至 0.18 美元。

4. 优先使用 Read 工具,而非直接复制粘贴代码

向 Claude 传入文件内容有两种方式:
A) “这是文件内容:<手动复制粘贴 5000 行代码>”
B) “请阅读 src/foo.go 文件”

尽管两种方式都能达到目的,但方法 B 显然更为便宜。因为在方法 B 中,Claude 仅在真正需要时才会通过工具读取文件,且通常只会精准读取相关的 50 行代码片段。而如果你采用方法 A,无论 Claude 最终是否用得上,你都必须为这 5000 行代码支付完整的 Token 费用。

5. 日常任务改用更轻量的小模型

在执行“为该函数编写单元测试”这类机械化任务时,你并不需要大动干戈地调用 Opus 模型。对于常规、事务性的代码修改,切换到 Sonnet 甚至 Haiku 是更具性价比的选择,例如:

  • 生成样板代码(Boilerplate)
  • 添加日志输出
  • 在整个文件中批量重命名变量
  • 编写简单的测试用例

Claude Code 允许你在会话中随时切换模型。在我的日常工作中,Sonnet 可以搞定大约 70% 的代码修改,而我只把 Opus 留给高难度的逻辑推理(如架构决策、疑难 Bug 排查和复杂重构)。

对比每百万输出 Token 的粗略价格:
Opus 4.7: $75 | Sonnet 4.5: $15 | Haiku 4: $3。在 70% 的日常工作中改用小模型,能帮你瞬间省下 5 到 15 倍的成本。

哪些尝试没有奏效?

  • 手动“压缩” Prompt:费时费力且收效甚微,甚至会导致 Claude 丢失关键的上下文。
  • 使用极度便宜的第三方“Opus”中转 API:我曾两次发现这些所谓的廉价渠道其实是用开源模型伪装的,代码生成质量出现了断崖式下跌。

【AgentUpdate 深度解析】随着 AI Agent 从简单的聊天助手演变为像 Claude Code 这样具备自主执行能力的“AI 程序员”,Token 消耗与上下文管理已经成为制约其大规模落地最核心的工程挑战。本文分享的优化方案本质上是早期阶段的“上下文工程(Context Engineering)”。通过引入 CLAUDE.md 作为静态二级缓存,配合 Anthropic 的 Prompt 缓存机制,开发者实际上在本地构建了一个多级存储架构。未来,优秀的 AI Agent 架构必然具备“成本感知”能力,能根据任务复杂度在后台自动进行模型路由(推理用 Opus,执行用 Haiku),并智能裁剪和持久化上下文。这不仅是个人开发者的省钱妙招,更是下一代企业级 Agent 框架必须内置的底层核心能力。

↗ 阅读原文