编辑
2026-06-02
💥AI大模型
00

综合 2026 年最新的学术研究(如分析 Agent 资源消耗的《How Do AI Agents Spend Your Money?》、专注于技能瘦身的《SkillReducer》)以及社区的最佳实践,目前 Claude Code 的用量大头并不在于输出,而是每次循环都在重复吞吐庞大的输入上下文(Input Tokens),并且经常在无规划的状态下进行昂贵的“试错探索”。

为了彻底降本增效,建议在你的日常开发中遵循以下这个规范化的生命周期步骤:

  1. 实施“分层架构”重构上下文: 基于《SkillReducer》论文的核心理念. 不要把所有的规范和架构说明都塞进全局配置文件。全局配置会在每一次 Agent 轮次中被完整注入,是最大的隐形 Token 杀手。
  • 核心红线常驻(Core Rules): 将原来 .cursorrules 中最核心的硬性规定(如强制 pytest 覆盖率、严格的 mypy 类型标注规则、绝不硬编码的底线)保留在项目根目录的 CLAUDE.md 中。
  • 架构细节按需加载(On-Demand): 将具体的代码级架构文档——例如关于 FastAPI 的异步并发处理机制,或是底层“算子(Operator)”模式和通信接口的详细设计——剥离到独立的 docs/architecture.md 中。Claude Code 在真正需要实现相关模块时,会自主调用 read_file 工具去阅读,从而省下了海量的“常驻底薪” Token。
  1. 建立本地自定义命令池: 避免重复的自然语言指令. 长篇大论的 Prompt 非常耗费 Token。社区目前的标准做法是利用 .claude/commands/ 目录固化高频任务。
  • 例如,你可以创建一个 audit.md 文件,里面写好特定代码的审查标准。在终端中,只需输入 /audit,Claude 就会精准加载这一小段指令,而不是每次都让你用自然语言重新解释一遍审查逻辑。
  1. 强制使用 Plan Mode 抑制发散探索: 应对 Agentic 任务 30 倍的 Token 波动. 最新研究表明,复杂的 Agent 任务在不同运行批次下,Token 消耗差异高达 30 倍,多出来的部分全是在错误路径上疯狂试错。
  • 在进行涉及多个文件的重构时(例如将现有的代码逻辑切分为分析、转换、验证的 Multi-Agent 架构),绝对不要直接让它改代码
  • 连续按下两次 Shift+Tab 激活 Plan Mode。这会强制 Claude 在修改任何文件前,先广泛遍历项目依赖并生成一份详细计划。只有当你确认路径正确后,再让它执行。
  1. 主动干预会话的生命周期: 根据状态切换 /compact 与 /clear. 不要把 Claude 仅仅当成一个聊天框,而要把它当成一个带有“内存压力”的计算节点。
  • /compact (压缩): 当你们已经深入排查了很久的 Bug,积累了非常有价值的项目认知,但 Token 消耗开始飙升时。这个命令会触发底层的 Compaction Pipeline,提炼出核心认知并丢弃无用的试错对话历史。
  • /clear (清算): 一旦当前具体的底层通信逻辑写完了,准备开始写上层 API 接口时,立刻清空。不同的任务必须在干净的上下文中进行,防止历史包袱互相污染。

核心结论: 把 Claude Code 当作按时计费的高级工程师。派发任务前整理好精准的参考文档,要求它先写方案(Plan),做完一单立刻结账清场(Clear),只让它看它当前必须要看的代码。

本文作者:Eric

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!