token节省技巧

综合 2026 年最新的学术研究（如分析 Agent 资源消耗的《How Do AI Agents Spend Your Money?》、专注于技能瘦身的《SkillReducer》）以及社区的最佳实践，目前 Claude Code 的用量大头并不在于输出，而是每次循环都在重复吞吐庞大的输入上下文（Input Tokens），并且经常在无规划的状态下进行昂贵的“试错探索”。

为了彻底降本增效，建议在你的日常开发中遵循以下这个规范化的生命周期步骤：

实施“分层架构”重构上下文: 基于《SkillReducer》论文的核心理念. 不要把所有的规范和架构说明都塞进全局配置文件。全局配置会在每一次 Agent 轮次中被完整注入，是最大的隐形 Token 杀手。

核心红线常驻（Core Rules）： 将原来 .cursorrules 中最核心的硬性规定（如强制 pytest 覆盖率、严格的 mypy 类型标注规则、绝不硬编码的底线）保留在项目根目录的 CLAUDE.md 中。
架构细节按需加载（On-Demand）： 将具体的代码级架构文档——例如关于 FastAPI 的异步并发处理机制，或是底层“算子（Operator）”模式和通信接口的详细设计——剥离到独立的 docs/architecture.md 中。Claude Code 在真正需要实现相关模块时，会自主调用 read_file 工具去阅读，从而省下了海量的“常驻底薪” Token。

建立本地自定义命令池: 避免重复的自然语言指令. 长篇大论的 Prompt 非常耗费 Token。社区目前的标准做法是利用 .claude/commands/ 目录固化高频任务。

例如，你可以创建一个 audit.md 文件，里面写好特定代码的审查标准。在终端中，只需输入 /audit，Claude 就会精准加载这一小段指令，而不是每次都让你用自然语言重新解释一遍审查逻辑。

强制使用 Plan Mode 抑制发散探索: 应对 Agentic 任务 30 倍的 Token 波动. 最新研究表明，复杂的 Agent 任务在不同运行批次下，Token 消耗差异高达 30 倍，多出来的部分全是在错误路径上疯狂试错。

在进行涉及多个文件的重构时（例如将现有的代码逻辑切分为分析、转换、验证的 Multi-Agent 架构），绝对不要直接让它改代码。
连续按下两次 Shift+Tab 激活 Plan Mode。这会强制 Claude 在修改任何文件前，先广泛遍历项目依赖并生成一份详细计划。只有当你确认路径正确后，再让它执行。

主动干预会话的生命周期: 根据状态切换 /compact 与 /clear. 不要把 Claude 仅仅当成一个聊天框，而要把它当成一个带有“内存压力”的计算节点。

/compact (压缩)： 当你们已经深入排查了很久的 Bug，积累了非常有价值的项目认知，但 Token 消耗开始飙升时。这个命令会触发底层的 Compaction Pipeline，提炼出核心认知并丢弃无用的试错对话历史。
/clear (清算)： 一旦当前具体的底层通信逻辑写完了，准备开始写上层 API 接口时，立刻清空。不同的任务必须在干净的上下文中进行，防止历史包袱互相污染。

核心结论： 把 Claude Code 当作按时计费的高级工程师。派发任务前整理好精准的参考文档，要求它先写方案（Plan），做完一单立刻结账清场（Clear），只让它看它当前必须要看的代码。