Token 缓存和成本优化

通过智能缓存减少 API 使用成本

💰 自动成本优化

Gemini CLI 在使用 API 密钥身份验证(Gemini API 密钥或 Vertex AI)时通过 token 缓存自动优化 API 成本。此功能重用以前的系统指令和上下文,以减少后续请求中处理的 token 数量。

什么是 Token 缓存?

Token 缓存是一种智能优化技术,它存储和重用以前请求中的系统指令和上下文信息。当您在 Gemini CLI 中进行多轮对话时,系统会识别可以重用的内容,避免重复传输相同的 token,从而显著降低 API 使用成本。

🔄 工作原理

  • 系统指令被缓存以供后续使用
  • 对话上下文智能重用
  • 减少重复 token 传输
  • 自动优化,无需手动干预

💵 成本节省

  • 显著减少 API 调用成本
  • 长对话更加经济
  • 自动识别可缓存内容
  • 实时显示节省的 token

Token 缓存可用性

✅ Token 缓存可用于:

  • API 密钥用户(Gemini API 密钥)
  • Vertex AI 用户(已设置项目和位置)

❌ Token 缓存不可用于:

  • OAuth 用户(Google 个人/企业账户)- Code Assist API 目前不支持缓存内容创建

查看 Token 统计

您可以使用 /stats 命令查看您的 token 使用情况和缓存 token 节省。当缓存 token 可用时,它们将显示在统计输出中。

使用 /stats 命令

/stats

示例输出:

会话统计:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 Token 使用情况
  • 总输入 token: 2,450
  • 总输出 token: 1,230
  • 缓存 token 节省: 850 token
  • 成本节省: ~15%

⏱️ 会话信息
  • 会话持续时间: 12 分钟
  • API 请求次数: 8
  • 平均响应时间: 1.2 秒

最大化缓存效果的技巧

📝 保持上下文

  • 在同一会话中继续对话
  • 避免频繁重置会话
  • 使用 /memory 命令管理上下文

🎯 高效使用

  • 重用相同的项目上下文
  • 避免过度使用 /clear
  • 保持 GEMINI.md 文件稳定

缓存的限制

⚠️ 注意事项:

  • 时间限制: 缓存内容有一定的过期时间
  • 内容变化: 系统指令或上下文文件变化会使缓存失效
  • 会话重置: 新会话需要重新建立缓存
  • 模型切换: 更换模型会清除相关缓存

成本优化建议

策略 描述 预期节省
长对话会话 保持会话活跃,避免频繁重启 10-30%
稳定的上下文 避免频繁修改 GEMINI.md 文件 5-15%
合理的压缩 适时使用 /compress 命令 15-25%
↑ 顶部