💰 自动成本优化
Gemini CLI 在使用 API 密钥身份验证(Gemini API 密钥或 Vertex AI)时通过 token 缓存自动优化 API 成本。此功能重用以前的系统指令和上下文,以减少后续请求中处理的 token 数量。
什么是 Token 缓存?
Token 缓存是一种智能优化技术,它存储和重用以前请求中的系统指令和上下文信息。当您在 Gemini CLI 中进行多轮对话时,系统会识别可以重用的内容,避免重复传输相同的 token,从而显著降低 API 使用成本。
🔄 工作原理
- 系统指令被缓存以供后续使用
- 对话上下文智能重用
- 减少重复 token 传输
- 自动优化,无需手动干预
💵 成本节省
- 显著减少 API 调用成本
- 长对话更加经济
- 自动识别可缓存内容
- 实时显示节省的 token
Token 缓存可用性
✅ Token 缓存可用于:
- API 密钥用户(Gemini API 密钥)
- Vertex AI 用户(已设置项目和位置)
❌ Token 缓存不可用于:
- OAuth 用户(Google 个人/企业账户)- Code Assist API 目前不支持缓存内容创建
查看 Token 统计
您可以使用 /stats
命令查看您的 token 使用情况和缓存 token 节省。当缓存 token 可用时,它们将显示在统计输出中。
使用 /stats 命令
/stats
示例输出:
会话统计:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 Token 使用情况
• 总输入 token: 2,450
• 总输出 token: 1,230
• 缓存 token 节省: 850 token
• 成本节省: ~15%
⏱️ 会话信息
• 会话持续时间: 12 分钟
• API 请求次数: 8
• 平均响应时间: 1.2 秒
最大化缓存效果的技巧
📝 保持上下文
- 在同一会话中继续对话
- 避免频繁重置会话
- 使用
/memory
命令管理上下文
🎯 高效使用
- 重用相同的项目上下文
- 避免过度使用
/clear
- 保持 GEMINI.md 文件稳定
缓存的限制
⚠️ 注意事项:
- 时间限制: 缓存内容有一定的过期时间
- 内容变化: 系统指令或上下文文件变化会使缓存失效
- 会话重置: 新会话需要重新建立缓存
- 模型切换: 更换模型会清除相关缓存
成本优化建议
策略 | 描述 | 预期节省 |
---|---|---|
长对话会话 | 保持会话活跃,避免频繁重启 | 10-30% |
稳定的上下文 | 避免频繁修改 GEMINI.md 文件 | 5-15% |
合理的压缩 | 适时使用 /compress 命令 |
15-25% |