你的Token消耗为啥这么高?OpenClaw省钱玩法

作者:傅榕锋,OceanBase 高级技术专家,seekdb M0 研发团队负责人

✨ 对 PowerMem 感兴趣的朋友,欢迎大家到 https://github.com/oceanbase/powermem 进行体验,相信它能帮助你的 AI 应用更好地管理长期记忆!

真正懂 AI 的开发者心里都清楚:context window 不是免费的。每多 1K token,账单就厚一分,响应就慢一帧。

如果你在用 OpenClaw,这种焦虑会更具体。上周你和 Agent 花了两小时排查线上问题,查日志、读配置、试方案,产生了 3 万 token 的对话。这周你让它继续,它回你:”你好!请问你说的是哪个重构?” 于是你不得不再花几千 token 复述背景,Agent 再花几千 token 理解,最后可能还是没完全 get 到。

那 3 万 token,白花了。

这不是偶发。OpenClaw 的记忆机制会让你陷入两个 token 黑洞。

两个让 token 账单失控的黑洞

越记越贵。 Agent 把重要信息写入 MEMORY.md,这个文件会被全量加载到每次请求的系统提示词里。用的时间越长,MEMORY.md 越大,每次 API 调用的 input token 越多。Bootstrap 文件有单文件 20K 字符的默认上限(总计 150K),但早在到达上限之前,臃肿的上下文就已经开始挤占 Agent 的工作空间了。

越忘越错。 当 session 太长时,OpenClaw 会触发 compaction 和 memory flush。但 compaction 的总结本质上是有损压缩,关键上下文可能被切断。Agent 找不回需要的信息就犯错,犯错就返工,返工产生更多对话,更快触发下一次压缩。

工具调用是加速器。 Agent 调用工具产生的中间结果——web_fetch 返回的网页、exec 输出的命令结果——单条最大 400K 字符,会快速填满 session。

记住的代价是昂贵,遗忘的代价是犯错。需要第三条路。

seekdb M0:云端记忆插件

seekdb M0 核心理念:不把所有记忆塞进 system prompt,而是在每次对话开始前,只检索与当前话题相关的记忆片段注入上下文。

和 MEMORY.md 的全量加载不同,seekdb M0 把记忆拆解为独立的「事实」存储在云端数据库中。每条事实都有向量表示和全文索引。对话开始前用混合检索(BM25 + 向量相似度)找到最相关的记忆;对话结束后自动提取新事实。

这意味着:MEMORY.md 不再膨胀session 重置不再是灾难跨设备同步

两阶段设计:提取 + 决策

第一阶段:事实提取。 对话结束后,M0 只提取 user 和 assistant 之间的对话文本,用 LLM 抽取出原子化的事实。提取时保留时间信息、保持原语言、敏感信息不提取。

第二阶段:记忆决策。 提取出的事实先和已有记忆做比对,LLM 判断是否新增(ADD)、更新(UPDATE)、还是跳过(NONE)。

工具调用自动压缩:零 LLM token 开销

M0 的处理方式很直接:用确定性规则压缩,不花一个 LLM token。 把原始输出替换为结构化摘要。压缩比极高(几万字符 → 几百字符),且完全是规则化的。

经验系统:让 token 花在刀刃上

M0 将经验拆分为两个层次:策略层的 Experience 和操作层的 Skill。 轻量的 Experience 用一两句话概括任务思路和关键注意点,Skill 按需展开操作细节。

检索时四路并行——标题向量、描述向量、标题全文、描述全文——再通过 RRF 算法融合排序。Agent 不需要加载 10 条相关度 0.6 的经验,而是精准加载 3 条相关度 0.9 的经验,直接转化为 token 消耗的下降。

AppWorld 实测:token 到底省了多少

在 AppWorld dev 评测集(54 任务,15 步上限)上做严格控制变量的对比实验。先用 Hermes + Qwen 3.6-plus(通过率 63%)跑完 dev 集,记录全部 54 条轨迹。同一份轨迹分别输入两个系统蒸馏。

框架 模式 通过数 通过率 增益 平均步数 步数变化 Token Token 变化
GPT-4o 基线 13/54 24% 9.5 2.56M
m0 +Experience→Skill 21/54 39% +8 (+15%) 6.2 -35% 1.74M -32%
Hermes +SKILL.md 12/54 22% -1 (-2%) 10.4 +11%

关键发现: M0 救回 10 个任务,丢失 2 个,净增 +8。Hermes 救回 6 个但丢失 7 个,净变化 -1。平均步数从 9.5 降到 6.2(-35%),总 Token 从 2.56M 降到 1.74M(-32%)。

为什么 M0 有效而 Hermes 无效?

检索精度: M0 的向量搜索能做语义匹配;Hermes 的文件名/tag 匹配无法理解语义。

上下文管理: M0 的 Experience 是轻量摘要,不淹没上下文;Hermes 的 SKILL.md 是完整操作手册,干扰决策。

按需加载与去重: M0 通过 skill_refs 按需展开操作细节,通过向量相似度 + LLM merge 做语义去重。

强模型教一次,弱模型一直用

GPT-5.4 跑一次约 57.6 美元,GPT-4o 基线裸跑 2.56M token 约 25.6 美元,GPT-4o + M0 经验 1.74M token 约 17.4 美元。用强模型教一次,后续用弱模型就能获得更高通过率、更少步数、更便宜账单。

经验的价值不止于单用户。 当一条 Experience 经过足够多正向反馈验证后,可以发布到公共空间,所有接入 M0 的 Agent 都能检索。

一句话安装

对你的 Agent 说一句话即可:

1
阅读 https://m0.seekdb.ai/SKILL.md 并按说明安装与配置 m0。

Agent 读取文档后自主完成全流程:检测版本 → 获取 Access Key → 下载插件 → 写入配置 → 重启 Gateway。全程无需手动操作。

写在最后

seekdb M0 选择的路是:把记忆从上下文中解放出来——独立存储、按需检索、跨 session 持久化。 不再全量加载,而是在对的时间想起对的事情。AppWorld 实测数据证明了这一点:相同的模型、相同的任务,只是换了一种知识管理方式,token 消耗就能从 2.56M 降到 1.74M,通过率还能提升 15 个百分点。

对现有 M0 用户: 这次升级自动生效。

如果你还没接入: 阅读 https://m0.seekdb.ai/SKILL.md 并按说明安装与配置 m0。

第一个踩过的坑,以后不用再花 token 踩第二遍。

相关链接:seekdb M0:https://m0.seekdb.ai/ | PowerMem:https://github.com/oceanbase/powermem | AppWorld:https://appworld.dev/ | seekdb D0:https://d0.seekdb.ai/