聊天机器人(如ChatGPT、Claude等)有个很大的限制——它们能“记住”的内容有限,因为模型的上下文窗口(token限制)是有上限的,常见的比如 8k、32k、甚至 128k tokens。

一旦超过这个长度,前面说过的话就会被截断、丢失,导致:

  • 聊天断层,前后逻辑不连贯
  • 用户体验下降,机器人反应“健忘”

Supermemory 为了解决这个问题, 推出 Infinite Chat API,可扩展任何模型的上下文长度。它可以让你的聊天应用“拥有长期记忆”,而且无需重写任何应用逻辑。

它作为一个智能代理(proxy)透明地集成在现有的LLM(大语言模型) API前端,无需更改应用逻辑即可支持超长对话。

  • 声称可 节省 90% token 和成本,同时还能提升模型性能。
  • 使用极其简便:只需一行代码切换,立即可用。
  • Infinite Chat API 通过在 应用与 LLM 之间作为透明代理,只传输生成良好响应所需的必要上下文,从而避免大模型在上下文过长时性能下降(如20K tokens以上)。
  • 成本结构:

    • 免费开始使用
    • 每月固定费用 $20
    • 每个线程前 20k token 免费,之后 $1/百万 token

它就像是一个“超级记忆外挂”:

  • 自动管理和压缩对话内容
  • 动态取出有用的旧内容做上下文补充
  • 几乎不增加延迟
  • 能节省大量Token开销

它的核心是什么?——智能代理 + 记忆系统

Supermemory 以“代理层”的方式嵌入在你现有的 OpenAI API 调用前面,做了三件事:

1. 透明代理(Transparent Proxy)

你原来请求 OpenAI 的接口,现在只要把 URL 换成 Supermemory 的地址,它会中转你的请求给 LLM(大语言模型),对你的业务代码没有入侵式修改。

2. 智能分段与检索(Chunking + Smart Retrieval)

  • 它会把长对话“拆成块”,并用自家的算法保持这些块语义连贯
  • 当需要继续对话时,它会自动从历史记录中提取最相关的上下文片段,而不是靠你一股脑地发送整个历史

3. Token 自动管理

  • 它能根据上下文智能控制 token 使用,防止成本失控
  • 同时避免请求失败或内容被截断的情况

实际使用方式

非常简单。以 OpenAI 的接口为例,只要:

  1. 到 Supermemory Console 获取 API Key
  2. 把你的请求 URL 换成:
    https://api.supermemory.ai/v3/https://api.openai.com/v1
  3. 在请求头里加入 x-api-key,填你的 Supermemory API Key

支持多种语言客户端,官方文档提供 TypeScript 和 Python 示例。


性能与费用——实用又不贵

✅ 性能优势

  • 无限上下文:突破 OpenAI 等模型的 token 限制,可处理任意长度对话
  • 节省成本:因为只提取有用信息,可减少最高 70% 的 token 使用
  • 几乎零延迟:作为代理转发,请求速度基本不变
  • 响应更稳定:上下文提取更精确,回复更贴切

💰 价格模型

  • 免费额度:存储 100,000 tokens 无需付费
  • 标准计划:$20/月,超出免费额度后启用
  • 增量计费:每个对话前 20k token 免费,之后每百万 tokens 收费 $1

出错了怎么办?稳定性保障机制

如果 Supermemory 自身出错(比如检索失败或内部异常),它不会影响你的请求:

  • 会自动绕过,直接将请求发给 LLM(如 OpenAI)
  • 你还是能得到 LLM 的返回结果,最多是没有优化后的上下文
  • 响应中会附带诊断 header,例如是否修改过上下文、处理了多少 tokens 等,便于调试

支持范围和兼容性

Supermemory 支持所有兼容 OpenAI API 的模型和服务,包括但不限于:

  • OpenAI 的 GPT-3.5 / GPT-4 / GPT-4o
  • Anthropic 的 Claude 3 系列
  • 其他提供 OpenAI 接口兼容层的服务商

而且,它本身不限制速率,只会受到你所用 LLM 服务的限制。


总结一句话:

Supermemory Infinite Chat 是一个高兼容、无侵入的“对话记忆增强器”,让你的聊天应用突破上下文限制,更省钱、更智能、可持续。

体验:supermemory.chat

文档:https://docs.supermemory.ai/infinite-chat