
Key Takeaways
01
上下文工程远比提示词工程重要
说实话,看完谷歌这篇刚发布的白皮书,我第一反应是:过去两年我们可能都搞错了方向。
我们一直痴迷于"怎么写更好的提示词",琢磨什么"思维链"、"角色扮演"、"few-shot示例"。但这篇72页的技术文档劈头盖脸就是一句:LLMs are inherently stateless。大语言模型本质上是个金鱼脑,你关掉对话框,它就把你忘得一干二净。
上下文工程要解决的不是"怎么说"的问题,而是"给什么"的问题。就像一个顶级厨师,菜谱(prompt)只是基础,真正的功夫在于 mise en place——把所有食材、工具、调味料提前准备好。你给一个米其林主厨烂番茄和钝刀,他也不可能做出好菜。同样,你给GPT-4再完美的提示词,如果上下文窗口里塞满了垃圾,它的表现也只能是垃圾。
白皮书里有个特别形象的比喻:会话(Session)是你的工作台,记忆(Memory)是你的档案柜。你不能把沾满油污的工具和图纸直接塞进档案柜,得先整理、分类、标注。这个"整理"过程,就是上下文工程的核心。
如图所示,整个生命周期是个痛苦的循环:抓取上下文、准备上下文、调用模型、上传新数据。每一步都在做取舍,每一步都可能踩坑。

02
Session:AI的短期工作台,比你想象的更脆弱
很多人以为会话就是简单的聊天记录堆叠,错了。白皮书明确定义:Session是个容器,装着整个对话的时序历史和AI的工作记忆(working memory)。这里面的水很深。
不同框架的实现差异巨大。ADK(Agent Development Kit)用的是显式的Session对象,里面分两个文件夹:一个存对话历史(events),一个存工作数据(state)。LangGraph更激进,直接把state当成session,整个状态是可变的。这种设计对长对话管理很友好,但 debugging 时会让你想砸键盘。
一个核心冲突点:事件(Event)的不可变性。理论上,对话历史应该像区块链一样只增不减。但实际操作中,你必须得"篡改历史"——把旧消息摘要掉,删掉无关的工具调用输出,否则上下文窗口会爆炸。这种"必要的邪恶",白皮书称之为compaction(压缩)。
当你有多个AI协作时,会话管理会变成地狱级难题。白皮书中提出了两种模式:
共享统一历史:所有Agent读写同一个日志。这适合紧耦合任务,比如A做完直接交给B。但问题是,子Agent的中途思考过程、工具调用细节全部暴露,会污染主Agent的上下文。想象一下,你让十个专家开会,每个人把草稿纸和咖啡渍都摊在会议桌上,场面有多混乱。
独立历史+显式通信:每个Agent有自己的私密日志,只通过结构化消息交流。这相当于给每个专家独立办公室,只交最终报告。但新问题来了:上下文转换成本极高。A2A协议(Agent-to-Agent)虽然能传消息,但无法共享丰富的状态信息。白皮书第19页给出了答案:必须抽象出框架无关的记忆层。简单说,就是造一个通用语,让所有Agent都能听懂。

把会话系统搬上生产环境,你得同时过三关:
安全与隐私:这是绞刑架的第一根绳子。必须实现严格的用户隔离(ACLs),一个用户绝不能看到另一个用户的会话数据。最佳实践是在数据落盘前就个人标识信息脱敏。白皮书特别强调:别存原始敏感数据,一旦泄露,你的公司可能直接关门。
数据完整性:第二根绳子。会话不能永生,必须设置TTL(Time-to-Live),比如30天不活跃就自动删除。同时要保证事件追加的顺序确定性。听起来简单,但在分布式系统里,时钟同步能把工程师逼疯。
性能与扩展性:第三根,也是最要命的一根。每次对话都要从中央数据库拉取完整历史,网络传输延迟能把用户体验拖死。优化策略只有两个:要么过滤(只拉最近10轮),要么压缩(递归摘要)。报告第23页对比了四种策略:保留最近N轮、基于token截断、递归摘要、事件触发压缩。实测数据显示,递归摘要能减少70%的token用量,但会增加一次LLM调用成本。
03
Memory:AI的长期档案柜,藏着个性化的秘密
白皮书对Memory的定义让我醍醐灌顶:记忆不是简单的key-value存储,而是一个LLM驱动的ETL(Extract, Transform, Load)流水线。它主动提取、整合、净化信息,而不是被动地等你查询。
大多数开发者把Memory当成RAG的变种,这是根本性误解。白皮书第32页给出了清晰的对比表:

维度 | RAG引擎 | 记忆管理器 |
|---|---|---|
核心目标 | 注入外部事实知识 | 创建个性化、有状态的体验 |
数据源 | 静态知识库(PDF、wiki) | 用户与Agent的对话 |
隔离级别 | 全局共享 | 严格按用户隔离 |
信息类型 | 静态、权威 | 动态、用户特定 |
写入模式 | 批处理、离线 | 事件驱动、实时 |
简单说,RAG让AI成为世界专家,Memory让AI成为用户专家。一个研究图书管理员,一个私人助理,两者缺一不可。
白皮书第35页解剖了记忆的"骨架结构":
Collections模式:多个独立的自然语言记忆片段,像便利贴墙。适合存储大量非结构化信息,但检索时可能翻出十年前的陈年旧事。
结构化用户画像:把记忆组织成一张不断更新的名片,存核心事实。查起来快,但丢失了大量上下文细节。
滚动摘要:把全部信息压缩成一份持续更新的文档。像写自传,每过一章就重写前面的内容。适合管理长对话,但摘要过程可能丢失关键细节。
混合架构:向量数据库+知识图谱。前者做语义搜索,后者处理关系推理。这是目前最贵的方案,也是效果最好的。白皮书第36页指出,混合架构能同时实现关系查询和概念搜索,但需要专门的团队维护。
最精彩的部分在第41-48页:记忆如何被"生"出来。
提取阶段:LLM充当过滤器,不是见什么记什么。它遵循一套"主题定义",比如"只记用户偏好,不闲聊"。白皮书第45页给出了咖啡店反馈的例子:用户说"咖啡有点凉,音乐太吵",系统会生成两条结构化记忆——{"fact":"用户认为滴滤咖啡温度不足"},{"fact":"用户认为店内音乐音量过高"}。这个过程中,LLM实际上做了隐式摘要,把口语转成事实陈述。
整合阶段:这是记忆系统最体现智能的地方。新记忆生成后,必须和旧档案比对。遇到重复的要合并,冲突的要解决,过时的要删除。这个"自编辑"过程:LLM会执行UPDATE、CREATE、DELETE三种操作。比如用户先说自己"负责营销",后来又提到"领导Q4客户营销项目",系统不会存两条,而是把前者升级为后者。
这里有个反直觉的点:记忆系统必须会"遗忘"。白皮书第50页提出,基于时间衰减、低置信度、相关性降低三条标准,系统要主动删除无用记忆。不然档案柜会变成垃圾场。

04
生产部署:从demo到烧钱机器的残酷跳跃
白皮书中冷酷地指出:记忆检索必须在200毫秒内完成。为什么?因为用户感知延迟的阈值就是200ms。超过这个数,你的应用会被弃用。
实现这个目标需要三重优化:
安全章节看得我后背发凉。记忆系统面临的最大威胁不是数据泄露,而是记忆投毒(Memory Poisoning)。恶意用户可以通过对话,把虚假或有害信息注入AI的长期记忆。比如反复告诉AI"用户ID=1234的信用卡密码是666666",下次系统可能真的在内部推理时用到这个"事实"。
防御措施有三层:
做个简单算术题:一个日活10万的应用,每次对话平均5轮,每轮触发一次记忆检索(假设50ms),每月光记忆服务的费用就是:
100,000用户 × 5轮/天 × 30天 × 0.001美元/次 = 15,000美元/月
这还没算生成成本。白皮书第52页建议,记忆生成必须异步化,用后台队列批量处理。实时生成虽然新鲜度+40%,但成本会翻三倍。
05
多模态记忆:看起来像未来,实际是坑
第39页提到了"多模态记忆",但白皮书的态度很务实:现阶段别碰。
来源多模态:可以处理图片、音频,但生成的记忆必须是文本。比如用户发语音说"下周三下午三点开会",系统转录成文字再存成记忆。存储二进制文件?想都别想,检索时 latency 会突破天际。
内容多模态:记忆本身存图片、视频。这需要专门的模型和基础设施,复杂度比文本高两个数量级。目前的商业化产品(如Agent Engine Memory Bank)都只支持文本输出。
一个有趣的数据点:处理一分钟音频并生成记忆,LLM调用成本是0.02美元,而处理同内容文本只要0.0003美元。差距67倍。所以除非你做的是奢侈品级AI应用,否则别碰多模态记忆。
06
程序性记忆:AI自我进化的圣杯
前面说的都是声明性记忆(knowing what),但白皮书第64页抛出了更猛的概念:程序性记忆(Procedural Memory),即knowing how。
这是让AI从"复读机"进化到"策略家"的关键。它的流程是:
这和fine-tuning有本质区别。Fine-tuning是慢速的、改模型权重,程序性记忆是快速的、改上下文。白皮书强调,这是in-context learning的持续优化,不需要重新训练模型。
但目前90%的商业记忆系统不支持程序性记忆。为什么?因为提取"how"比提取"what"难10倍,需要专门的强化学习 pipeline。谷歌这里留了个悬念,暗示会在下一版白皮书中详解。

07
评估:没有黄金标准,只有持续失败
第65-66页的评价体系很有意思。学术圈追求可复现的benchmark,工业界只关心:记忆真的让AI表现变好了吗?
他们提出了三层评估:
最扎心的一句话在第66页:"Evaluation is not a one-time event; it's an engine for continuous improvement." 没有完美的记忆系统,只有不断失败、不断调优的循环。
结语:我们以为在造大脑,其实在造档案管理员
通读全文,谷歌这篇白皮书其实是在说:别神化AI记忆,它就是个高级点的档案管理系统。
Sessions是你的工作台,Memory是你的档案柜。档案管理员(记忆管理器)每天做的事:把新来的文件(对话)分类、打标签、归档、合并重复文件、销毁过期文件。她没有创造力,没有真正的理解,只有一套非常熟练的流程。
但这套流程,就是当前AI个性化体验的极限。
第70页的结论写得很克制:"Memory is the engine of long-term personalization and the core mechanism for persistence across multiple sessions." 它没说的是:这个引擎的油耗(成本)很高,维护(调试)很复杂,而且经常出故障(检索错误)。
可这就是我们唯一的路。想要AI从"一次性工具"变成"持续伙伴",必须把Sessions和Memory这套组合拳打好。
END
注:本文所有技术细节均来自Google官方白皮书《Context Engineering:Sessions, Memory》,完整报告内容请去知识星球「AI男神说」下载阅读。
整理不易,希望各位能够多多支持,支持AI男神说!你的一个点赞、一次转发、 随手分享,都是我们前进的最大动力~~~
推荐大家下载知识星球app或者使用网页版 (https://t.zsxq.com/Y3mcK),搜索和下载资料更方便!有特别资料需求的,欢迎给星主留言,单独推送。