给你最本质,最实战的数字化转型指南

——双轴时代:GPU 管智商,RAM 管记忆
富贵研究所出品
凌晨,大贵刷到一篇 arXiv 新稿,标题拗口得像论文界的“冷启动广告”: 《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》。
他第一反应是:又一套 MoE 的路由花活? 大富看完摘要,抬头说了一句让人背脊发凉的话:
“它不是更会算了,是在很多地方……直接不算了。”
论文提出了一个叫 Engram 的条件记忆模块:把经典 N-gram 做成现代化的 O(1) 查表记忆外挂,用确定性哈希在巨大表里秒级定位向量,再通过门控把“记忆向量”注入 Transformer 主干。
一句话翻译:
大模型终于有了“物理外挂海马体”——记忆与计算开始解耦。
这不是一个小技巧,这是一个方向:LLM 的稀疏性不止 MoE 的“算得少”,还可以是 Engram 的“记得快”。
我们得承认一个残酷现实:Transformer 体系从诞生那天起,就像一个“没有查表功能的超级计算器”。
人类被问到“某年某月发生什么”,很多时候不是推理,是瞬间调取:像从书架抽出一本书,翻到那一页。 但 LLM 传统做法更像:把整本书背进脑子,然后在脑子里算出来那一页的内容。
论文点破了这一点:Transformers 缺乏原生的知识 lookup primitive,因此静态模式与知识不得不被编码进权重,并在推理时通过层层矩阵乘法“重建”。
这会带来三个长期问题:
过去几年,行业在 MoE 上找出路:让模型“只激活部分专家”,减少每 token 的计算开销。DeepSeek 自家 V3 技术报告本就强调了 MoE 的高效激活路径。 但 MoE 解决的是计算稀疏,并没有解决另一个更隐蔽的痛点:很多时候模型不是算得太慢,而是记得太笨。
于是 Engram 这条路出现:不再把所有知识都塞进“会算的脑子”,而是把“会记的仓库”外挂出来。
富贵研究所只讲人话,但这一次得稍微硬核一点,因为它改变的是底层结构。
Engram 的思想很“复古”:N-gram。 但它的实现很“现代”:哈希、压缩、embedding 表、门控融合、分层存储与预取优化。
在论文框架中,Engram 是一个可即插即用的模块:
把它想象成:
主干网络负责“怎么想”,Engram 负责“我记得”。 以前的模型每次都在脑子里“推理式翻书”,现在直接“查表式取证”。
Engram 最惊艳的地方,在于它对性能提升的解释: 很多模型的早期层在干“静态模式重建”(背诵型工作),Engram 把这些模式交给查表,等于释放了有效深度,让主干把计算预算用在更深层推理上。
这就是为什么论文宣称:在严格对照(iso-parameter / iso-FLOPs)下,知识、推理、代码与数学都提升。
你看,真正的野心不是“更会背”,而是让模型终于能把脑子用在“该用的地方”。
MoE 是“只算部分专家”,仍然需要路由与激活管理。 Engram 是“只读少量记忆”,并且通过确定性地址减少路由负担。
这会把系统工程带到一个新方向:
像数据库一样做缓存分层、热度管理、预取与带宽优化。 这类系统思维,在论文与开源仓库对 Engram 的定位里已经呼之欲出。
大富说:
“当记忆可以外挂,产业就会开始卖外挂。”
Engram 一旦验证有效,会迅速撬动四个生态层:
过去企业问:你有多少 GPU? 未来企业会问:你有多少可用 RAM?NVMe 多快?冷热数据怎么分层? 因为“记忆轴”的规模化增长,可能更多受 DRAM/NVMe 的成本曲线影响,而不是纯 GPU 显存。
传统 RAG:外部向量检索→拼 prompt→模型再推理。 Engram 类模块:把高频局部静态模式“内嵌式注入”,把推理从“读文档”中解放出来。
结果就是:
一旦记忆外挂成立,“模型主干”的角色会更清晰:负责推理、泛化、策略; 而“外挂模块”负责:记忆、工具、规则、领域知识、甚至合规策略。
你会看到新的分工:
如果“博学”不再一定靠“大参数”,而可以靠“记忆轴扩展”,企业私有化就会出现新甜点区:
小模型主干 + 大记忆外挂 = 低成本、可控、可更新的企业智能体底座。
这对于安全敏感行业、数据不出域场景、以及本地边缘部署,都是一次结构性利好。
我们终于可以把结论写在墙上了:
AI 进入双轴扩展时代:不再只有“堆参数”一条路。
从“GPU 数量”扩展为“GPU + DRAM 带宽 + NVMe 分层方案”。 AI 工程会越来越像数据库工程:热数据、冷数据、预取、缓存命中率。
企业将更愿意买“聪明但不大”的主干,把“公司知识”放进可更新的记忆层,而不是反复微调大模型。
MoE 解决计算稀疏,Engram 解决存储稀疏。二者组合会成为新的工程默认项:
MoE 管会想,Engram 管会背。
行业会不得不区分:提升来自更强推理?还是更强记忆? 否则“内查表”与“真推理”会在榜单上纠缠不清。
Engram 证明了外挂思路可行后,围绕“可插拔能力”的生态会爆发: 行业知识、企业 SOP、合规规则、工具调用策略……都会以外挂形式被产品化。
大贵最后把论文读完,给大富发了条消息:
“如果记忆可以外挂,那 AI 的未来就不只是更大,而是更像一台计算机。”
大富回了四个字:
“而且更便宜。”
这就是 Engram 的长期主义: 它没有用更贵的算力去压缩问题,而是用更朴素的结构把问题拆开——让“计算”去做计算,让“记忆”去做记忆。
当行业还在为“参数竞赛”兴奋时
DeepSeek 把一条新赛道摆在了你面前: 双轴扩展,存算解耦,外挂时代。
富贵研究所,是「凯哥讲故事」旗下的产业观察栏目与长期研究计划。
聚焦 AI 时代的产业变化,把技术进展转化为更易理解的行业语言:通过真实场景、关键事件与可验证的推演,分析商业模式、组织分工与新型入口的演化方向。每篇文章力求做到三点:讲清趋势、讲透逻辑、给出可落地的参考框架。文中偶尔引用“大富”“大贵”的一句点评,作为观察视角的点睛。