首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >凯哥 丨 AI 进入存算解耦的新纪元

凯哥 丨 AI 进入存算解耦的新纪元

作者头像
凯哥
发布2026-01-22 13:46:52
发布2026-01-22 13:46:52
1460
举报

给你最本质,最实战的数字化转型指南

大模型终于学会“记笔记”:AI 进入存算解耦的新纪元

——双轴时代:GPU 管智商,RAM 管记忆

富贵研究所出品

事件起势:DeepSeek 这次没堆参数,而是把“记忆”从“脑子”里拔了出来

凌晨,大贵刷到一篇 arXiv 新稿,标题拗口得像论文界的“冷启动广告”: 《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》

他第一反应是:又一套 MoE 的路由花活? 大富看完摘要,抬头说了一句让人背脊发凉的话:

“它不是更会算了,是在很多地方……直接不算了。”

论文提出了一个叫 Engram 的条件记忆模块:把经典 N-gram 做成现代化的 O(1) 查表记忆外挂,用确定性哈希在巨大表里秒级定位向量,再通过门控把“记忆向量”注入 Transformer 主干。

一句话翻译:

大模型终于有了“物理外挂海马体”——记忆与计算开始解耦。

这不是一个小技巧,这是一个方向:LLM 的稀疏性不止 MoE 的“算得少”,还可以是 Engram 的“记得快”。


历史长镜头:为什么“记忆”会成为大模型的阿喀琉斯之踵?

我们得承认一个残酷现实:Transformer 体系从诞生那天起,就像一个“没有查表功能的超级计算器”。

人类被问到“某年某月发生什么”,很多时候不是推理,是瞬间调取:像从书架抽出一本书,翻到那一页。 但 LLM 传统做法更像:把整本书背进脑子,然后在脑子里算出来那一页的内容。

论文点破了这一点:Transformers 缺乏原生的知识 lookup primitive,因此静态模式与知识不得不被编码进权重,并在推理时通过层层矩阵乘法“重建”。

这会带来三个长期问题:

  1. 算力被“背诵”吞噬:很多 token 的预测,本质是对训练中高频局部模式的复现,耗掉宝贵的前层计算深度。
  2. 扩展路径单一:你想让模型“记得更多”,只能堆参数、堆数据、堆训练——像用更厚的大脑解决更厚的课本。
  3. 成本结构固化:知识增长被 GPU 显存与计算预算卡死,“聪明”和“博学”绑成一根绳。

过去几年,行业在 MoE 上找出路:让模型“只激活部分专家”,减少每 token 的计算开销。DeepSeek 自家 V3 技术报告本就强调了 MoE 的高效激活路径。 但 MoE 解决的是计算稀疏,并没有解决另一个更隐蔽的痛点:很多时候模型不是算得太慢,而是记得太笨。

于是 Engram 这条路出现:不再把所有知识都塞进“会算的脑子”,而是把“会记的仓库”外挂出来。


技术线:Engram 到底干了什么?用最朴素的办法干最前沿的事

富贵研究所只讲人话,但这一次得稍微硬核一点,因为它改变的是底层结构。

1)把 N-gram 从垃圾堆里捡回来,做成“可扩展的条件记忆”

Engram 的思想很“复古”:N-gram。 但它的实现很“现代”:哈希、压缩、embedding 表、门控融合、分层存储与预取优化。

在论文框架中,Engram 是一个可即插即用的模块:

  • 基于局部上下文提取 N-gram 特征
  • 通过 确定性的哈希 直接映射到巨大表(无需 MoE 路由网络)
  • O(1) 复杂度查到向量
  • 再用门控把向量融合进 Transformer 隐状态

把它想象成:

主干网络负责“怎么想”,Engram 负责“我记得”。 以前的模型每次都在脑子里“推理式翻书”,现在直接“查表式取证”。

2)关键不是“记得更多”,而是“让前几层不再做无聊体力活”

Engram 最惊艳的地方,在于它对性能提升的解释: 很多模型的早期层在干“静态模式重建”(背诵型工作),Engram 把这些模式交给查表,等于释放了有效深度,让主干把计算预算用在更深层推理上。

这就是为什么论文宣称:在严格对照(iso-parameter / iso-FLOPs)下,知识、推理、代码与数学都提升。

你看,真正的野心不是“更会背”,而是让模型终于能把脑子用在“该用的地方”。

3)存储稀疏:比 MoE 更彻底的“只读我需要的记忆”

MoE 是“只算部分专家”,仍然需要路由与激活管理。 Engram 是“只读少量记忆”,并且通过确定性地址减少路由负担。

这会把系统工程带到一个新方向:

像数据库一样做缓存分层、热度管理、预取与带宽优化。 这类系统思维,在论文与开源仓库对 Engram 的定位里已经呼之欲出。


生态线:为什么这个方向一旦成立,会长出一整条产业链?

大富说:

“当记忆可以外挂,产业就会开始卖外挂。”

Engram 一旦验证有效,会迅速撬动四个生态层:

1)硬件生态:AI 的瓶颈从“显存”扩展到“内存带宽与分层存储”

过去企业问:你有多少 GPU? 未来企业会问:你有多少可用 RAM?NVMe 多快?冷热数据怎么分层? 因为“记忆轴”的规模化增长,可能更多受 DRAM/NVMe 的成本曲线影响,而不是纯 GPU 显存。

2)软件生态:RAG 不会死,但会被“内查表”重构位置

传统 RAG:外部向量检索→拼 prompt→模型再推理。 Engram 类模块:把高频局部静态模式“内嵌式注入”,把推理从“读文档”中解放出来。

结果就是:

  • 高频、模板化、可结构化的知识:走 Engram/lookup
  • 低频、长文本、强语义推理:继续走 RAG + 主干推理 这会让企业知识系统的架构重新洗牌:从“全靠 RAG”走向“记忆层 + 检索层”的两层范式。

3)模型生态:大模型主干会更像“CPU”,外挂更像“PCIe 插卡”

一旦记忆外挂成立,“模型主干”的角色会更清晰:负责推理、泛化、策略; 而“外挂模块”负责:记忆、工具、规则、领域知识、甚至合规策略。

你会看到新的分工:

  • 基座模型厂商卖“推理能力”
  • 行业玩家卖“记忆外挂/规则外挂/工具外挂” 开源社区会像插件市场一样繁荣——因为“外挂”可独立迭代,且更贴近场景价值。

4)商业生态:私有化部署的成本逻辑会被改写

如果“博学”不再一定靠“大参数”,而可以靠“记忆轴扩展”,企业私有化就会出现新甜点区:

小模型主干 + 大记忆外挂 = 低成本、可控、可更新的企业智能体底座。

这对于安全敏感行业、数据不出域场景、以及本地边缘部署,都是一次结构性利好。


范式结论:双轴时代来了——GPU 管智商,RAM 管记忆

我们终于可以把结论写在墙上了:

  • 计算轴(Compute Axis):负责推理、泛化、策略与“智商”——主要由 GPU 与计算预算决定
  • 记忆轴(Memory Axis):负责静态知识、局部模式与“博学”——主要由可扩展存储(RAM/NVMe/分层缓存)决定 Engram 把“条件记忆”明确为一种新的稀疏轴,与 MoE 的条件计算形成互补。

AI 进入双轴扩展时代:不再只有“堆参数”一条路。


五大预测:2026–2028,行业会如何被改写?

预测 1:企业算力采购会出现“记忆 KPI”

从“GPU 数量”扩展为“GPU + DRAM 带宽 + NVMe 分层方案”。 AI 工程会越来越像数据库工程:热数据、冷数据、预取、缓存命中率。

预测 2:小模型主干 + 巨记忆外挂,会成为私有化主流形态

企业将更愿意买“聪明但不大”的主干,把“公司知识”放进可更新的记忆层,而不是反复微调大模型。

预测 3:MoE 的下一站是“混合稀疏”:算得少 + 记得快

MoE 解决计算稀疏,Engram 解决存储稀疏。二者组合会成为新的工程默认项:

MoE 管会想,Engram 管会背。

预测 4:评测体系会分裂为“智商评测”和“记忆评测”

行业会不得不区分:提升来自更强推理?还是更强记忆? 否则“内查表”与“真推理”会在榜单上纠缠不清。

预测 5:“模型外挂市场”会崛起:记忆外挂、规则外挂、合规外挂

Engram 证明了外挂思路可行后,围绕“可插拔能力”的生态会爆发: 行业知识、企业 SOP、合规规则、工具调用策略……都会以外挂形式被产品化。


给行业的一句忠告:别再用“更大的脑子”解决“更厚的课本”

大贵最后把论文读完,给大富发了条消息:

“如果记忆可以外挂,那 AI 的未来就不只是更大,而是更像一台计算机。”

大富回了四个字:

“而且更便宜。”

这就是 Engram 的长期主义: 它没有用更贵的算力去压缩问题,而是用更朴素的结构把问题拆开——让“计算”去做计算,让“记忆”去做记忆。

当行业还在为“参数竞赛”兴奋时

DeepSeek 把一条新赛道摆在了你面前: 双轴扩展,存算解耦,外挂时代。

关键出处

  • arXiv 摘要页与论文 PDF:Conditional Memory via Scalable Lookup (Engram)
  • DeepSeek 官方开源仓库:deepseek-ai/Engram

富贵研究所,是「凯哥讲故事」旗下的产业观察栏目与长期研究计划。

聚焦 AI 时代的产业变化,把技术进展转化为更易理解的行业语言:通过真实场景、关键事件与可验证的推演,分析商业模式、组织分工与新型入口的演化方向。每篇文章力求做到三点:讲清趋势、讲透逻辑、给出可落地的参考框架。文中偶尔引用“大富”“大贵”的一句点评,作为观察视角的点睛。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-14,如有侵权请联系 [email protected] 删除

本文分享自 凯哥讲故事系列 微信公众号,前往查看

如有侵权,请联系 [email protected] 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 大模型终于学会“记笔记”:AI 进入存算解耦的新纪元
    • 事件起势:DeepSeek 这次没堆参数,而是把“记忆”从“脑子”里拔了出来
    • 历史长镜头:为什么“记忆”会成为大模型的阿喀琉斯之踵?
    • 技术线:Engram 到底干了什么?用最朴素的办法干最前沿的事
      • 1)把 N-gram 从垃圾堆里捡回来,做成“可扩展的条件记忆”
      • 2)关键不是“记得更多”,而是“让前几层不再做无聊体力活”
      • 3)存储稀疏:比 MoE 更彻底的“只读我需要的记忆”
    • 生态线:为什么这个方向一旦成立,会长出一整条产业链?
      • 1)硬件生态:AI 的瓶颈从“显存”扩展到“内存带宽与分层存储”
      • 2)软件生态:RAG 不会死,但会被“内查表”重构位置
      • 3)模型生态:大模型主干会更像“CPU”,外挂更像“PCIe 插卡”
      • 4)商业生态:私有化部署的成本逻辑会被改写
    • 范式结论:双轴时代来了——GPU 管智商,RAM 管记忆
    • 五大预测:2026–2028,行业会如何被改写?
      • 预测 1:企业算力采购会出现“记忆 KPI”
      • 预测 2:小模型主干 + 巨记忆外挂,会成为私有化主流形态
      • 预测 3:MoE 的下一站是“混合稀疏”:算得少 + 记得快
      • 预测 4:评测体系会分裂为“智商评测”和“记忆评测”
      • 预测 5:“模型外挂市场”会崛起:记忆外挂、规则外挂、合规外挂
    • 给行业的一句忠告:别再用“更大的脑子”解决“更厚的课本”
      • 关键出处
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档