原文信息
- 标题:Why We Need Continual Learning
- 作者:Malika Aubakirova and Matt Bornstein
- 发布日期:2026年4月22日
- 来源:Andreessen Horowitz (a16z)
- 原文链接:https://a16z.com/why-we-need-continual-learning/
- 翻译日期:2026年5月10日
引言:首先,让我们谈谈上下文
在克里斯托弗·诺兰的《记忆碎片》中,伦纳德·谢尔比生活在一个破碎的当下。在遭受创伤性脑损伤后,他患上了顺行性遗忘症,这种疾病使他无法形成新的记忆。每隔几分钟,他的世界就会重置,让他被困在永恒的现在,与刚刚发生的事情脱节,对未来也毫无把握。为了应对,他通过在身上纹下笔记和拍摄宝丽来照片来生存,这些基本上都是外部辅助工具,用来提醒他那些大脑无法保留的内容。
大语言模型也生活在一个类似的永恒当下。它们在训练完成后,带着冻结在参数中的海量知识问世,但它们无法形成新的记忆——无法根据新经验更新参数。为了补偿这一点,我们用脚手架包围它们:聊天历史作为短期便利贴,检索系统作为外部笔记本,系统提示作为引导性纹身。模型本身从未完全内化新信息。
一些研究人员越来越相信这还不够。上下文学习(ICL)对于答案或答案的某些部分已经存在于世界某处的问题来说是足够的。但对于需要真正发现的问题(如原创性数学发现)、对抗性场景(如安全),或对于难以用语言表达的隐性知识,有强有力的论据表明,模型需要一种在部署后直接将知识和经验更新到参数中的方法。
ICL 是短暂的。真正的学习需要压缩。 在我们让模型持续压缩之前,我们可能被困在《记忆碎片》式的永恒当下中。相反,如果我们能够训练模型学习自己的记忆架构——而不是卸载到定制的封装框架中——我们可能会解锁扩展的新维度。
这个研究领域被称为持续学习(Continual Learning)。虽然这个想法并不新鲜(参见:McCloskey 和 Cohen,1989年!),但我们认为这是当今人工智能领域最重要的工作之一。在过去2-3年中模型能力惊人增长的背景下,模型已知和模型可能知道之间的差距变得越来越明显。
上下文学习确实有效,但有局限
在为参数学习——即更新模型权重的学习——提出论据之前,重要的是要承认上下文学习确实有效。并且有令人信服的论据表明它将继续获胜。
Transformer 的核心是序列上的条件下一词预测器。给它们正确的序列,你就会得到惊人的丰富行为,而无需触及权重。这就是为什么上下文管理、提示工程、指令调优和少样本示例如此强大的原因。智能存在于静态参数中,而明显的能力会根据你输入到窗口中的内容而发生根本性变化。
Cursor 最近关于扩展自主编码代理的深度剖析很好地说明了这一点:
“系统的惊人部分行为归结为我们如何提示代理。封装框架和模型很重要,但提示更重要。”
OpenClaw 是另一个很好的例子。它的爆红不是因为特殊的模型访问权限(底层模型对每个人都可用),而是因为它如何有效地将上下文和工具转化为工作状态:跟踪你在做什么、构建中间工件、决定重新注入什么到提示中、保持先前工作的持久记忆。OpenClaw 将代理封装框架设计提升到了一门独立的学科。
“笨拙但原生"的界面往往会获胜,因为它们直接耦合到底层系统而不是与其对抗。到目前为止,这正是 LLM 正在发生的事情。
状态空间模型:上下文的强化版
随着主导工作流程从原始 LLM 调用转向代理循环,上下文学习模式的压力正在增加。完全填满上下文的情况过去相对罕见。这通常发生在要求 LLM 执行一长串离散工作时,应用层可以简单直接地修剪和/或压缩聊天历史。
然而,对于代理来说,一项任务可能消耗总可用上下文的很大一部分。代理循环中的每一步都依赖于从先前迭代传递的上下文。它们通常在 20-100 步后失败,因为它们失去了线索:上下文填满、连贯性下降,它们停止收敛。
因此,主要 AI 实验室现在正在投入大量资源来开发具有非常大上下文窗口的模型。这是一个自然的方法,因为它建立在行之有效的方法(上下文学习)之上,并清晰地映射到更广泛的行业向推理时计算的转变。
最常见的架构是在普通注意力头之间穿插固定记忆层,即**状态空间模型(State Space Models)**和线性注意力变体。对于长上下文,SSM 提供了比传统注意力从根本上更好的扩展曲线。
目标是帮助代理在更长的循环中保持连贯性,提高几个数量级,比如从约20步到约20,000步,而不失去传统 transformer 提供的技能和知识的广度。
上下文缺失的内容:文件柜谬误
“AGI 和预训练发生的事情是,在某种意义上它们偏离了目标……人类不是 AGI。是的,肯定有技能基础,但人类缺乏大量的知识。相反,我们依赖持续学习。如果我生产出一个超级聪明的15岁孩子,他们知道得并不多。一个伟大的学生,非常渴望。你可以说,‘去当程序员吧。去当医生吧。‘部署本身将涉及某种学习、试错期。这是一个过程,而不是放下完成的东西。”
— Ilya Sutskever
想象一个具有无限存储的系统。世界上最大的文件柜,每个事实都被完美索引,可即时检索。它可以查找任何东西。它学习了吗?
没有。它从未被迫进行压缩。
这是我们论点的核心,它借鉴了 Ilya Sutskever 之前提出的一个观点:LLM 本质上是压缩算法。 在训练过程中,它们将互联网压缩成参数。压缩是有损的,而这正是它强大的原因。
压缩迫使模型找到结构、进行泛化、构建跨上下文转移的表征。 记住每个训练示例的模型比提取潜在模式的模型更糟糕。有损压缩就是学习。
讽刺的是,使 LLM 在训练期间强大的机制(例如将原始数据压缩成紧凑、可转移的表征)正是我们在部署后拒绝让它们做的事情。我们在发布的那一刻停止压缩,并用外部记忆取而代之。
费马大定理的启示
Yu Sun 分享了一个说明这场辩论的例子,那就是数学。
考虑费马大定理。超过350年,没有数学家能够证明它——不是因为他们缺乏访问正确文献的权限,而是因为解决方案高度新颖。既定数学与最终答案之间的概念距离实在太大了。
当 Andrew Wiles 在1990年代最终破解它时,在近7年的几乎完全隔离的工作后,他必须发明强大的新技术才能达到解决方案。他的证明依赖于成功连接两个不同的数学分支:椭圆曲线和模形式。
核心问题是:这些例子是否证明了 LLM 缺少某些东西,某些更新其先验并以真正创造性方式思考的能力?或者,这个故事是否恰恰证明了相反的观点——即所有人类知识只是可用于训练/重组的数据,而 Wiles 和 Perelman 只是展示了 LLM 在更大规模上可以做的事情?
这是一个经验性问题,答案尚不可知。但我们确实知道,有许多类问题在今天上下文学习失败,而参数学习可能会产生影响。
持续学习入门
持续学习有各种方法。分界线不是"记忆功能"与"无记忆功能”。而是:压缩发生在哪里?
这些方法沿着从无压缩(纯检索、权重冻结)到完全内部压缩(权重级学习、模型变得更聪明)的谱系聚集,以及一个重要的中间地带(模块)。
1. 上下文端
团队构建更智能的检索管道、代理封装框架和提示编排。这是最成熟的类别:基础设施已验证,部署故事清晰。限制是深度:上下文长度。
多代理架构作为上下文本身扩展策略:如果单个模型受限于128K令牌窗口,那么一个协调的代理群,每个代理都有自己的上下文,专门处理问题的一部分,并交流结果,可以共同近似无限的工作记忆。
2. 模块端
团队构建可附加的知识模块(压缩的 KV 缓存、适配器层、外部记忆存储),使通用模型专业化而无需重新训练。
一个具有正确模块的 8B 模型可以使用一小部分内存在目标任务上匹配 109B 的性能。吸引力在于它可以与现有的 transformer 基础设施一起工作。
3. 权重端
研究人员正在追求真正的参数学习,例如:
- 仅更新相关参数部分的稀疏记忆层
- 从反馈中精炼模型的强化学习循环
- 在推理期间将上下文压缩到权重中的测试时训练
这些是最深层次的方法,也是最难部署的,但它们实际上允许模型完全内化新信息或技能。
持续学习创业格局
非参数端(最成熟)
工具公司(Letta、mem0、Subconscious)构建编排层和脚手架,管理进入上下文窗口的内容。
外部存储和 RAG 基础设施(例如 Pinecone、xmemory)提供检索主干。
参数端(更早期且更多样)
公司正在尝试某种版本的部署后压缩,让模型在权重中内化新信息:
1. 部分压缩:无需重新训练的学习
构建可附加的知识模块,使通用模型专业化而无需触及核心权重。共同的论点:你可以获得有意义的压缩(不仅仅是检索),同时保持稳定性-可塑性权衡可控,因为学习是隔离的而不是分布在整个参数空间中。
2. RL 和反馈循环:从信号中学习
最丰富信号已经存在于部署循环本身中——用户纠正、任务成功和失败、来自真实世界结果的奖励信号。
核心思想是模型应该将每次交互视为潜在的训练信号,而不仅仅是推理请求。
3. 以数据为中心的方法:从正确的信号中学习
瓶颈不是学习算法而是训练数据和周围系统。这些团队专注于策划、生成或合成正确的数据以驱动持续更新。
4. 新颖架构:通过设计学习
最激进的赌注是 transformer 架构本身就是瓶颈,持续学习需要根本不同的计算原语:具有连续时间动态和内置记忆机制的架构。
为什么朴素的权重更新会失败
在生产环境中更新模型参数会引入一系列故障模式,到目前为止,这些模式在大规模上尚未解决。
工程问题
- 灾难性遗忘:足够敏感以从新数据学习的模型会破坏现有表征——稳定性-可塑性困境
- 时间解纠缠:不变规则和可变状态被压缩到相同的权重中,因此更新一个会破坏另一个
- 逻辑集成失败:事实更新不会传播到其后果
- 知识卸载仍然是不可能的:没有用于减法的可微操作,因此错误或有毒的知识没有手术补救
安全和治理问题
目前训练和部署之间的分离不仅是工程上的便利——它是安全性、可审计性和治理边界。
- 安全对齐可能会不可预测地下降:即使在良性数据上的狭窄微调也可能产生广泛的不对齐行为
- 持续更新会创建数据中毒表面——一种存在于权重中的缓慢、持久的提示注入版本
- 可审计性崩溃:持续更新的模型是一个移动目标,无法版本化、回归测试或一次性认证
- 隐私风险加剧:当用户交互被压缩到参数中时,将敏感信息固化到比检索的上下文更难过滤的表征中
从记忆碎片到记忆
伦纳德在《记忆碎片》中的悲剧不是他无法运作:他在任何特定场景中都足智多谋,甚至才华横溢。
他的悲剧是他永远无法实现能力的叠加与沉淀。
每次经历都保持在外部——一张宝丽来照片、一个纹身、一张别人手写的便条。他可以检索,但他无法压缩新知识。
当伦纳德在这个自我构建的迷宫中移动时,真相与信仰之间的界限开始变得模糊。他的状况不仅剥夺了他的记忆;它迫使他不断重建意义,使他成为自己故事中的调查员和不可靠的叙述者。
今天的 AI 在同样的约束下运作。
我们已经构建了非常有能力的检索系统:更长的上下文窗口、更智能的封装框架、协调的多代理群,它们确实有效!
但检索不是学习。
一个可以查找任何事实的系统从未被迫找到结构。它从未被迫泛化。使训练如此强大的有损压缩,将原始数据转化为可转移表征的机制,正是我们在部署的那一刻关闭的东西。
结论:前进的道路
前进的道路可能不是单一突破,而是一个分层系统:
- 上下文学习仍将是适应的第一线:它是原生的、经过验证的、正在改进的
- 模块机制可以处理个性化和领域专业化的中间地带
- 但对于困难问题——如发现、对抗性适应、难以用词语表达的隐性知识——我们可能需要模型在训练后将经验压缩到其参数中
这意味着:
- 稀疏架构的进步
- 元学习目标
- 自我改进循环
这可能还需要我们重新定义"模型"甚至意味着什么:不是一组固定的权重,而是一个进化的系统,包括其记忆、其更新算法以及其从自身经验中抽象的能力。
文件柜越来越大。但更大的文件柜仍然是文件柜。
突破是让模型在部署后做在训练期间使其强大的事情:压缩、抽象和学习。
我们站在从健忘模型到有一丝经验的模型的转折点。否则,我们将被困在我们自己的《记忆碎片》中。
译者后记
这篇文章来自 a16z(Andreessen Horowitz),对持续学习这一前沿研究方向进行了深入浅出的分析。文章从《记忆碎片》的隐喻切入,系统性地讨论了:
- 上下文学习的局限性:为什么仅靠扩展上下文窗口不够
- 参数学习的必要性:为什么真正的学习需要压缩到权重中
- 技术路径:从上下文、模块到权重更新的不同方法
- 创业格局:不同公司在持续学习栈上的押注
- 工程挑战:灾难性遗忘、安全对齐、可审计性等问题
对于关注 AI 长期发展的读者来说,这篇文章提供了重要的思考框架:AI 的下一步突破可能不是更大的模型,而是让模型持续学习的能力。
翻译说明:本文翻译力求准确传达原文的技术含义和论证逻辑。部分术语采用行业通用的中文译名:
- In-context learning: 上下文学习
- Parametric learning: 参数学习
- Continual learning: 持续学习
- Catastrophic forgetting: 灾难性遗忘
- State space models: 状态空间模型
- Harness: 封装框架/外壳程序
- Representations: 表征
- Tacit knowledge: 隐性知识
- Unlearning: 知识卸载
- Compaction: 压缩/浓缩