"学新忘旧"的细胞AI：单细胞大模型的记忆危机

单细胞大模型面临灾难性遗忘困境：学了新物种、新组织就忘掉旧知识，持续学习成为细胞AI的下一个关键战场。

Overview

"学新忘旧"的细胞AI：单细胞大模型的记忆危机

期数: 第52期
日期: 2026-06-26
话题: 持续学习、灾难性遗忘、单细胞基础模型

1953年，一位名叫H.M.的年轻患者接受了一场脑部手术。医生切除了他双侧的海马体，试图治疗他的严重癫痫。手术成功了——癫痫消失了。但代价令人心碎：从此以后，H.M.再也无法形成任何新的长期记忆。他能和医生正常交谈几分钟，但走出房间后就彻底忘记刚才见过谁。他的大脑变成了一个只能读取旧磁带却无法录制新内容的录音机。

这个故事在神经科学教科书中流传了半个多世纪。但鲜有人意识到，2024年最先进的AI模型——包括那些能读懂几千万个细胞的单细胞大模型——正面临着和H.M.惊人相似的困境：它们学得会新东西，但代价往往是忘掉旧东西。在人工智能领域，这有一个残酷而准确的名字——灾难性遗忘（catastrophic forgetting）。

今天，我们来讲讲这个隐藏在单细胞大模型光鲜能力背后的"记忆暗面"。

当AI"背了后面忘了前面"

先做一个简单的思维实验。

想象你有一本存折，但每次存入100元，就必须擦掉存折上某个位置的10元。如果你存得足够勤快，存折上的数字确实在增长，但你永远无法确定——那些被擦掉的记录里，有没有哪一笔比新存入的更重要？

这正是灾难性遗忘的本质。神经网络在学习新任务时，会调整自身的权重（可粗略理解为"神经元之间的连接强度"）。问题在于，这个调整过程是全局性的：为了拟合新数据的模式，网络会毫不犹豫地修改那些曾完美记录旧知识的参数。就像你用同一块橡皮泥捏新形状——旧形状必然被抹去。

在经典的机器学习基准测试中，这个问题已经困扰了研究者几十年。比如，一个在MNIST手写数字上训练到99%准确率的网络，当你让它接着学Fashion-MNIST衣服分类，它对数字的准确率会断崖式下跌。它"学会"了认衣服，却"忘掉"了认数字。

那么问题来了：当这个网络不是分辨衣服和数字，而是读过3000万个人类细胞的数据——然后你想让它接着学500万个老鼠细胞——会发生什么？

细胞的"知识保鲜"：一个被低估的工程噩梦

单细胞生物学正处在前所未有的数据爆发期。

2017年，一篇里程碑式的论文用单细胞RNA测序绘制了人类细胞图谱的第一个草图，涵盖了数十万个细胞。到2024年，CELLxGENE数据库已经收录了超过8500万个细胞，跨越数百个数据集、数百种组织、数十个物种。这个数字还在以每月数百万的速度增长。

更关键的是，这些数据不是一成不变的。新的实验技术不断涌现（从10x Genomics的3'测序到Parse Biosciences的split-pool方案，再到空间转录组学的各种变体），每一次技术进步都意味着数据分布的微妙改变。新的组织类型、新的发育阶段、新的疾病模型……生物学本身就是一个"一直在更新"的学科。

对于单细胞大模型而言，这构成了一个两难困境：

方案A：只训练一次，永不更新。 这意味着模型的知识停留在训练数据的时间窗口里。如果训练数据收集于2022年，它就无法理解2024年新发现的细胞亚型，也无法适应新测序平台产生的数据分布。它的"保质期"可能只有一年。

方案B：用新数据重新训练。 这能保证知识的时效性，但成本极高。scGPT在超过3300万个细胞上预训练，需要大量GPU资源和数周时间。如果每半年就要重新训练一次，对大多数学术实验室而言在经济上不可行——更别说其对环境的影响。

方案C：在旧模型基础上增量学习新数据。 这正是"持续学习"（continual learning）的愿景——让模型像人类一样，掌握了骑自行车之后再学开汽车，而不会忘记怎么骑自行车。但如前所述，灾难性遗忘是一道横亘在前的技术鸿沟。

这是一个真实存在而非纯理论的困境。2023年，有研究者发现，当他们在Human Cell Atlas的数据上微调一个预训练好的单细胞模型后，模型对人类胚胎发育相关的基因程序的理解出现了退化——某些关键发育标记基因的嵌入表示变得模糊了。模型"记住"了更多成年组织的信息，却"淡忘"了胚胎发育的"语法"。

三条路径：如何对抗遗忘

过去几年，AI研究者提出了三类主要策略来应对灾难性遗忘。每一类在单细胞场景下都有独特的适配挑战。

路径一：复习法——"温故而知新"

最直观的思路是：在学习新数据时，同时复习一部分旧数据。这叫做经验回放（experience replay）。

你可以把它想象成考试复习。如果你一边学新章节，一边定期翻看旧的笔记，就不容易忘记前面学的内容。在大脑的记忆巩固理论中，海马体在睡眠期间"回放"白天的经历，也被认为是一种类似的机制。

在工程实现上，这意味着保留一个"记忆缓冲区"——从旧训练数据中抽样一部分，在增量训练时和新数据混合使用。这个方法简单有效，但在单细胞领域有一个尴尬的问题：存储成本。每个单细胞数据集动辄包含数百万个细胞、数万个基因，保留有代表性的旧样本本身就是一项数据工程挑战。你该保留哪些细胞？按组织类型均匀抽样？按稀有细胞类型加权？每个"复习样本"该保留多少？这些选择直接影响模型的遗忘速度。

路径二：冰冻法——"重要的东西不能动"

第二条路径更激进：在学习新任务时，保护那些对旧任务至关重要的参数不被改动。

实现这一思路的代表性方法是弹性权重巩固（Elastic Weight Consolidation, EWC）。它的灵感来自物理学的一个比喻：把每个已经学到的任务想象成在参数空间中的一个"引力阱"，模型的最优参数停留在这个阱的底部。当你学习新任务时，新数据试图把参数拉向另一个方向，EWC则对关键参数施加"弹性力"——越是对旧任务重要的参数，弹性系数越大，越难被拉动。

这就像你在重新装修房子时，用钢筋加固了承重墙——你可以随便改隔断，但绝不能动承重墙。

在单细胞大模型中的应用有一个有趣的问题：什么参数算"承重墙"？ 在EWC中，重要性由Fisher信息矩阵来估计——简单说，一个参数对模型输出影响越大，它就越重要。但单细胞大模型的参数量动辄数亿，计算完整的Fisher信息矩阵在计算上极其昂贵。研究者们不得不采用近似方法，就像用抽样调查代替全国人口普查。

路径三：扩建法——"给新知识盖新楼"

第三条路径的思想是：既然旧参数不能动，那我干脆给新知识分配专门的"新区块"。

这叫做动态架构扩展（dynamic architecture expansion）。每当有新数据需要学习时，网络就新增一部分参数（新神经元或新模块）专门处理新数据，而旧参数保持冻结不变。推理时，模型需要先识别输入属于哪个"知识域"，再调用相应的参数模块。

这就像一个不断扩建的图书馆——每个新学科分到一个新书架，旧书架保持原样不动。

这个方法的问题也很明显：参数膨胀。每来一批新数据就扩一次结构，模型会无限制地变大。在单细胞领域，如果每个新物种、每个新组织、每个新测序平台都要加一块参数，模型很快就会膨胀到一个无法部署的体量。

单细胞特有的范式挑战

除了这些通用困境，单细胞数据还给持续学习施加了几道"附加题"。

第一道附加题：批次效应的动态演化。我们之前曾讨论过批次效应——不同实验、不同时间、不同实验室产生的数据存在系统性的技术差异。当模型用新批次的数据进行增量学习时，它如何区分"这是真正的生物学新知识"和"这只是批次效应带来的伪差异"？如果模型把批次效应当成新知识来学，它不仅不会遗忘旧知识，还会学到错误的东西。

第二道附加题：细胞类型的"开放世界"属性。在计算机视觉中，你大体知道世界上有多少种物体类别。但在单细胞生物学中，没有人知道人体到底有多少种细胞类型。每年都有新的细胞亚型被报道。这意味着模型的"输出空间"是动态扩展的——新数据可能包含model从未见过的细胞类别。这不仅是一个增量学习问题，还是一个类增量学习（class-incremental learning）问题，其难度又上了一个台阶。

第三道附加题：跨物种的知识迁移干扰。一个在人类数据上预训练的模型，在用小鼠数据做增量学习时，它所面临的不只是新细胞类型的出现，而是整体"基因语法"的微妙偏移——同源基因可能发挥着部分相似但又不完全相同的作用，基因调控网络的拓扑结构有所差异。模型如何做到既利用跨物种的共性知识，又不把它固化为错误的"普遍真理"？

轻舟已过？前沿进展速览

有趣的是，早期的单细胞大模型文献很少直接讨论持续学习。这不是因为问题不存在，而是因为这个领域还太年轻——大家先解决"让它学会"的问题，再解决"让它不忘"的问题。

但2024年以来，一些进展开始浮现。部分研究者尝试将提示微调（prompt tuning）与知识蒸馏结合：不是直接在原模型上增量训练，而是训练一个轻量级的"适配器"模块，在不修改原模型权重的前提下引导模型适应新数据。另一些研究在探索元学习（meta-learning）策略，让模型在预训练阶段就"学会如何学习新东西而不遗忘"，把抗遗忘能力编码进模型的初始化参数里。

还有一个引人注目的方向是模型合并（model merging）——与其让一个模型连续学习，不如针对不同数据域独立训练多个模型，然后通过参数插值将它们"合并"成一个。这种"分而治之"的策略虽然计算成本更高，但在需要严格保留各域知识的场景中展现出优势。

必须诚实地说：单细胞大模型的持续学习，目前仍然是一个没有银弹的领域。每一个解决方案都伴随着性能折衷——复习法消耗存储，冰冻法限制灵活性，扩建法膨胀参数，合并法增加训练成本。这或许正是生物学复杂性的真实映射：一个终身的、动态的、不断自我更新的知识体系，本就不该被轻易压缩进一组固定的参数里。

结语

回到H.M.的故事。这位患者虽然无法形成新的情景记忆，但他仍然能够学习新的运动技能——心理学家称之为"程序性记忆"的保留。大脑用不同的系统存储不同类型的记忆，从而在一定程度上规避了全局遗忘的风险。这或许也是单细胞大模型持续学习研究的终极启示：我们需要的不只是一个更强大的"记忆术"，而是一套更精巧的记忆架构。

在这场"学新不忘旧"的持久战中，科学家们才刚刚拉开帷幕。

一句话总结：单细胞大模型要学会的不是"记住一切"，而是在不断涌入的新知识中，像人类大脑一样——分辨什么该记住、什么可遗忘、什么需要重新理解。

"学新忘旧"的细胞AI：单细胞大模型的记忆危机

Overview

"学新忘旧"的细胞AI：单细胞大模型的记忆危机

当AI"背了后面忘了前面"

细胞的"知识保鲜"：一个被低估的工程噩梦

三条路径：如何对抗遗忘

路径一：复习法——"温故而知新"

路径二：冰冻法——"重要的东西不能动"

路径三：扩建法——"给新知识盖新楼"

单细胞特有的范式挑战

轻舟已过？前沿进展速览

结语

Links