← Back to scModels Other

"学新忘旧"的细胞AI:单细胞大模型的记忆危机

"学新忘旧"的细胞AI:单细胞大模型的记忆危机

单细胞大模型面临灾难性遗忘困境:学了新物种、新组织就忘掉旧知识,持续学习成为细胞AI的下一个关键战场。

Overview

"学新忘旧"的细胞AI:单细胞大模型的记忆危机

  • 期数: 第52期
  • 日期: 2026-06-26
  • 话题: 持续学习、灾难性遗忘、单细胞基础模型

1953年,一位名叫H.M.的年轻患者接受了一场脑部手术。医生切除了他双侧的海马体,试图治疗他的严重癫痫。手术成功了——癫痫消失了。但代价令人心碎:从此以后,H.M.再也无法形成任何新的长期记忆。他能和医生正常交谈几分钟,但走出房间后就彻底忘记刚才见过谁。他的大脑变成了一个只能读取旧磁带却无法录制新内容的录音机。

这个故事在神经科学教科书中流传了半个多世纪。但鲜有人意识到,2024年最先进的AI模型——包括那些能读懂几千万个细胞的单细胞大模型——正面临着和H.M.惊人相似的困境:它们学得会新东西,但代价往往是忘掉旧东西。在人工智能领域,这有一个残酷而准确的名字——灾难性遗忘(catastrophic forgetting)。

今天,我们来讲讲这个隐藏在单细胞大模型光鲜能力背后的"记忆暗面"。

当AI"背了后面忘了前面"

先做一个简单的思维实验。

想象你有一本存折,但每次存入100元,就必须擦掉存折上某个位置的10元。如果你存得足够勤快,存折上的数字确实在增长,但你永远无法确定——那些被擦掉的记录里,有没有哪一笔比新存入的更重要?

这正是灾难性遗忘的本质。神经网络在学习新任务时,会调整自身的权重(可粗略理解为"神经元之间的连接强度")。问题在于,这个调整过程是全局性的:为了拟合新数据的模式,网络会毫不犹豫地修改那些曾完美记录旧知识的参数。就像你用同一块橡皮泥捏新形状——旧形状必然被抹去。

在经典的机器学习基准测试中,这个问题已经困扰了研究者几十年。比如,一个在MNIST手写数字上训练到99%准确率的网络,当你让它接着学Fashion-MNIST衣服分类,它对数字的准确率会断崖式下跌。它"学会"了认衣服,却"忘掉"了认数字。

那么问题来了:当这个网络不是分辨衣服和数字,而是读过3000万个人类细胞的数据——然后你想让它接着学500万个老鼠细胞——会发生什么?

细胞的"知识保鲜":一个被低估的工程噩梦

单细胞生物学正处在前所未有的数据爆发期。

2017年,一篇里程碑式的论文用单细胞RNA测序绘制了人类细胞图谱的第一个草图,涵盖了数十万个细胞。到2024年,CELLxGENE数据库已经收录了超过8500万个细胞,跨越数百个数据集、数百种组织、数十个物种。这个数字还在以每月数百万的速度增长。

更关键的是,这些数据不是一成不变的。新的实验技术不断涌现(从10x Genomics的3'测序到Parse Biosciences的split-pool方案,再到空间转录组学的各种变体),每一次技术进步都意味着数据分布的微妙改变。新的组织类型、新的发育阶段、新的疾病模型……生物学本身就是一个"一直在更新"的学科。

对于单细胞大模型而言,这构成了一个两难困境:

方案A:只训练一次,永不更新。 这意味着模型的知识停留在训练数据的时间窗口里。如果训练数据收集于2022年,它就无法理解2024年新发现的细胞亚型,也无法适应新测序平台产生的数据分布。它的"保质期"可能只有一年。

方案B:用新数据重新训练。 这能保证知识的时效性,但成本极高。scGPT在超过3300万个细胞上预训练,需要大量GPU资源和数周时间。如果每半年就要重新训练一次,对大多数学术实验室而言在经济上不可行——更别说其对环境的影响。

方案C:在旧模型基础上增量学习新数据。 这正是"持续学习"(continual learning)的愿景——让模型像人类一样,掌握了骑自行车之后再学开汽车,而不会忘记怎么骑自行车。但如前所述,灾难性遗忘是一道横亘在前的技术鸿沟。

这是一个真实存在而非纯理论的困境。2023年,有研究者发现,当他们在Human Cell Atlas的数据上微调一个预训练好的单细胞模型后,模型对人类胚胎发育相关的基因程序的理解出现了退化——某些关键发育标记基因的嵌入表示变得模糊了。模型"记住"了更多成年组织的信息,却"淡忘"了胚胎发育的"语法"。

三条路径:如何对抗遗忘

过去几年,AI研究者提出了三类主要策略来应对灾难性遗忘。每一类在单细胞场景下都有独特的适配挑战。

路径一:复习法——"温故而知新"

最直观的思路是:在学习新数据时,同时复习一部分旧数据。这叫做经验回放(experience replay)。

你可以把它想象成考试复习。如果你一边学新章节,一边定期翻看旧的笔记,就不容易忘记前面学的内容。在大脑的记忆巩固理论中,海马体在睡眠期间"回放"白天的经历,也被认为是一种类似的机制。

在工程实现上,这意味着保留一个"记忆缓冲区"——从旧训练数据中抽样一部分,在增量训练时和新数据混合使用。这个方法简单有效,但在单细胞领域有一个尴尬的问题:存储成本。每个单细胞数据集动辄包含数百万个细胞、数万个基因,保留有代表性的旧样本本身就是一项数据工程挑战。你该保留哪些细胞?按组织类型均匀抽样?按稀有细胞类型加权?每个"复习样本"该保留多少?这些选择直接影响模型的遗忘速度。

路径二:冰冻法——"重要的东西不能动"

第二条路径更激进:在学习新任务时,保护那些对旧任务至关重要的参数不被改动

实现这一思路的代表性方法是弹性权重巩固(Elastic Weight Consolidation, EWC)。它的灵感来自物理学的一个比喻:把每个已经学到的任务想象成在参数空间中的一个"引力阱",模型的最优参数停留在这个阱的底部。当你学习新任务时,新数据试图把参数拉向另一个方向,EWC则对关键参数施加"弹性力"——越是对旧任务重要的参数,弹性系数越大,越难被拉动。

这就像你在重新装修房子时,用钢筋加固了承重墙——你可以随便改隔断,但绝不能动承重墙。

在单细胞大模型中的应用有一个有趣的问题:什么参数算"承重墙"? 在EWC中,重要性由Fisher信息矩阵来估计——简单说,一个参数对模型输出影响越大,它就越重要。但单细胞大模型的参数量动辄数亿,计算完整的Fisher信息矩阵在计算上极其昂贵。研究者们不得不采用近似方法,就像用抽样调查代替全国人口普查。

路径三:扩建法——"给新知识盖新楼"

第三条路径的思想是:既然旧参数不能动,那我干脆给新知识分配专门的"新区块"

这叫做动态架构扩展(dynamic architecture expansion)。每当有新数据需要学习时,网络就新增一部分参数(新神经元或新模块)专门处理新数据,而旧参数保持冻结不变。推理时,模型需要先识别输入属于哪个"知识域",再调用相应的参数模块。

这就像一个不断扩建的图书馆——每个新学科分到一个新书架,旧书架保持原样不动。

这个方法的问题也很明显:参数膨胀。每来一批新数据就扩一次结构,模型会无限制地变大。在单细胞领域,如果每个新物种、每个新组织、每个新测序平台都要加一块参数,模型很快就会膨胀到一个无法部署的体量。

单细胞特有的范式挑战

除了这些通用困境,单细胞数据还给持续学习施加了几道"附加题"。

第一道附加题:批次效应的动态演化。我们之前曾讨论过批次效应——不同实验、不同时间、不同实验室产生的数据存在系统性的技术差异。当模型用新批次的数据进行增量学习时,它如何区分"这是真正的生物学新知识"和"这只是批次效应带来的伪差异"?如果模型把批次效应当成新知识来学,它不仅不会遗忘旧知识,还会学到错误的东西。

第二道附加题:细胞类型的"开放世界"属性。在计算机视觉中,你大体知道世界上有多少种物体类别。但在单细胞生物学中,没有人知道人体到底有多少种细胞类型。每年都有新的细胞亚型被报道。这意味着模型的"输出空间"是动态扩展的——新数据可能包含model从未见过的细胞类别。这不仅是一个增量学习问题,还是一个类增量学习(class-incremental learning)问题,其难度又上了一个台阶。

第三道附加题:跨物种的知识迁移干扰。一个在人类数据上预训练的模型,在用小鼠数据做增量学习时,它所面临的不只是新细胞类型的出现,而是整体"基因语法"的微妙偏移——同源基因可能发挥着部分相似但又不完全相同的作用,基因调控网络的拓扑结构有所差异。模型如何做到既利用跨物种的共性知识,又不把它固化为错误的"普遍真理"?

轻舟已过?前沿进展速览

有趣的是,早期的单细胞大模型文献很少直接讨论持续学习。这不是因为问题不存在,而是因为这个领域还太年轻——大家先解决"让它学会"的问题,再解决"让它不忘"的问题。

但2024年以来,一些进展开始浮现。部分研究者尝试将提示微调(prompt tuning)与知识蒸馏结合:不是直接在原模型上增量训练,而是训练一个轻量级的"适配器"模块,在不修改原模型权重的前提下引导模型适应新数据。另一些研究在探索元学习(meta-learning)策略,让模型在预训练阶段就"学会如何学习新东西而不遗忘",把抗遗忘能力编码进模型的初始化参数里。

还有一个引人注目的方向是模型合并(model merging)——与其让一个模型连续学习,不如针对不同数据域独立训练多个模型,然后通过参数插值将它们"合并"成一个。这种"分而治之"的策略虽然计算成本更高,但在需要严格保留各域知识的场景中展现出优势。

必须诚实地说:单细胞大模型的持续学习,目前仍然是一个没有银弹的领域。每一个解决方案都伴随着性能折衷——复习法消耗存储,冰冻法限制灵活性,扩建法膨胀参数,合并法增加训练成本。这或许正是生物学复杂性的真实映射:一个终身的、动态的、不断自我更新的知识体系,本就不该被轻易压缩进一组固定的参数里。

结语

回到H.M.的故事。这位患者虽然无法形成新的情景记忆,但他仍然能够学习新的运动技能——心理学家称之为"程序性记忆"的保留。大脑用不同的系统存储不同类型的记忆,从而在一定程度上规避了全局遗忘的风险。这或许也是单细胞大模型持续学习研究的终极启示:我们需要的不只是一个更强大的"记忆术",而是一套更精巧的记忆架构

在这场"学新不忘旧"的持久战中,科学家们才刚刚拉开帷幕。


一句话总结:单细胞大模型要学会的不是"记住一切",而是在不断涌入的新知识中,像人类大脑一样——分辨什么该记住、什么可遗忘、什么需要重新理解。

Links