什么都不告诉它,还是先给一本"生物教科书"?——单细胞大模型训练策略的哲学之争
单细胞大模型训练中最激烈的哲学之争:是让AI从零开始纯数据驱动学习,还是先注入生物学先验知识?Sutton的"苦涩教训"在单细胞领域遭遇挑战。
Overview
什么都不告诉它,还是先给一本"生物教科书"?——单细胞大模型训练策略的哲学之争
- 期数: 第53期
- 日期: 2026-06-27
- 话题: 生物学先验知识注入、数据驱动vs知识引导训练哲学
2019年3月,计算机科学家 Rich Sutton 发表了一篇简短的博客,标题只有四个字:The Bitter Lesson(苦涩的教训)。他的核心观点像一盆冷水浇在整个人工智能领域头上:70年AI研究的最大教训是,依赖人类知识的方法最终都会被依赖算力和数据的方法碾压。国际象棋程序靠人类棋谱起步,却被纯自我对弈的 AlphaZero 反超;机器翻译靠语言学规则打底,最终输给了把全部语料库吞下去的神经网络。
Sutton 的论断像一句咒语,在每一个AI子领域反复回响。当单细胞生物学家开始训练自己的"大模型"时,这句咒语自然也找到了新的战场。
一个婴儿,一本教科书,和一亿个细胞
想象你在教一个异常聪明但完全无知的婴儿认识"细胞"。你有两种方案。
方案A:把婴儿扔进一个装满一亿个细胞转录组数据的房间,关上门,说"你自己看"。不给任何提示,不告诉它什么是T细胞、什么是线粒体基因、什么是细胞周期——让它纯粹从数据中自己"悟"。
方案B:先给婴儿一本《分子生物学》教科书,告诉它"这些基因属于同一个信号通路""这个转录因子通常会激活那几个靶基因""线粒体基因在能量代谢中起作用",然后再把那一亿个细胞的数据交给它。
你会选哪个?
这看起来是个蠢问题——当然应该先给教科书。但单细胞大模型领域最激烈的争论之一,恰恰围绕这个问题展开。而且,答案远比你想象的复杂。
"纯净派":让数据说话
以 scGPT 和早期的 Geneformer 为代表的"纯净派"(有时也被称为"无先验派")秉持一个简洁到近乎极端的信念:模型应该从零开始,只从基因表达矩阵中学习。
scGPT 的预训练过程堪称"纯净"的典范——它把每个细胞当作一个"句子",基因当作"单词",唯一的目标是:给定一个被随机遮蔽的基因,根据周围其他基因的表达值去猜它应该是什么水平。这个任务(掩码语言建模,MLM)纯粹是统计性的——模型不需要知道"CD3E 是 T 细胞的标志基因",它只需要在反复"完形填空"中发现:每当某些基因组合出现时,某个被遮住的基因倾向于高表达。
支持者的逻辑简单而有力:生物学的教科书是人写的,人写的东西可能是不完整的,甚至是错的。基因本体数据库(Gene Ontology)标注了几万个基因的功能,但还有大量基因的功能我们根本不知道。蛋白质互作网络看似庞大,但体外实验条件下的互作未必反映体内真实情况。如果你强行把这些不完美的知识"塞"给模型,你就是在用一个有偏差的认知框架去限制AI可能发现的新模式。
更重要的是,Sutton 的"苦涩教训"在这里显得振聋发聩。既然在围棋、翻译、图像识别中,人类知识最终都被"暴力计算+大数据"碾压了,在单细胞生物学这么复杂的领域,我们凭什么相信人类的先验知识靠得住?
Cell-JEPA 的设计者可能是这一哲学最极致的践行者。JEPA(联合嵌入预测架构)甚至不要求模型重建原始基因表达值,而是让模型在抽象的"潜空间"中做预测——连"具体猜出哪个基因表达了"这个要求都拿掉了。在 Cell-JEPA 看来,任何一个具体的人类定义——无论是基因符号、通路标签还是细胞类型名称——都可能是通向真正理解的障碍。
"教科书派":给AI指条明路
但另一派科学家不买账。
他们的反驳同样犀利:单细胞数据不是围棋。围棋的规则只有19条,棋盘只有361个交叉点,两个AlphaZero自己下几千万盘就能穷尽所有可能。但一个人类细胞有大约20000个基因,它们之间的调控关系之复杂,远超任何棋类游戏。如果完全靠数据硬学,你需要的数据量可能远超人类目前拥有的所有测序能力——更不用说单细胞数据的噪声之大、批次效应之强、稀疏性之严重,都比干净的结构化数据难处理得多。
于是"教科书派"登场了。他们的核心理念是:在训练之前,把已知的生物学知识结构化地注入模型,让AI带着"常识"去读数据,而不是两眼一抹黑。
GeneCompass 是这一派的一个代表。它在预训练时引入了一个巧妙的辅助任务:不仅要预测被掩蔽基因的表达值,还要判断两个基因是否在已知的调控关系网络中有关联——相当于一边做细胞层面的"完形填空",一边做基因层面的"连连看"。模型被迫在学习细胞表达模式的同时,记住哪些基因在生物学上是"朋友"。
这一派的终极武器是"知识图谱增强预训练"——把 Gene Ontology、KEGG 通路、Reactome、STRING 蛋白互作网络等数十个数据库整合成一个巨型知识图谱,然后把这个图谱"编织"进模型的注意力机制里。这意味着:当模型在计算细胞中基因A和基因B的关系时,它不仅参考它们在数据中的共表达模式,还会"想起""哦,人类告诉我这两个基因属于同一条通路"。
支持者引用了一个令人印象深刻的结果:使用知识增强的模型,在罕见细胞类型的识别上常常表现更好——因为那些只有几十个细胞的稀有类型,纯数据驱动的模型根本"看"不到足够的统计信号,而先验知识正好弥补了数据不足的短板。
中间路线:把门打开,但不要指路
两派争论到白热化时,一些研究者开始思考:能不能既不"填鸭",也不"放羊"?
于是出现了第三条路:结构化先验。它的核心思想是:不给AI具体的"知识",而是给它一个合理的"思维框架"。
最好的例子是单细胞大模型中对"基因-基因共表达"的建模方式。纯数据驱动的方法把每个基因当作独立词汇;教科书派可能强行告诉模型"基因A和B是通路伙伴";而结构化先验派则设计了一种注意力机制的"偏置"——让模型倾向于关注基因间的关系,但不规定具体哪些基因应该关联。就像给婴儿的不是一本教科书,而是一套积木——你可以用它搭出任何结构,但积木的形状本身提供了某种物理约束。
scGPT 的基因分桶(gene binning)策略其实暗含了这种哲学。它没有告诉模型"CD3E 是什么",但它把基因按在训练数据中的表达频率分成桶,让模型天然地注意到高表达基因和低表达基因的不同"角色"。这不是知识,而是引导注意力的"舞台设计"。
最近,一些团队开始尝试更激进的想法:"软先验"——用另一个预训练好的模型来教单细胞模型。比如,先用蛋白质语言模型(如 ESM)学到的氨基酸序列知识来"初始化"基因的表示向量,再让单细胞模型在此基础上学习。这相当于告诉模型:"这个基因编码的蛋白质长这样"——一个纯物理化学的事实,而非人类的生物学解读。它比"这个基因是癌基因"更中立,比"什么都不知道"更有信息量。
科学发现的两难:偏见与洞见的边界在哪里?
这场争论的背后,藏着一个更深的科学哲学问题:当AI发现了一个和所有已知生物学知识都矛盾的"模式",我们应该相信谁?
如果模型是"纯数据驱动"的,它的发现可能是真正的突破——比如揭示了一个人类从未注意过的基因调控关系。但也可能只是一个数据伪影——批次效应、技术噪声或过拟合的产物。当你没有任何先验来"校验"它时,你分不清哪个是珍珠、哪个是沙砾。
如果模型是"教科书驱动"的,它几乎不可能做出"反常识"的发现——而科学史上最伟大的突破,从哥白尼到 PCR 的发明者凯利·穆利斯,恰恰都是从"反常识"开始的。
这其实回到了 Sutton 的"苦涩教训"——但这一次,我们要重新审视它。Sutton 说的是"人类知识",但他特指那些人类手工编码的规则和启发式方法。而现代生物学知识——基因序列、蛋白质结构、进化保守性——更像是一种"自然界的先验",而非人造的观念框架。
也许,真正该问的问题不是"要不要给先验知识",而是"给什么样的先验知识"。
进化给了一本"参考答案"
这里有一个非常优雅的见解正在获得越来越多的认可:最可靠、最不应该被忽视的先验知识,是进化本身留下的痕迹。
同源基因在不同物种中的保守性、蛋白质结构域的功能约束、发育过程中基因表达程序的时序性——这些不是某个生物学家"发明"的概念,而是40亿年进化雕刻出来的"铁律"。
当 scGPT 在3300万个细胞上预训练,发现它可以零样本地在小鼠、斑马鱼甚至果蝇数据上做出合理预测时,它其实无意中验证了这一点:进化保守的基因调控逻辑是真实存在的,而且足够强大,以至于一个纯数据驱动的模型也能把它们"学"出来。但当模型能从跨物种的保守性信号中学习时,进化保守性就从一个"结果"变成了一个"加速器"——为什么不一开始就告诉模型"注意那些跨物种保守的基因关系"呢?
尾声:不是非此即彼
2024年,当被问到"单细胞大模型是否需要生物学先验"时,一位资深研究者给了一个让我印象深刻的回答:
"十年前,我们争论的是'要不要用深度学习'。五年前,争论的是'要不要用Transformer'。现在争论的是'要不要给先验知识'。但真正的进步从来不来自选边站——它来自那些把'要不要'变成'怎么更好地要'的人。"
这或许就是 Sutton 的"苦涩教训"在单细胞生物学中的2.0版本:不是"不要人类知识",而是"不要把人类知识当成教条"。教科书应该是一张地图,而不是一副枷锁——它告诉你前人走过的路,但不应该阻止你走出一条新的路来。
一句话总结:单细胞大模型的"先验知识之争"表面上是"给不给教科书"的技术分歧,本质上是"如何让AI既尊重已知又不被已知困住"的科学哲学命题——而进化的40亿年实验数据,可能是那个最好的参考答案。