什么都不告诉它，还是先给一本"生物教科书"？——单细胞大模型训练策略的哲学之争

单细胞大模型训练中最激烈的哲学之争：是让AI从零开始纯数据驱动学习，还是先注入生物学先验知识？Sutton的"苦涩教训"在单细胞领域遭遇挑战。

Overview

什么都不告诉它，还是先给一本"生物教科书"？——单细胞大模型训练策略的哲学之争

期数: 第53期
日期: 2026-06-27
话题: 生物学先验知识注入、数据驱动vs知识引导训练哲学

2019年3月，计算机科学家 Rich Sutton 发表了一篇简短的博客，标题只有四个字：The Bitter Lesson（苦涩的教训）。他的核心观点像一盆冷水浇在整个人工智能领域头上：70年AI研究的最大教训是，依赖人类知识的方法最终都会被依赖算力和数据的方法碾压。国际象棋程序靠人类棋谱起步，却被纯自我对弈的 AlphaZero 反超；机器翻译靠语言学规则打底，最终输给了把全部语料库吞下去的神经网络。

Sutton 的论断像一句咒语，在每一个AI子领域反复回响。当单细胞生物学家开始训练自己的"大模型"时，这句咒语自然也找到了新的战场。

一个婴儿，一本教科书，和一亿个细胞

想象你在教一个异常聪明但完全无知的婴儿认识"细胞"。你有两种方案。

方案A：把婴儿扔进一个装满一亿个细胞转录组数据的房间，关上门，说"你自己看"。不给任何提示，不告诉它什么是T细胞、什么是线粒体基因、什么是细胞周期——让它纯粹从数据中自己"悟"。

方案B：先给婴儿一本《分子生物学》教科书，告诉它"这些基因属于同一个信号通路""这个转录因子通常会激活那几个靶基因""线粒体基因在能量代谢中起作用"，然后再把那一亿个细胞的数据交给它。

你会选哪个？

这看起来是个蠢问题——当然应该先给教科书。但单细胞大模型领域最激烈的争论之一，恰恰围绕这个问题展开。而且，答案远比你想象的复杂。

"纯净派"：让数据说话

以 scGPT 和早期的 Geneformer 为代表的"纯净派"（有时也被称为"无先验派"）秉持一个简洁到近乎极端的信念：模型应该从零开始，只从基因表达矩阵中学习。

scGPT 的预训练过程堪称"纯净"的典范——它把每个细胞当作一个"句子"，基因当作"单词"，唯一的目标是：给定一个被随机遮蔽的基因，根据周围其他基因的表达值去猜它应该是什么水平。这个任务（掩码语言建模，MLM）纯粹是统计性的——模型不需要知道"CD3E 是 T 细胞的标志基因"，它只需要在反复"完形填空"中发现：每当某些基因组合出现时，某个被遮住的基因倾向于高表达。

支持者的逻辑简单而有力：生物学的教科书是人写的，人写的东西可能是不完整的，甚至是错的。基因本体数据库（Gene Ontology）标注了几万个基因的功能，但还有大量基因的功能我们根本不知道。蛋白质互作网络看似庞大，但体外实验条件下的互作未必反映体内真实情况。如果你强行把这些不完美的知识"塞"给模型，你就是在用一个有偏差的认知框架去限制AI可能发现的新模式。

更重要的是，Sutton 的"苦涩教训"在这里显得振聋发聩。既然在围棋、翻译、图像识别中，人类知识最终都被"暴力计算+大数据"碾压了，在单细胞生物学这么复杂的领域，我们凭什么相信人类的先验知识靠得住？

Cell-JEPA 的设计者可能是这一哲学最极致的践行者。JEPA（联合嵌入预测架构）甚至不要求模型重建原始基因表达值，而是让模型在抽象的"潜空间"中做预测——连"具体猜出哪个基因表达了"这个要求都拿掉了。在 Cell-JEPA 看来，任何一个具体的人类定义——无论是基因符号、通路标签还是细胞类型名称——都可能是通向真正理解的障碍。

"教科书派"：给AI指条明路

但另一派科学家不买账。

他们的反驳同样犀利：单细胞数据不是围棋。围棋的规则只有19条，棋盘只有361个交叉点，两个AlphaZero自己下几千万盘就能穷尽所有可能。但一个人类细胞有大约20000个基因，它们之间的调控关系之复杂，远超任何棋类游戏。如果完全靠数据硬学，你需要的数据量可能远超人类目前拥有的所有测序能力——更不用说单细胞数据的噪声之大、批次效应之强、稀疏性之严重，都比干净的结构化数据难处理得多。

于是"教科书派"登场了。他们的核心理念是：在训练之前，把已知的生物学知识结构化地注入模型，让AI带着"常识"去读数据，而不是两眼一抹黑。

GeneCompass 是这一派的一个代表。它在预训练时引入了一个巧妙的辅助任务：不仅要预测被掩蔽基因的表达值，还要判断两个基因是否在已知的调控关系网络中有关联——相当于一边做细胞层面的"完形填空"，一边做基因层面的"连连看"。模型被迫在学习细胞表达模式的同时，记住哪些基因在生物学上是"朋友"。

这一派的终极武器是"知识图谱增强预训练"——把 Gene Ontology、KEGG 通路、Reactome、STRING 蛋白互作网络等数十个数据库整合成一个巨型知识图谱，然后把这个图谱"编织"进模型的注意力机制里。这意味着：当模型在计算细胞中基因A和基因B的关系时，它不仅参考它们在数据中的共表达模式，还会"想起""哦，人类告诉我这两个基因属于同一条通路"。

支持者引用了一个令人印象深刻的结果：使用知识增强的模型，在罕见细胞类型的识别上常常表现更好——因为那些只有几十个细胞的稀有类型，纯数据驱动的模型根本"看"不到足够的统计信号，而先验知识正好弥补了数据不足的短板。

中间路线：把门打开，但不要指路

两派争论到白热化时，一些研究者开始思考：能不能既不"填鸭"，也不"放羊"？

于是出现了第三条路：结构化先验。它的核心思想是：不给AI具体的"知识"，而是给它一个合理的"思维框架"。

最好的例子是单细胞大模型中对"基因-基因共表达"的建模方式。纯数据驱动的方法把每个基因当作独立词汇；教科书派可能强行告诉模型"基因A和B是通路伙伴"；而结构化先验派则设计了一种注意力机制的"偏置"——让模型倾向于关注基因间的关系，但不规定具体哪些基因应该关联。就像给婴儿的不是一本教科书，而是一套积木——你可以用它搭出任何结构，但积木的形状本身提供了某种物理约束。

scGPT 的基因分桶（gene binning）策略其实暗含了这种哲学。它没有告诉模型"CD3E 是什么"，但它把基因按在训练数据中的表达频率分成桶，让模型天然地注意到高表达基因和低表达基因的不同"角色"。这不是知识，而是引导注意力的"舞台设计"。

最近，一些团队开始尝试更激进的想法："软先验"——用另一个预训练好的模型来教单细胞模型。比如，先用蛋白质语言模型（如 ESM）学到的氨基酸序列知识来"初始化"基因的表示向量，再让单细胞模型在此基础上学习。这相当于告诉模型："这个基因编码的蛋白质长这样"——一个纯物理化学的事实，而非人类的生物学解读。它比"这个基因是癌基因"更中立，比"什么都不知道"更有信息量。

科学发现的两难：偏见与洞见的边界在哪里？

这场争论的背后，藏着一个更深的科学哲学问题：当AI发现了一个和所有已知生物学知识都矛盾的"模式"，我们应该相信谁？

如果模型是"纯数据驱动"的，它的发现可能是真正的突破——比如揭示了一个人类从未注意过的基因调控关系。但也可能只是一个数据伪影——批次效应、技术噪声或过拟合的产物。当你没有任何先验来"校验"它时，你分不清哪个是珍珠、哪个是沙砾。

如果模型是"教科书驱动"的，它几乎不可能做出"反常识"的发现——而科学史上最伟大的突破，从哥白尼到 PCR 的发明者凯利·穆利斯，恰恰都是从"反常识"开始的。

这其实回到了 Sutton 的"苦涩教训"——但这一次，我们要重新审视它。Sutton 说的是"人类知识"，但他特指那些人类手工编码的规则和启发式方法。而现代生物学知识——基因序列、蛋白质结构、进化保守性——更像是一种"自然界的先验"，而非人造的观念框架。

也许，真正该问的问题不是"要不要给先验知识"，而是"给什么样的先验知识"。

进化给了一本"参考答案"

这里有一个非常优雅的见解正在获得越来越多的认可：最可靠、最不应该被忽视的先验知识，是进化本身留下的痕迹。

同源基因在不同物种中的保守性、蛋白质结构域的功能约束、发育过程中基因表达程序的时序性——这些不是某个生物学家"发明"的概念，而是40亿年进化雕刻出来的"铁律"。

当 scGPT 在3300万个细胞上预训练，发现它可以零样本地在小鼠、斑马鱼甚至果蝇数据上做出合理预测时，它其实无意中验证了这一点：进化保守的基因调控逻辑是真实存在的，而且足够强大，以至于一个纯数据驱动的模型也能把它们"学"出来。但当模型能从跨物种的保守性信号中学习时，进化保守性就从一个"结果"变成了一个"加速器"——为什么不一开始就告诉模型"注意那些跨物种保守的基因关系"呢？

尾声：不是非此即彼

2024年，当被问到"单细胞大模型是否需要生物学先验"时，一位资深研究者给了一个让我印象深刻的回答：

"十年前，我们争论的是'要不要用深度学习'。五年前，争论的是'要不要用Transformer'。现在争论的是'要不要给先验知识'。但真正的进步从来不来自选边站——它来自那些把'要不要'变成'怎么更好地要'的人。"

这或许就是 Sutton 的"苦涩教训"在单细胞生物学中的2.0版本：不是"不要人类知识"，而是"不要把人类知识当成教条"。教科书应该是一张地图，而不是一副枷锁——它告诉你前人走过的路，但不应该阻止你走出一条新的路来。

一句话总结：单细胞大模型的"先验知识之争"表面上是"给不给教科书"的技术分歧，本质上是"如何让AI既尊重已知又不被已知困住"的科学哲学命题——而进化的40亿年实验数据，可能是那个最好的参考答案。

什么都不告诉它，还是先给一本"生物教科书"？——单细胞大模型训练策略的哲学之争

Overview

什么都不告诉它，还是先给一本"生物教科书"？——单细胞大模型训练策略的哲学之争

Links