← Back to scModels Other

AI的细胞考试成绩单:满分,却被生物老师打了零分

AI的细胞考试成绩单:满分,却被生物老师打了零分

单细胞大模型能背出满分成绩,但SAE解剖揭示它缺乏真正的因果调控逻辑

Overview

AI的细胞考试成绩单:满分,却被生物老师打了零分

  • 期数: 第45期
  • 日期: 2026-06-18
  • 话题: 单细胞大模型的对齐危机、生物学知识校准、相关性与因果性

2025年深秋,一位名叫 Ihor Kendiukhov 的年轻研究者干了一件同行们早就想干但一直没干成的事:他把单细胞领域最炙手可热的两个大模型——Geneformer 和 scGPT——像解剖青蛙一样拆开了。

他要找的答案很简单:这些AI是不是真的"理解"了细胞?

结果让所有人倒吸一口凉气。

满分的"假学霸"

在单细胞领域,Geneformer 和 scGPT 是名副其实的"明星学生"。Geneformer 被《自然》正刊收录,在超过三千万个细胞的海量数据上完成预训练,号称能精准预测基因功能、识别疾病相关突变。scGPT 则是首个将 GPT 式生成预训练引入单细胞转录组的模型,在细胞类型注释、基因扰动预测等任务上一路高分。

但 Kendiukhov 不看分数。他拿出一套叫"稀疏自编码器"(Sparse Autoencoder,SAE)的工具——你可以把它想象成一台"AI大脑的CT扫描仪"。它能逐层拆解模型内部的神经元激活模式,看看AI到底在"想"什么。

CT结果出来了:这两个模型确实编码了大量有组织的生物学知识。它们知道哪些基因经常一起表达,知道哪些细胞类型在嵌入空间里应该靠得近,甚至能复现出教科书上的经典通路结构。

但有一个至关重要的东西,它们几乎没有学到——

真正的因果调控逻辑。

换句话说,Geneformer 和 scGPT 的"满分成绩单",本质上是一个训练有素的模式匹配器,而不是一个理解了生物学因果链条的"科学家"。

用 Kendiukhov 论文里的话说,这些模型"编码了组织良好的生物学知识,但几乎不包含真正的调控逻辑"(encode organized biological knowledge but minimal regulatory logic)。

这不是一个技术bug。这是一个范式级别的"对齐危机"。

会背棋谱,不等于会下棋

要理解这个危机为什么致命,我们需要先退一步,看看这些单细胞大模型到底是怎么学的。

无论是 Geneformer 还是 scGPT,它们的核心训练方式都可以归结为一种操作:在海量单细胞转录组数据上做"完形填空"。模型被遮住一部分基因表达值,然后尝试根据上下文预测被遮住的内容。训练数据越多,模型越熟练,预测越准确。

这个逻辑听起来无懈可击。但问题的种子恰恰就埋在这里。

想象你在训练一个学生准备生物考试。你给了他一百万道真题——全是标准答案,没有任何讲解。这个聪明的学生反复刷题,最终他能在新试卷上正确回答绝大多数题目。你去检查他的草稿纸,发现他确实总结出了一些规律:A基因和B基因经常同时出现,细胞类型C和D在"长相"上很接近。

但当你在实验课上问他:"如果我敲掉这个转录因子,下游会发生什么?"——他卡住了。

因为刷题的学生学到的是"相关性",不是"因果性"。他记住了A和B总是一起出现,但他不知道是A调控了B,还是B调控了A,还是它们只是共享了同一个细胞类型的表达程序——就像冰激凌销量和溺水人数高度相关,但不是因为冰激凌导致了溺水,而是因为夏天来了。

这正是单细胞大模型面临的困境。基因的共表达模式是生物学的"影子"——它反映了某些真实的东西,但不是真实本身。而目前的主流预训练范式,恰恰只教模型追逐影子。

两条路线之争:让数据说话,还是让知识引导?

面对这个困境,整个领域分化成了两条路线。

第一条路线可以称为"让数据说话"。Geneformer、scGPT 和 scFoundation 都属于这一派。它们的哲学是:生物学真理已经隐含在海量数据里了,只要数据够多、模型够大,因果性最终会从相关性中"涌现"出来。这条路线的优势是优雅——不需要人类专家手动标注,不需要人工知识图谱,模型自己就能"悟"出来。

第二条路线则是"让知识引导"。这一派的代表模型有两个值得一提的名字。

第一个是 GeneCompass。2024年发表在《Cell Research》上,由中国科学院的团队主导。这个模型在训练时显式整合了四种类型的先验生物学知识,覆盖超过1.2亿人类和小鼠单细胞转录组。它不是让模型从零"悟"出基因关系,而是直接把已知的调控网络、通路信息、基因功能注释"注入"模型的训练过程中。结果呢?GeneCompass 不仅做出了准确预测,还成功地将其中一个预测推进到了湿实验验证——它预测的候选基因确实成功诱导了人类胚胎干细胞向性腺命运分化。从计算预测到培养皿验证,这是为数不多的闭环案例之一。

第二个是 RegFormer。2026年发表在《Nature Communications》上,RegFormer 走得更极端:它把基因调控网络(GRN)显式编码到了模型的架构本身——Mamba架构中。这意味着模型的"思维结构"从一开始就按照生物学的调控逻辑来组织。2500万个人类单细胞,45种组织——RegFormer 证明了你不需要把生物学知识当作锦上添花的"增强",你完全可以让它成为模型的"底层操作系统"。

这两条路线的分歧,本质上是在回答一个问题:AI 学习生物学,应该像婴儿学语言一样从零浸泡在数据里,还是应该像医学生一样先学教科书再上临床?

那个被命名为"罗盘"的隐喻

GeneCompass 的名字本身就是这个争议的绝佳隐喻。

"Compass",罗盘。在一望无际的单细胞数据海洋里航行,如果不带罗盘,你当然也可以走很远——海量的数据、强大的算力、精巧的架构,都可以成为你的风帆。但你无法确保方向是正确的。你可能只是在海面上画了一个巨大的圆。

有了罗盘就不一样了。罗盘不会替你划船,但它确保你每一桨都指向正确的方向。GeneCompass 的那些先验知识——调控网络、基因本体、通路注释——就是罗盘的磁针。它们不是"作弊",而是确保模型的学习方向与进化用数十亿年打磨出来的生物学真实保持一致。

这个隐喻之所以深刻,是因为它还暗示了另一个事实:在自然语言处理领域,大模型可以在没有显式语法规则的情况下掌握语言的统计规律——因为人类语言本身就是一套统计规律。但生物学不同。生物学有一个底层的"语法"——中心法则、信号转导、转录调控——这套语法不是统计学的副产物,而是一套物理和化学的因果链条。你可以从数据中推断影子,但你无法从影子中重构实体——除非你本来就大致知道实体长什么样。

我们离"真正理解"还有多远

Kendiukhov 的SAE研究还有一个更细致的发现值得一提。

他发现 Geneformer 和 scGPT 的内部表征呈现出不同的"计算架构"。Geneformer 的生物学知识更集中在网络的中间层——像一个把笔记整理得井井有条的学生。scGPT 的知识则更分散,贯穿了多个层级——像一个把所有信息都混在一起但直觉很好的学生。

但两者的共同点是:无论知识组织得多好,当研究者通过"消融实验"——即人为切除模型的某些内部特征——来追踪因果链条时,模型的预测并没有表现出生物学上应有的级联效应。敲掉一个"转录因子特征",下游的"靶基因特征"并没有相应改变。

这就像你从一本精心编纂的百科全书中撕掉"心脏"词条——然后发现"血液循环"词条毫发无损。这本百科全书虽然组织得很好,但它并不真正知道心脏和血液循环之间有什么因果关系。

这就是对齐问题的核心:模型的内部表征——它"知道"的东西——与生物学的因果结构——它"应该知道"的东西——之间存在一个尚未弥合的鸿沟。

这不是一场危机,而是一次觉醒

读到这里的读者可能会问:所以这些单细胞大模型没用吗?

恰恰相反。它们极其有用。从细胞类型注释到药物靶点发现,从跨物种比较到虚拟扰动实验,单细胞基础模型已经在加速生物学发现的几乎每个环节。GeneCompass 从预测到湿实验验证的完整闭环就是最好的证明。

对齐危机提醒我们的不是"模型无用",而是一个更深层的问题:当我们说一个模型"理解"了细胞时,我们到底在说什么?

如果"理解"意味着精确的模式识别——那么这些模型确实已经在很多任务上超过了传统方法。但如果"理解"意味着掌握了因果调控逻辑——那我们还差得远。

这或许正是单细胞基础模型走向下一阶段的关键路标。从"让数据说话"到"让知识引导",从统计共表达到因果推断,从黑箱预测到可验证的生物学假设——每一个转向都在将模型从"会背棋谱的学生"推向"会下棋的棋手"。

而 Kendiukhov 用来"解剖"模型的那把手术刀——稀疏自编码器——或许会成为一种新的标准工具。在你相信一个模型的预测之前,先打开它的"大脑"看一看:它是真的学会了生物学的语法,还是只是记住了所有考试答案?

毕竟,生物学的考场上,作弊是会被生命本身揭穿的。


一句话总结:单细胞大模型能"背"出满分的成绩单,但SAE解剖揭示它缺乏真正的因果调控逻辑——从相关性到因果性,是AI理解生命必须跨越的鸿沟。

Links