← Back to scModels Foundation Model

同一个细胞,五种读法:单细胞大模型背后的预训练哲学之争

同一个细胞,五种读法:单细胞大模型背后的预训练哲学之争
2026-06-13 ·

WeChat科普推文 第40期 · 2026-06-13

Overview

WeChat科普推文 第40期 · 2026-06-13
话题: 预训练, 范式对比, 单细胞大模型

2023年春天,三封来自不同实验室的邮件几乎同时抵达了各大期刊的编辑邮箱。崔哲博士(多伦多大学)递交了scGPT——一个用"猜下一个词"策略训练的单细胞大模型;杨帆博士(卡内基梅隆)提交了scBERT——用"完形填空"来教AI读细胞;Christina Theodoris(哈佛& Broad研究所)则呈上了Geneformer——一个既不猜词也不填空,而是用"排序"来学习的古怪模型。

三位科学家手握同一套"教材"——数千万个细胞的基因表达数据,却选择了截然不同的"教学法"。如果你是一名生物信息学研究生,面对这三件"兵器"不知该拣哪一把,那你并不孤单——即便在顶会审稿人的圆桌上,这也是一个能吵到凌晨两点的问题。

这个问题的核心只有一个词:预训练目标(pretraining objective)


上通识课的艺术:为什么"怎么学"比"学什么"更重要?

在开始对比之前,我们先对齐一个前提:什么是预训练。

想象你要培养一个医生。传统做法是:每换一个专科,从头学一遍解剖、生理、药理。聪明得多的做法是:先接受四年的通识医学教育,打造一个"通用医学大脑",然后再花一年专攻某个方向——心内科或神经科。

单细胞大模型的预训练就是这个"四年通识教育"。在上千万个细胞的基因表达数据上,不设具体任务,只要求模型从数据本身学到某种通用的"细胞知识"。之后,再用少量标注数据微调——相当于一年的专科训练。

问题在于:这四年的通识课,教材该怎么编?答案是——取决于你认为"细胞"最像什么。


如果细胞是一篇文章:BERT式的完形填空

代表模型:scBERT、scFoundation

BERT式预训练——正式名称"掩码语言建模"(Masked Language Modeling, MLM)——的做法像一个中学语文老师:把一篇文章随机涂掉15%的词,让学生根据上下文猜出来被涂掉的是什么。

在单细胞语境中,"文章"是一个细胞的全基因组表达谱,"词"是单个基因。模型被训练成:看到某个细胞其余20000多个基因的表达值后,推断被遮住的那几百个基因大致是什么水平。

这种方法最大的好处是双向理解——模型猜一个基因时,能同时"看到"它前后左右的全部语境信息,就像你能根据整段话的氛围来猜一个被马克笔涂黑的词。

scBERT正是借此在细胞类型注释上一鸣惊人。2023年的一项评测中,它在零样本条件下(完全没看过带标签的数据)就把细胞分类准确率推到了与传统监督学习相当的水平。更妙的是,当你查看scBERT的注意力权重,会发现模型在对一个细胞进行分类时,最"关注"的基因恰好是该细胞类型的经典标志基因(marker gene)——模型不仅答对了题,还给出了"为什么"。

但完形填空也有软肋。它能"猜"——给你一个洞,填一个词——却不擅长"编"。如果你要求它回答"敲掉这个基因后,细胞的整个转录组会怎么变?",它就力不从心了。现实的生物学问题,往往不是完形填空。


如果细胞是一段旋律:GPT式的接龙

代表模型:scGPT

GPT式预训练走的是另一条路。它让模型按顺序逐个预测基因的表达值——像接龙游戏一样,每次只根据已经"唱出来"的旋律来续写下一个音符。

这听起来像是自缚手脚——为什么不让模型同时看到所有基因呢?但接龙的妙处恰恰在于逼迫模型学习基因表达的"序列逻辑":哪些基因倾向于共表达?哪些基因之间存在先后激活的调控顺序?

更重要的是,GPT式的自回归机制天然适合"生成"任务。2024年,scGPT展示了一个令人屏息的demo:输入"在CD4+ T细胞中敲除FOXP3",模型就能一步步生成整个转录组的变化图谱——哪些基因会上调,哪些会下调,幅度有多大。这种"如果我这么做,细胞会变成什么样"的推演能力,是BERT式模型难以企及的。

代价也很明显:GPT一次只能看到一个方向的信息流,缺少BERT那种"一目了然"的全局视野。就像一个只能从前向后读文章的人,他永远无法用下文的线索来修正对上文的理解。


如果细胞是一张面孔:对比学习和排序学习

代表模型:Geneformer

Theodoris团队的Geneformer,用一种堪称异端的策略震惊了领域:它不猜词,不接龙,只做一件事——给基因排序

具体做法是:取一个细胞,把约26000个基因按其表达水平从高到低排好,然后随机截取前2048个基因(约前8%"最重要的基因"),让模型学习这2048个基因之间的排序关系。

连作者自己最初都担心——"排序"这个目标是不是太简单了,模型会学到什么有意义的东西吗?结果令人震惊:在没有任何微调的情况下,Geneformer用这个朴素的排序目标训练后,竟然可以在跨组织、跨疾病的零样本任务上碾压同期所有模型——包括在心肌病中识别出此前未知的候选治疗靶点,后来被独立实验验证。

排序学习的深刻之处在于:它不要求模型精确还原基因表达值(数值太难,噪声太大),只要求它学会基因之间的相对重要性排序。而生物学反复告诉我们:在大多数场景中,一个基因是高表达还是低表达,和别的基因相比它排在什么位置,往往比它的绝对数值更能说明问题。

更广义的"对比学习"流派走得更远:它压根不关心任何具体数值,只训练模型识别"这两个截图来自同一个细胞"还是"两个不同的细胞"。这让模型学会了一种对噪声极度鲁棒的"细胞指纹"——无论测序深度如何波动、批次效应怎样干扰,同一个细胞类型的embedding始终抱成一团。


如果细胞是一个谜:JEPA——在想象中理解

代表模型:Cell-JEPA

2024年,Meta FAIR的联合嵌入预测架构(JEPA)被引入单细胞领域,带来了一个全新的"理解"范式。

JEPA不做完形填空(猜具体数值),不做接龙(按顺序生成),不做排序(比较高低),也不做对比(区分你我)。它做的事更抽象:给模型看一个细胞的部分基因表达(上下文),要求它在抽象的概念空间(潜空间)中预测剩余部分的"语义位置",而不是具体数值。

打个比方:老师不要求你默写出整首诗,而是让你说出"这首诗属于豪放派还是婉约派,表达了什么情感,在中国文学史上处于什么位置"。要求更"宽松",但学到的可能更本质。

Cell-JEPA在dropout鲁棒性(面对基因检测随机丢失时的稳定性)上碾压了同期MLM和GPT模型——而这恰恰是真实单细胞数据最大的痛点(scRNA-seq通常只能捕获每个细胞中10%-20%的转录本)。


华山论剑之后:到底该选哪把剑?

读到这儿,你一定在等一个标准答案。但科学的故事从来不是"X吊打Y"的爽文。

预训练目标 核心隐喻 最擅长的任务 主要短板
MLM(BERT式) 完形填空 细胞类型注释、基因调控推断 生成能力弱
自回归(GPT式) 旋律接龙 基因扰动预测、虚拟细胞生成 缺少全局视野
排序学习 成绩排名 跨组织跨物种零样本泛化 丢失了低表达基因信息
对比学习 人脸识别 去批次、鲁棒embedding 不生成任何具体数值
JEPA 意境理解 噪声鲁棒、本质特征提取 还在早期验证阶段

如果你的问题像"这个细胞是什么类型"——MLM可能是最优解。如果你需要"敲掉基因X的后果"——GPT式生成更自然。如果你跨组织、跨物种做零样本预测——排序学习值得优先考虑。如果数据充满技术噪声——JEPA思路最稳。

更令人兴奋的是,2025年的趋势不再是"选边站",而是"大融合"。多个团队开始在同一个模型中融合MLM和对比学习目标,希望同时获得双向理解力和鲁棒表征。还有团队将GPT式生成与JEPA式潜空间学习结合——让模型既能"想象"又能"创作"。这就像一个人同时学了完形填空、旋律接龙和人脸识别——每一门课都在大脑里开辟了一个互补的维度。


结语

不同的预训练目标,本质上是对"细胞本质"的不同想象:认为细胞像文章的人发明了完形填空,认为细胞像旋律的人选择了接龙,认为细胞像面孔的人走了对比学习,认为细胞像谜题的人走向了潜空间预测。

而细胞真正的本质,可能包含了所有这些隐喻的全部——甚至更多。

预训练目标的多样性不是分裂,而是一个学科在青春期必然经历的、从各个方向叩问真理的试错。每一次目标函数的改变,都是人类对"生命是什么"的一次重新想象。


一句话总结:单细胞大模型没有"最好的预训练目标",只有最适合你科学问题的预训练目标——因为每一次目标函数的选择,本质上都是对细胞本质的一次哲学表态。

Links