← Back to scModels Foundation Model

同一个细胞，五种读法：单细胞大模型背后的预训练哲学之争

2026-06-13 ·

WeChat科普推文第40期 · 2026-06-13

Overview

WeChat科普推文第40期 · 2026-06-13
话题: 预训练, 范式对比, 单细胞大模型

2023年春天，三封来自不同实验室的邮件几乎同时抵达了各大期刊的编辑邮箱。崔哲博士（多伦多大学）递交了scGPT——一个用"猜下一个词"策略训练的单细胞大模型；杨帆博士（卡内基梅隆）提交了scBERT——用"完形填空"来教AI读细胞；Christina Theodoris（哈佛& Broad研究所）则呈上了Geneformer——一个既不猜词也不填空，而是用"排序"来学习的古怪模型。

三位科学家手握同一套"教材"——数千万个细胞的基因表达数据，却选择了截然不同的"教学法"。如果你是一名生物信息学研究生，面对这三件"兵器"不知该拣哪一把，那你并不孤单——即便在顶会审稿人的圆桌上，这也是一个能吵到凌晨两点的问题。

这个问题的核心只有一个词：预训练目标（pretraining objective）。

上通识课的艺术：为什么"怎么学"比"学什么"更重要？

在开始对比之前，我们先对齐一个前提：什么是预训练。

想象你要培养一个医生。传统做法是：每换一个专科，从头学一遍解剖、生理、药理。聪明得多的做法是：先接受四年的通识医学教育，打造一个"通用医学大脑"，然后再花一年专攻某个方向——心内科或神经科。

单细胞大模型的预训练就是这个"四年通识教育"。在上千万个细胞的基因表达数据上，不设具体任务，只要求模型从数据本身学到某种通用的"细胞知识"。之后，再用少量标注数据微调——相当于一年的专科训练。

问题在于：这四年的通识课，教材该怎么编？答案是——取决于你认为"细胞"最像什么。

如果细胞是一篇文章：BERT式的完形填空

代表模型：scBERT、scFoundation

BERT式预训练——正式名称"掩码语言建模"（Masked Language Modeling, MLM）——的做法像一个中学语文老师：把一篇文章随机涂掉15%的词，让学生根据上下文猜出来被涂掉的是什么。

在单细胞语境中，"文章"是一个细胞的全基因组表达谱，"词"是单个基因。模型被训练成：看到某个细胞其余20000多个基因的表达值后，推断被遮住的那几百个基因大致是什么水平。

这种方法最大的好处是双向理解——模型猜一个基因时，能同时"看到"它前后左右的全部语境信息，就像你能根据整段话的氛围来猜一个被马克笔涂黑的词。

scBERT正是借此在细胞类型注释上一鸣惊人。2023年的一项评测中，它在零样本条件下（完全没看过带标签的数据）就把细胞分类准确率推到了与传统监督学习相当的水平。更妙的是，当你查看scBERT的注意力权重，会发现模型在对一个细胞进行分类时，最"关注"的基因恰好是该细胞类型的经典标志基因（marker gene）——模型不仅答对了题，还给出了"为什么"。

但完形填空也有软肋。它能"猜"——给你一个洞，填一个词——却不擅长"编"。如果你要求它回答"敲掉这个基因后，细胞的整个转录组会怎么变？"，它就力不从心了。现实的生物学问题，往往不是完形填空。

如果细胞是一段旋律：GPT式的接龙

代表模型：scGPT

GPT式预训练走的是另一条路。它让模型按顺序逐个预测基因的表达值——像接龙游戏一样，每次只根据已经"唱出来"的旋律来续写下一个音符。

这听起来像是自缚手脚——为什么不让模型同时看到所有基因呢？但接龙的妙处恰恰在于逼迫模型学习基因表达的"序列逻辑"：哪些基因倾向于共表达？哪些基因之间存在先后激活的调控顺序？

更重要的是，GPT式的自回归机制天然适合"生成"任务。2024年，scGPT展示了一个令人屏息的demo：输入"在CD4+ T细胞中敲除FOXP3"，模型就能一步步生成整个转录组的变化图谱——哪些基因会上调，哪些会下调，幅度有多大。这种"如果我这么做，细胞会变成什么样"的推演能力，是BERT式模型难以企及的。

代价也很明显：GPT一次只能看到一个方向的信息流，缺少BERT那种"一目了然"的全局视野。就像一个只能从前向后读文章的人，他永远无法用下文的线索来修正对上文的理解。

如果细胞是一张面孔：对比学习和排序学习

代表模型：Geneformer

Theodoris团队的Geneformer，用一种堪称异端的策略震惊了领域：它不猜词，不接龙，只做一件事——给基因排序。

具体做法是：取一个细胞，把约26000个基因按其表达水平从高到低排好，然后随机截取前2048个基因（约前8%"最重要的基因"），让模型学习这2048个基因之间的排序关系。

连作者自己最初都担心——"排序"这个目标是不是太简单了，模型会学到什么有意义的东西吗？结果令人震惊：在没有任何微调的情况下，Geneformer用这个朴素的排序目标训练后，竟然可以在跨组织、跨疾病的零样本任务上碾压同期所有模型——包括在心肌病中识别出此前未知的候选治疗靶点，后来被独立实验验证。

排序学习的深刻之处在于：它不要求模型精确还原基因表达值（数值太难，噪声太大），只要求它学会基因之间的相对重要性排序。而生物学反复告诉我们：在大多数场景中，一个基因是高表达还是低表达，和别的基因相比它排在什么位置，往往比它的绝对数值更能说明问题。

更广义的"对比学习"流派走得更远：它压根不关心任何具体数值，只训练模型识别"这两个截图来自同一个细胞"还是"两个不同的细胞"。这让模型学会了一种对噪声极度鲁棒的"细胞指纹"——无论测序深度如何波动、批次效应怎样干扰，同一个细胞类型的embedding始终抱成一团。

如果细胞是一个谜：JEPA——在想象中理解

代表模型：Cell-JEPA

2024年，Meta FAIR的联合嵌入预测架构（JEPA）被引入单细胞领域，带来了一个全新的"理解"范式。

JEPA不做完形填空（猜具体数值），不做接龙（按顺序生成），不做排序（比较高低），也不做对比（区分你我）。它做的事更抽象：给模型看一个细胞的部分基因表达（上下文），要求它在抽象的概念空间（潜空间）中预测剩余部分的"语义位置"，而不是具体数值。

打个比方：老师不要求你默写出整首诗，而是让你说出"这首诗属于豪放派还是婉约派，表达了什么情感，在中国文学史上处于什么位置"。要求更"宽松"，但学到的可能更本质。

Cell-JEPA在dropout鲁棒性（面对基因检测随机丢失时的稳定性）上碾压了同期MLM和GPT模型——而这恰恰是真实单细胞数据最大的痛点（scRNA-seq通常只能捕获每个细胞中10%-20%的转录本）。

华山论剑之后：到底该选哪把剑？

读到这儿，你一定在等一个标准答案。但科学的故事从来不是"X吊打Y"的爽文。

预训练目标	核心隐喻	最擅长的任务	主要短板
MLM（BERT式）	完形填空	细胞类型注释、基因调控推断	生成能力弱
自回归（GPT式）	旋律接龙	基因扰动预测、虚拟细胞生成	缺少全局视野
排序学习	成绩排名	跨组织跨物种零样本泛化	丢失了低表达基因信息
对比学习	人脸识别	去批次、鲁棒embedding	不生成任何具体数值
JEPA	意境理解	噪声鲁棒、本质特征提取	还在早期验证阶段

如果你的问题像"这个细胞是什么类型"——MLM可能是最优解。如果你需要"敲掉基因X的后果"——GPT式生成更自然。如果你跨组织、跨物种做零样本预测——排序学习值得优先考虑。如果数据充满技术噪声——JEPA思路最稳。

更令人兴奋的是，2025年的趋势不再是"选边站"，而是"大融合"。多个团队开始在同一个模型中融合MLM和对比学习目标，希望同时获得双向理解力和鲁棒表征。还有团队将GPT式生成与JEPA式潜空间学习结合——让模型既能"想象"又能"创作"。这就像一个人同时学了完形填空、旋律接龙和人脸识别——每一门课都在大脑里开辟了一个互补的维度。

结语

不同的预训练目标，本质上是对"细胞本质"的不同想象：认为细胞像文章的人发明了完形填空，认为细胞像旋律的人选择了接龙，认为细胞像面孔的人走了对比学习，认为细胞像谜题的人走向了潜空间预测。

而细胞真正的本质，可能包含了所有这些隐喻的全部——甚至更多。

预训练目标的多样性不是分裂，而是一个学科在青春期必然经历的、从各个方向叩问真理的试错。每一次目标函数的改变，都是人类对"生命是什么"的一次重新想象。

一句话总结：单细胞大模型没有"最好的预训练目标"，只有最适合你科学问题的预训练目标——因为每一次目标函数的选择，本质上都是对细胞本质的一次哲学表态。