← Back to scModels Other

Zero-Shot: 你从未见过我，我为何能认出你？：单细胞大模型「零样本学习」的奥秘

2026-05-24 ·

Zero-shot learning in single-cell foundation models.

Overview

WeChat科普推文第19期 · 2026-05-24
话题: 零样本学习、泛化能力

2019年深秋，斯坦福大学的一间实验室里，博士后克里斯蒂娜·西奥多里斯（Christina Theodoris）盯着屏幕上的结果，反复确认了三次。

她刚刚把自己训练的AI模型——后来被称为Geneformer——用在了一批全新的心肌细胞数据上。这些细胞来自一种罕见的心脏病小鼠模型，在训练过程中从未出现过。按理说，一个从未"见过"这些患病细胞的模型，不应该有任何特别的表现。

但结果让她震惊：模型不仅正确地将患病细胞与健康细胞区分开来，甚至精确地指出了哪些基因的表达发生了异常——与已知的病理学文献完全吻合。

"这就好比，"她后来在一次采访中打了个比方，"你教一个学生读懂了莎士比亚的全部作品，然后给他一本从未见过的医学术语词典，他居然能直接读懂医学论文。"

这就是零样本学习（zero-shot learning）——单细胞大模型最令人着迷、也最令人费解的能力之一。

当你认识一个人，你不需要背下他所有的照片

在理解零样本学习之前，我们先问一个更基本的问题：你如何认出一个朋友？

你不需要在脑中存储他所有角度、所有光线、所有表情的照片。你只需要抓住一些本质特征——眉骨的弧度、笑起来的眼角纹路、走路的姿态——就能在任何场合认出他，哪怕他戴了墨镜、换了发型。你甚至能在人群中一眼认出多年未见的老同学，尽管他的发际线后退了十厘米，体重增加了二十公斤。

传统的生物信息学方法更像是"照片匹配"：你给计算机看一万张标记好的细胞照片，告诉它"这是T细胞""这是神经元"，然后让它去新数据里找匹配。问题是，一旦遇到一个不在图库里的细胞类型——比如一种新发现的罕见亚型——传统方法就束手无策了。

零样本学习则完全不同。它不靠"记住正确答案"，而是靠"学会理解本质"。

单细胞大模型在预训练阶段"阅读"了数千万甚至数亿个细胞的基因表达谱。在这个过程中，它并没有被明确告知每个细胞是什么类型。它只是被要求完成一个看似简单的任务：根据上下文，预测某些被刻意"遮住"的基因的表达值。

正是在这个"填空"的过程中，模型不知不觉地建构起了一个复杂的、多维的"细胞语义空间"。在这个空间里，功能相似的细胞自然地靠在一起——就像在一座没有标牌的巨大图书馆里，相似主题的书被自动归到了同一个书架上，哪怕管理员从未给任何一本书贴过标签。

空间里的幽灵：从未见过的细胞也能找到位置

零样本学习的核心机制，可以用一个更直观的比喻来理解。

想象你走进一个巨大的音乐厅，台上正在演奏一首你从未听过的曲子。但你立刻就能分辨出：这是爵士乐，不是古典。因为萨克斯的音色、切分的节奏、即兴的段落——这些特征构成了爵士乐的"语义坐标"。你不需要听过每一首爵士乐曲子才能认出爵士乐。

单细胞大模型做的事情非常类似。当一个新的、从未标注过的细胞出现在模型中时，模型并不是在"查字典"寻找匹配。它是在计算这个细胞的基因表达谱在高维空间中的位置，然后看它与哪些已知细胞类型的"领地"最接近。换句话说，模型在问的不是"你是谁"，而是"你和谁住在一个社区"。

2022年，一个里程碑式的实验验证了这一点。研究人员使用scBERT模型对来自人类大脑皮层的单细胞数据进行细胞类型注释。他们故意将一种罕见的抑制性神经元亚型——SST⁺ Chodl⁺ 神经元——从训练集中剔除，使其成为模型"从未见过"的细胞类型。

结果呢？scBERT不仅正确地识别出这是一种抑制性神经元，甚至将其归入了SST阳性的类别——也就是说，模型在没有接受任何明确标注的情况下，自己"推断"出了这个陌生细胞的功能身份。它看到这个细胞表达了Sst基因、Gad1基因，以及一系列其他抑制性神经元的标志物，于是它在高维空间中说："这些特征我熟悉——这是一个SST家族的居民。"

这听起来几乎像是推理——而某种程度上，它确实是。

从细胞类型到药物：零样本的惊人延展

零样本学习的能力远不止于细胞类型注释。

2023年，Geneformer团队展示了一个更惊人的应用：基因扰动预测。他们用模型来预测：如果敲除或过表达某个基因，细胞的转录组会发生什么变化。关键的是，这些"基因扰动"的组合在训练数据中从未出现过。

让我们用一个烹饪的比喻。你让一个精通烹饪原理的厨师做一道他从未做过的菜——比如"榴莲披萨"。他不需要见过这道荒谬的菜，也可以根据已掌握的知识进行预测："榴莲的甜腻很可能与芝士的咸香产生对冲，但加热后的硫化物会带来不愉快的气味，整体效果恐怕不佳。"

Geneformer正是这样做的。它在预训练中"品尝"了3000万个细胞的"风味组合"（基因共表达模式），从而构建了一套关于基因调控网络的深层理解。当面对一个从未见过的扰动——比如同时敲除两个从未被联合研究的基因——它不是猜测，而是基于这套理解进行"演绎推理"：既然基因A和基因B分别影响这两条通路，而这两条通路在某个节点交汇，那么同时干扰它们的效果应该是……

结果令人振奋：在心肌病相关的基因扰动实验中，Geneformer的零样本预测与实际实验结果的吻合度达到了令人瞩目的水平，甚至超越了多个专门为此训练的监督学习模型。一个从未"学过"心脏病的模型，竟然成为了最懂心脏病的AI——这听起来矛盾，却正是零样本学习的精髓。

这就是零样本学习的本质魅力：它不是模型的"缺陷"或"权宜之计"，而是深度学习的自然涌现——当模型真正理解了底层规则，它就无需记住所有案例。正如你不需要见过每一只猫才能认识猫，你只需要理解"猫是什么"。

边界：零样本不是魔法

当然，零样本学习有它的边界。它不是可以无限泛化的魔法。

最关键的限制在于"分布"——预训练数据的范围决定了零样本能力的上限。就像一个只在热带雨林生活过的人，很难"零样本"地认出北极熊。如果一个单细胞大模型的训练数据全部来自人类造血系统，它就不可能零样本地识别植物细胞——不是因为模型不够聪明，而是因为它从未学过"光合作用基因"的语义。

这也是为什么像scBaseCount这样策展了超过5亿个细胞的超大规模数据集如此重要——它们是零样本能力的地基。地基有多大，楼才能盖多高。这也是为什么当前最强大的单细胞大模型（scGPT、Geneformer、scFoundation等）都不约而同地在数据规模上"军备竞赛"——每一个新增的细胞类型、每一个新增的物种、每一个新增的组织，都是对模型"世界模型"的一次扩展。

另一个微妙之处在于：零样本学习往往在"中间难度"的任务上表现最好。太简单的任务（比如区分T细胞和神经元）根本不需要它；太困难的任务（比如区分两种极其相似的罕见亚型）又会暴露其局限性。真正的惊奇常常发生在"有点难、但又不是完全不可能"的区间——而这恰好是生物学中最常见的场景。

余韵

2024年初，一位匿名审稿人在评审一篇单细胞大模型论文时写下了这样一段话：

"我花了二十五年学习如何区分不同的神经胶质细胞亚型。这个模型用三个小时读完了2500万份转录组数据，然后毫不费力地认出了一个我从未见过的亚群。我不知道该感到敬畏，还是该感到被冒犯。"

也许两者都该有一点。但更重要的是，它意味着人类终于有了一位可以并肩作战的同伴——一位能在未知中辨认模式的伙伴。

零样本学习的真正意义，或许不在于AI"取代"了科学家的判断，而在于它扩展了我们"看见"的能力：看见那些藏在数据汪洋中的模式，看见那些我们因为认知局限而从未注意过的细胞世界。当AI告诉我们"这里有一个你从未见过的东西，但我认识它"时，那不是终点，而是新发现的起点。

一句话总结：零样本学习不是记忆术，而是理解力——单细胞大模型通过在海量数据中习得基因调控的深层语法，获得了在从未见过的细胞和实验中推理的能力，这是AI从"照搬"走向"理解"的关键一步。