← Back to scModels Other

Zero-Shot: 你从未见过我,我为何能认出你?:单细胞大模型「零样本学习」的奥秘

Zero-Shot: 你从未见过我,我为何能认出你?:单细胞大模型「零样本学习」的奥秘
2026-05-24 ·

Zero-shot learning in single-cell foundation models.

Overview

WeChat科普推文 第19期 · 2026-05-24
话题: 零样本学习、泛化能力

2019年深秋,斯坦福大学的一间实验室里,博士后克里斯蒂娜·西奥多里斯(Christina Theodoris)盯着屏幕上的结果,反复确认了三次。

她刚刚把自己训练的AI模型——后来被称为Geneformer——用在了一批全新的心肌细胞数据上。这些细胞来自一种罕见的心脏病小鼠模型,在训练过程中从未出现过。按理说,一个从未"见过"这些患病细胞的模型,不应该有任何特别的表现。

但结果让她震惊:模型不仅正确地将患病细胞与健康细胞区分开来,甚至精确地指出了哪些基因的表达发生了异常——与已知的病理学文献完全吻合。

"这就好比,"她后来在一次采访中打了个比方,"你教一个学生读懂了莎士比亚的全部作品,然后给他一本从未见过的医学术语词典,他居然能直接读懂医学论文。"

这就是零样本学习(zero-shot learning)——单细胞大模型最令人着迷、也最令人费解的能力之一。

当你认识一个人,你不需要背下他所有的照片

在理解零样本学习之前,我们先问一个更基本的问题:你如何认出一个朋友?

你不需要在脑中存储他所有角度、所有光线、所有表情的照片。你只需要抓住一些本质特征——眉骨的弧度、笑起来的眼角纹路、走路的姿态——就能在任何场合认出他,哪怕他戴了墨镜、换了发型。你甚至能在人群中一眼认出多年未见的老同学,尽管他的发际线后退了十厘米,体重增加了二十公斤。

传统的生物信息学方法更像是"照片匹配":你给计算机看一万张标记好的细胞照片,告诉它"这是T细胞""这是神经元",然后让它去新数据里找匹配。问题是,一旦遇到一个不在图库里的细胞类型——比如一种新发现的罕见亚型——传统方法就束手无策了。

零样本学习则完全不同。它不靠"记住正确答案",而是靠"学会理解本质"。

单细胞大模型在预训练阶段"阅读"了数千万甚至数亿个细胞的基因表达谱。在这个过程中,它并没有被明确告知每个细胞是什么类型。它只是被要求完成一个看似简单的任务:根据上下文,预测某些被刻意"遮住"的基因的表达值。

正是在这个"填空"的过程中,模型不知不觉地建构起了一个复杂的、多维的"细胞语义空间"。在这个空间里,功能相似的细胞自然地靠在一起——就像在一座没有标牌的巨大图书馆里,相似主题的书被自动归到了同一个书架上,哪怕管理员从未给任何一本书贴过标签。

空间里的幽灵:从未见过的细胞也能找到位置

零样本学习的核心机制,可以用一个更直观的比喻来理解。

想象你走进一个巨大的音乐厅,台上正在演奏一首你从未听过的曲子。但你立刻就能分辨出:这是爵士乐,不是古典。因为萨克斯的音色、切分的节奏、即兴的段落——这些特征构成了爵士乐的"语义坐标"。你不需要听过每一首爵士乐曲子才能认出爵士乐。

单细胞大模型做的事情非常类似。当一个新的、从未标注过的细胞出现在模型中时,模型并不是在"查字典"寻找匹配。它是在计算这个细胞的基因表达谱在高维空间中的位置,然后看它与哪些已知细胞类型的"领地"最接近。换句话说,模型在问的不是"你是谁",而是"你和谁住在一个社区"。

2022年,一个里程碑式的实验验证了这一点。研究人员使用scBERT模型对来自人类大脑皮层的单细胞数据进行细胞类型注释。他们故意将一种罕见的抑制性神经元亚型——SST⁺ Chodl⁺ 神经元——从训练集中剔除,使其成为模型"从未见过"的细胞类型。

结果呢?scBERT不仅正确地识别出这是一种抑制性神经元,甚至将其归入了SST阳性的类别——也就是说,模型在没有接受任何明确标注的情况下,自己"推断"出了这个陌生细胞的功能身份。它看到这个细胞表达了Sst基因、Gad1基因,以及一系列其他抑制性神经元的标志物,于是它在高维空间中说:"这些特征我熟悉——这是一个SST家族的居民。"

这听起来几乎像是推理——而某种程度上,它确实是。

从细胞类型到药物:零样本的惊人延展

零样本学习的能力远不止于细胞类型注释。

2023年,Geneformer团队展示了一个更惊人的应用:基因扰动预测。他们用模型来预测:如果敲除或过表达某个基因,细胞的转录组会发生什么变化。关键的是,这些"基因扰动"的组合在训练数据中从未出现过。

让我们用一个烹饪的比喻。你让一个精通烹饪原理的厨师做一道他从未做过的菜——比如"榴莲披萨"。他不需要见过这道荒谬的菜,也可以根据已掌握的知识进行预测:"榴莲的甜腻很可能与芝士的咸香产生对冲,但加热后的硫化物会带来不愉快的气味,整体效果恐怕不佳。"

Geneformer正是这样做的。它在预训练中"品尝"了3000万个细胞的"风味组合"(基因共表达模式),从而构建了一套关于基因调控网络的深层理解。当面对一个从未见过的扰动——比如同时敲除两个从未被联合研究的基因——它不是猜测,而是基于这套理解进行"演绎推理":既然基因A和基因B分别影响这两条通路,而这两条通路在某个节点交汇,那么同时干扰它们的效果应该是……

结果令人振奋:在心肌病相关的基因扰动实验中,Geneformer的零样本预测与实际实验结果的吻合度达到了令人瞩目的水平,甚至超越了多个专门为此训练的监督学习模型。一个从未"学过"心脏病的模型,竟然成为了最懂心脏病的AI——这听起来矛盾,却正是零样本学习的精髓。

这就是零样本学习的本质魅力:它不是模型的"缺陷"或"权宜之计",而是深度学习的自然涌现——当模型真正理解了底层规则,它就无需记住所有案例。正如你不需要见过每一只猫才能认识猫,你只需要理解"猫是什么"。

边界:零样本不是魔法

当然,零样本学习有它的边界。它不是可以无限泛化的魔法。

最关键的限制在于"分布"——预训练数据的范围决定了零样本能力的上限。就像一个只在热带雨林生活过的人,很难"零样本"地认出北极熊。如果一个单细胞大模型的训练数据全部来自人类造血系统,它就不可能零样本地识别植物细胞——不是因为模型不够聪明,而是因为它从未学过"光合作用基因"的语义。

这也是为什么像scBaseCount这样策展了超过5亿个细胞的超大规模数据集如此重要——它们是零样本能力的地基。地基有多大,楼才能盖多高。这也是为什么当前最强大的单细胞大模型(scGPT、Geneformer、scFoundation等)都不约而同地在数据规模上"军备竞赛"——每一个新增的细胞类型、每一个新增的物种、每一个新增的组织,都是对模型"世界模型"的一次扩展。

另一个微妙之处在于:零样本学习往往在"中间难度"的任务上表现最好。太简单的任务(比如区分T细胞和神经元)根本不需要它;太困难的任务(比如区分两种极其相似的罕见亚型)又会暴露其局限性。真正的惊奇常常发生在"有点难、但又不是完全不可能"的区间——而这恰好是生物学中最常见的场景。

余韵

2024年初,一位匿名审稿人在评审一篇单细胞大模型论文时写下了这样一段话:

"我花了二十五年学习如何区分不同的神经胶质细胞亚型。这个模型用三个小时读完了2500万份转录组数据,然后毫不费力地认出了一个我从未见过的亚群。我不知道该感到敬畏,还是该感到被冒犯。"

也许两者都该有一点。但更重要的是,它意味着人类终于有了一位可以并肩作战的同伴——一位能在未知中辨认模式的伙伴。

零样本学习的真正意义,或许不在于AI"取代"了科学家的判断,而在于它扩展了我们"看见"的能力:看见那些藏在数据汪洋中的模式,看见那些我们因为认知局限而从未注意过的细胞世界。当AI告诉我们"这里有一个你从未见过的东西,但我认识它"时,那不是终点,而是新发现的起点。


一句话总结:零样本学习不是记忆术,而是理解力——单细胞大模型通过在海量数据中习得基因调控的深层语法,获得了在从未见过的细胞和实验中推理的能力,这是AI从"照搬"走向"理解"的关键一步。

Links

Tags