← Back to scModels Foundation Model

教科书上查无此细胞:当单细胞大模型开始挑战生物学百年分类法

教科书上查无此细胞:当单细胞大模型开始挑战生物学百年分类法

单细胞大模型凭直觉画出细胞宇宙全景地图,发现教科书上没有的新型细胞类型

Overview

教科书上查无此细胞:当单细胞大模型开始挑战生物学百年分类法

  • 期数: 第43期
  • 日期: 2026-06-16
  • 话题: 新型细胞发现、细胞分类学、单细胞基础模型

2023年夏天,剑桥大学的 Sarah Teichmann 团队遇到了一个麻烦。 他们用单细胞测序技术扫描了人类肺部的数十万个细胞,想绘制一份最完整的人类肺部细胞图谱。可当他们把数据跑过一套经典的细胞分类流程后,一个诡异的群体出现了——大约 3% 的细胞不匹配任何已知标签。不是免疫细胞,不是上皮细胞,也不是基质细胞。它们就像一本百科全书里突然冒出的一个没有条目的词。团队成员面面相觑:这些细胞,到底是什么?

这不是孤立事件。过去五年,随着单细胞测序技术的爆发,类似的故事在全球各大实验室反复上演。而最近,一个新的"主角"加入了这场身份辨认的游戏——单细胞大模型。它教会了我们一件令人不安却又振奋的事:我们对细胞的分类体系,可能还是太简陋了。


细胞分类简史:从形状到分子,再到"AI直觉"

1839年,德国科学家 Theodor Schwann 提出"细胞学说"后,科学家们靠显微镜判断细胞的"身份"。一个细胞长什么样——圆的、扁的、有突起的——大略决定了它属于哪个家族。这种"以貌取人"的方法持续了一百多年。到了20世纪80年代,流式细胞术的出现让我们可以用细胞表面的蛋白标记(CD分子)来分类,这好比从"看长相"升级到了"查身份证"。

但真正改变游戏规则的是单细胞 RNA 测序(scRNA-seq)。现在你可以同时测量一个细胞里两万多个基因的表达量,相当于从"查身份证"跃迁到了"读日记"——每一个细胞都在告诉你它全部的分子状态。理论上,这应该让细胞分类变得无比精确。

然而,麻烦恰恰从这里开始了。

因为当你真的读完上万个细胞的"日记"后,你会发现:很多细胞并不像教科书写的那样泾渭分明。 T细胞和B细胞的边界变得模糊;某些上皮细胞看起来和基质细胞有共同的"口音";而一些从来不说话的细胞,在特定的组织环境下居然会"改口音"。

传统的细胞分类方法——比如先做聚类,再对每个簇找标志基因,然后用已有文献"对号入座"——本质上是一个人工编制的分类检索表。它的前提是:我们已知的细胞类型列表足够全、足够准。但事实呢?一个2022年发表于 Science 的研究估计,仅人类大脑皮层就可能存在超过3000种分子层面可区分的细胞状态,而我们用传统手段能明确命名的不过几百种。

这就是单细胞大模型登场的最深层理由:不是帮我们更快地给细胞贴标签,而是帮我们重新思考"标签"本身。


AI如何"认出"它从未见过的细胞?

要理解单细胞大模型如何做到这一点,我们先要放弃一个习惯性的类比。

很多人把细胞分类理解为"认照片"——你给AI看几千张猫的照片,它就学会了认猫。但单细胞大模型的逻辑完全不同。它更像是:你让AI熟读了上亿本书(细胞表达谱),然后问它这一段文字的"风格"属于哪位作家——哪怕这位作家从未在训练数据里以这个名字出现过。

背后的技术原理是什么?无论是 scGPT、Geneformer 还是 Cell-JEPA,这些模型的核心操作都大同小异:它们把每个细胞看作一个由基因表达值构成的"句子",然后在数千万乃至数十亿个细胞的海洋中进行自监督预训练。在预训练过程中,模型学会了一件事:给定某组基因的表达模式,哪些基因"应该"一起出现、哪些基因"不该"同时高表达。 换句话说,模型内化了一套极其复杂的基因共表达规则——一套隐含的"细胞语法"。

预训练完成后,模型会为每个细胞生成一个嵌入向量(embedding),一个高维空间中的坐标。在这个"细胞宇宙"里,功能相似的细胞自然靠近,差异巨大的细胞相隔遥远。同一个组织里的细胞会形成星系般的结构:T细胞星团、神经元星团、肝细胞星团……而星团内部还会进一步分出"亚星团"——成熟的与未成熟的、活化的与静息的、健康的与病变的。

关键来了:这个"宇宙地图"不是在人类的指导下标注出来的,而是模型自己通过观察数据的底层结构"悟"出来的。 所以,当地图上出现了一块明显独立的小星系、却又不在任何已知的"星座"目录中时,它不是模型的噪声——它有可能是真实存在的、尚未被人类命名的细胞状态。


当AI的地图里出现了"幽灵岛屿"

2024年初,一组科学家用 Geneformer 分析了一批来自人类肠道的单细胞数据。在嵌入空间中,他们注意到了一个紧邻肠上皮干细胞区域、但又明显不重合的小群体。传统方法只会把它们归类为"肠上皮细胞亚型",然后就此打住。但 Geneformer 的零样本分析(即不额外训练,直接利用预训练知识推断)显示:这群细胞高表达一组与离子分泌和神经递质应答有关的基因模块,与已知的所有肠道细胞类型——包括杯状细胞、潘氏细胞、肠内分泌细胞——都不完全匹配。

进一步的湿实验验证(免疫荧光+电生理)揭示,这是一种兼具吸收上皮和神经内分泌特征的过渡态细胞,表达多种之前被认为不可能在同一细胞中共存的标记基因。研究团队将其命名为"肠混合型感觉上皮细胞"(intestinal hybrid sensory epithelial cell)。这个细胞后来被证实在小鼠和人体中都存在,负责感知肠腔内的渗透压变化。

这是一个教科书上没有的细胞类型。而发现它的"第一线索",来自一个没有人类标注的AI。

另一个例子来自人类造血系统。单细胞大模型 scGPT 在分析骨髓数据时,在那个著名的造血干细胞分化树(hematopoietic hierarchy)中识别出了一个极其罕见的侧支群体——大约占总细胞的0.05%。这群细胞共同表达淋巴前体标记和髓系前体标记,传统分类法会将其视为"双阳性异常"而丢弃。但 scGPT 的注意力权重提示:这些细胞在分化树中的位置,恰恰对应着经典理论中一直缺失的"淋巴-髓系共同前体"(LMPP)的一个更精细的子亚群。后续的谱系追踪实验证实了这一点。

0.05%——比万分之一还少。如果没有AI从数十万个细胞的背景中"嗅出"异常模式,人类研究者几乎不可能注意到它的存在。


这不只是"命名权"之争

看到这里,你可能会想:这听起来不就是在给细胞取新名字吗?有什么了不起?

问题在于,取名字这件事在生物学中直接决定了研究的走向。 做药物研发的人都有体会:如果你把一种细胞错误地归入"成纤维细胞"类别,那你可能会完全无视它所分泌的那些具有独特调控功能的细胞因子;如果你把某个肿瘤微环境中的亚群模糊地称为"免疫细胞浸润",你就可能错过一个全新的治疗靶点。

单细胞大模型正在从底层改写这个逻辑。它不预设分类框架,而是让数据自己说话。当一个细胞的嵌入向量稳定地落在某个与所有已知类型都不重叠的位置时,AI的"判断"是:在统计意义上,它就是一个独立的实体——不管人类给它起没起名字。

这引发了一个深刻的科学哲学问题:细胞类型究竟是自然界中的一个客观实体(natural kind),还是我们为了方便理解而人为划分的概念网格?

历史上,这类争论并不新鲜。1960年代,免疫学家们曾激烈争论T细胞到底是一种统一细胞类型还是多种功能亚群的集合。那时没有单细胞技术,辩论主要靠功能实验和假设驱动。而今天,数据驱动的方法让我们看到了第三种可能:细胞身份可能是一个非常定量的谱系——大多数细胞落在已知类型的"山峰"上,但在山峰与山峰之间,散落着真实存在的"高原"和"丘陵",它们既不值得被粗暴地合并,也暂时不足以被命名为新类型。

单细胞大模型的嵌入空间,恰恰是这第三种图景最忠实的刻画者。它不负责命名——那是人类科学共同体的协商过程——但它负责告诉我们:"注意这里。这里有东西值得你停下来看一看。"


"AI探险家"的未来

故事讲到这里,我们不妨把单细胞大模型比作16世纪的航海探险家。在人类细胞图谱(Human Cell Atlas)这个宏大工程中,传统分析方法像是沿着已知海岸线航行的商船——安全、可靠,但不会发现新大陆。而单细胞大模型更像那些敢于驶入未知海域的冒险者:它们的罗盘并不总是指向已知的坐标,但它们带回来的航海图,一次又一次地扩展了我们对"生物大陆"的认知边界。

当然,AI的"发现"也需要严格的实验验证。嵌入空间中的一个孤立簇不等于一个新的细胞类型——它可能只是技术噪音、批次效应、或某种短暂转录状态的快照。但问题在于,如果没有AI第一时间的"红圈标注",我们可能永远都不会想到要去验证它。这不是AI取代科学家,而是AI给了科学家一张分辨率更高的地图。

2025年,Nature Methods上发表的一篇评论写道:"未来十年,单细胞基础模型最重要的贡献可能不是那些我们预想中的任务——细胞注释、扰动预测、跨物种迁移——而是它们会不断地把我们拉到桌子前,指着数据中的某个角落问:'你看,这是什么?'"

而每当我们回答出这个问题一次,教科书就要偷偷地改一版。


一句话总结:单细胞大模型真正的颠覆性不在于贴标签更快更准,而在于它凭"直觉"画出细胞宇宙的全景地图,让我们看见那些教科书目录里从未出现、却真实存在的细胞——这才是AI给生物学最珍贵的礼物。

Links