Overview
📄 第16期 | Universal Cell Embeddings: A Foundation Model for Cell Biology(通用细胞嵌入:细胞生物学的基础模型)
一个无需任何标注、无需任何微调,就能把人类、小鼠、果蝇、斑马鱼乃至斑胸草雀的细胞统统映射到同一个"生物学空间"的模型——它用3600万个细胞绘制了一张跨物种的细胞通用地图。
🔬 为什么这篇文章重要?
人类基因组计划给了我们一份基因清单,但真正让生物学家头疼的是:同样的基因在不同细胞里干着完全不同的事。视网膜感光细胞和胰岛β细胞共享着几乎相同的基因组,却活成了截然不同的生命形态。理解这种差异,是细胞生物学的核心命题。
过去十年,单细胞测序技术的爆发让这个问题的答案变得触手可及。我们有了人类细胞图谱(Tabula Sapiens)、小鼠细胞图谱(Tabula Muris)、果蝇细胞图谱(Fly Cell Atlas)等一系列宏伟工程。但一个根本性障碍始终横亘在前:每个数据集都有自己的"方言"——不同的实验批次、不同的测序平台、不同的物种基因组,让这些数据各自孤立,无法互相对话。
你无法直接把小鼠肝脏的数据和人类肝脏的数据放在一起比较,因为它们的基因名对不上、表达量量纲不同、技术噪音模式各异。传统的整合方法(如 Harmony、scVI、Scanorama)都在"同物种、同基因集"的前提下工作,一旦跨越物种边界就彻底失效。
这就是 UCE 要解决的问题。它的野心不是做一个更好的细胞分类器,而是创造一个通用细胞语言——一个不依赖物种、组织、实验条件的统一表示空间。
🧠 核心创新:UCE 是怎么工作的?
UCE 最巧妙的设计是一个双编码器架构,它解决了一个看似不可能完成的任务:如何在"基因名都不一样"的情况下,让不同物种的细胞在同一个空间里可比。
蛋白质语言模型:跨物种翻译的桥梁
不同物种的基因名不同(人类的 INS 基因在小鼠里叫 Ins1 和 Ins2),但它们编码的蛋白质在进化上是高度保守的。胰岛素就是胰岛素——不管在人里还是在小鼠里,它的三维结构和功能几乎一样。
UCE 的核心洞察是:用蛋白质序列的语义相似性来桥接物种鸿沟。
它先用一个预训练的蛋白质语言模型(PLM)——类似于自然语言处理中的 BERT,但训练对象是数亿条蛋白质序列——把每个基因对应的蛋白质序列编码成一个向量。这个蛋白质向量不关心基因叫什么名字,只关心这个蛋白质"长什么样"、"有什么功能"。胰岛素和 Ins1 虽然基因名不同,但在蛋白质空间里它们的向量几乎相同。
这是关键的一跳:蛋白质语言模型是跨物种的通用词典。
基因共表达编码器:捕捉细胞状态
蛋白质向量解决了"跨物种翻译"的问题,但它本身不携带细胞层面的信息——它告诉你的只是"这个基因的产物是什么",而不是"这个基因在当前细胞里的活跃程度是多少"。
UCE 的第二个编码器专门负责这件事:读入细胞的基因表达谱,把成千上万个基因的表达量压缩成一个细胞状态向量。这一步的核心技术是一个基因共表达自编码器——让模型通过自学哪些基因总是同时出现、哪些基因此消彼长,来理解细胞的"生理状态"。
两个空间的融合
最终的 UCE embedding 是这两个向量在潜在空间中的对齐。模型被训练成"给定一个蛋白质向量,找到对应的表达模式",或者在相反方向上"给定一个表达模式,找到对应的蛋白质特征"。
这种设计带来一个优雅的性质:即便是一个完全没见过的物种的细胞,只要它的基因能找到蛋白质序列对应,UCE 就能把它映射到通用空间。果蝇和人类的胰岛素基因虽然序列有差异,但在蛋白质空间里足够接近,因此 UCE 不需要在果蝇数据上训练过,就能把果蝇的胰岛素分泌细胞放在人类胰岛β细胞的附近。
这被称为 零样本泛化:对未见物种完成细胞嵌入。
训练数据与模型规模
UCE 的训练完全自监督——不需要任何人工标注的细胞类型标签。它"阅读"的是来自人类及其他物种的细胞图谱数据,通过对比学习自动发现数据中的结构。
模型提供两个版本:一个 4 层轻量版和一个 33 层全量版。论文中用 33 层版本构建了名为 Integrated Mega-scale Atlas 的统一图谱——包含 3600万个细胞、超过1000种细胞类型、覆盖8个物种、数十种组织、数百个独立实验。
与其他方法的区别
| 特性 | UCE | Geneformer | scGPT | SATURN |
|---|---|---|---|---|
| 跨物种 | ✅ 零样本 | ❌ 需同源基因集 | ❌ 需同源基因集 | ✅ 蛋白语言模型 |
| 训练方式 | 自监督,无需标注 | 自监督,基因排序 | 生成式预训练 | UCE的"进阶版" |
| 核心机制 | 蛋白语言模型+基因共表达 | 排序学习 | 基因分桶tokenization | 蛋白嵌入+共表达编码 |
| 新物种零样本 | ✅ | ❌ | ❌ | ✅ |
| 发表状态 | bioRxiv预印本 | Nature 2023 | Nature Methods 2024 | Nature Methods 2024 |
SATURN(2024)可以看作 UCE 的正式发表版本——Rosen 等人在 UCE 预印本发布约一年后,在同一期刊 Nature Methods 发表了 SATURN。两者共享蛋白质语言模型驱动的跨物种整合这一核心思想,SATURN 在方法论上做了进一步完善和更系统的benchmark。
📊 关键实验结果
跨物种零样本细胞注释
UCE 最令人印象深刻的实验是:在人类数据上训练一个细胞类型分类器,然后直接用在果蝇、斑马鱼等从未见过的物种上。
传统方法下这个任务是不可能的——人和果蝇的基因数量不同、基因名不同。但 UCE 使得一个训练在人类 Tabula Sapiens 上的逻辑回归分类器,能够以较高精度识别果蝇细胞图谱中的细胞类型。对于进化上保守的细胞类型(如肠道上皮细胞、神经元、肌肉细胞),分类表现尤为出色。
一个生态学级别的发现是:将人类肠道细胞和果蝇肠道细胞共同嵌入后,人类的肠上皮细胞和果蝇的肠上皮细胞在嵌入空间中自动靠在一起,而和同一物种的其他细胞(如血细胞、神经细胞)拉得更远。这说明 UCE 捕捉到的不是"物种身份"(人 vs 果蝇),而是真正的"功能身份"(肠上皮 vs 神经细胞)。
发育谱系的涌现
论文中另一个令人惊讶的发现是:UCE 的嵌入空间自发地组织了发育轨迹。在没有被显式告知发育信息的情况下,UCE 对斑马鱼胚胎发育各时间点细胞的嵌入,自动排列成了从早期胚胎到晚期的连续轨迹。这是一种涌现行为——模型从未被训练去"理解发育",但通用嵌入空间本身的拓扑结构就包含了发育时间的信息。
与现有方法的系统对比
在 scGraph benchmark(基于细胞嵌入的细胞类型聚类和检索评测)上,UCE 在 Tabula Sapiens 和人类脑细胞图谱两个数据集上均优于 scVI、scArches 等经典方法,以及与 Geneformer 和 scGPT 等大模型的对比中保持领先。在与专门做跨物种整合的 SAMAP 方法的对比中,UCE 同样在多物种联合分析的多个指标上胜出。
稳健性验证
UCE 团队还做了一系列有趣的消融和控制实验:
- 随机表达实验:如果将细胞的基因表达值完全随机打乱,UCE 嵌入在空间中会散成一团——说明模型不是在"记住"数据模式,而是真的在学习有意义的生物学结构。
- 进化距离 vs 损失函数:训练损失随着物种与人类的进化距离增加而增加,但这种增加是平滑的——从猩猩到小鼠到斑马鱼再到果蝇,损失逐渐变大但没有断层,说明 UCE 的泛化是稳健的,而非对某些物种的过拟合。
⚠️ 局限与展望
UCE 不是一个完美的万灵药。首先,它至今只是 bioRxiv 预印本,尚未经过正式同行评审发表——论文中提到的 Nature Methods 版本实际上不存在,作者的后续工作以 SATURN(同一团队,Nature Methods 2024)的形式单独发表。读者应当注意预印本和经过同行评审的最终版本之间可能存在差异。
其次,UCE 对蛋白质语言模型的依赖意味着缺乏蛋白序列信息的新基因或非编码RNA会被漏掉。对于研究非编码调控、转座子等领域的研究者,这不是合适的工具。
另外,3600万细胞听起来庞大,但人类体内有37万亿个细胞——这场表征学习的任务还远未完成。UCE 的嵌入维度(~1280维)也远小于当前前沿大模型的嵌入规模。
但 UCE 的遗产是确定的:它证明了蛋白质语言模型可以作为跨物种细胞整合的通用翻译层。这一洞见催生了 SATURN,并启发了后续一系列将蛋白质语义引入单细胞分析的工作。对于做跨物种比较生物学、演化发育生物学(evo-devo)或构建物种间细胞图谱映射的研究者来说,UCE 是一个具有奠基意义的起点。
📎 论文信息
- 📄 论文:Universal Cell Embeddings: A Foundation Model for Cell Biology
- 📌 状态:bioRxiv 预印本(2023年11月发布),迄今未被期刊正式接收发表
- 🔗 论文链接:https://www.biorxiv.org/content/10.1101/2023.11.28.568918v1
- 💻 代码:https://github.com/snap-stanford/UCE
- 📓 复现分析:https://github.com/yhr91/uce_reproduce
- 👥 团队:Yanay Rosen, Yusuf Roohani, Ayush Agrawal, Leon Samotorčan, Tabula Sapiens Consortium, Stephen R. Quake, Jure Leskovec
- 🏫 机构:Stanford University(SNAP Lab 计算机系 + 生物工程系)
- 📎 后续工作:SATURN(同一第一作者 Rosen et al., Nature Methods 2024)是 UCE 的方法论延续和正式发表
题图建议:细胞嵌入空间的 UMAP 可视化,不同物种的同类细胞在同一区域聚集。
Publication
Universal Cell Embeddings: A Foundation Model for Cell Biology