SATURN (Species Alignment Through Unification of Rna and proteiNs)
Overview
📄 第18期 | Toward Universal Cell Embeddings: Integrating Single-cell RNA-seq Datasets Across Species with SATURN(走向通用细胞嵌入:SATURN实现跨物种单细胞数据整合)
蛋白质语言模型与单细胞转录组的首次深度联姻——SATURN 用"宏基因"(macrogene)概念绕开了一对一同源基因的限制,以 119% 的巨大性能优势将跨物种单细胞整合推向了新高度。
🔬 为什么这篇文章重要?
如果你同时拿到了人、小鼠、斑马鱼和青蛙的单细胞数据,想把它们放在同一个坐标系里进行比较——这不是换个坐标就能解决的数学问题。每一种脊椎动物的基因组里都有上万个基因,但进化史上无数次基因复制、丢失和重组,使得能在两个物种之间找到严格"一对一"同源的基因只占一小部分。假设你要同时比较五种物种,每个基因都必须在所有五个物种中都有同源物才能被纳入分析——这个条件卡下来,丢掉的是大片大片生物学上有意义的基因。
这正是过去十年单细胞跨物种整合面临的核心困境。Harmony、scVI、Scanorama 这些优秀的批次校正方法,面对亲缘关系遥远的物种(比如蛙和斑马鱼)时基本束手无策——它们把基因看作表达矩阵里的一列数字,完全不知道这列数字背后的生物学含义是什么。SAMap 引入了蛋白质序列相似性作为基因间的加权关系,但 BLASTP 的比对阈值是人为设定的,而且只能捕获序列层面的同源——对那些序列差异大但功能相似的远程同源物无能为力。
2023 年到 2024 年,蛋白质语言模型(如 Meta 的 ESM2,在数亿条蛋白质序列上训练的超大 Transformer)的爆发给了这个领域一个全新的可能性:如果能用蛋白质语言模型为每个基因生成一个富含结构、功能和进化信息的嵌入向量,那么不同物种的基因就可以依据它们在蛋白嵌入空间中的距离来建立关系,而不是依赖僵硬的序列比对。这篇来自斯坦福 Jure Leskovec 实验室的工作,正是第一个漂亮地完成这件事的研究。
🧠 核心创新:SATURN 是怎么工作的?
关键洞见:宏基因(Macrogene)
SATURN 这个名字本身就是一个精妙的首字母缩写——Species Alignment Through Unification of RNA and proteiNs。它的中心思想可以概括为一句话:不要试图在基因层面做跨物种对齐,去蛋白质嵌入空间找功能相似性。
具体而言,SATURN 创造了一个叫"宏基因"(macrogene)的概念。宏基因不是一个真实的基因,而是一组蛋白质嵌入向量相似度很高的基因的集合。比如,参与 Rho GTPase 信号转导的 Arhgdig、Arhgdib、Arhgdia 这些基因,虽然它们的 DNA 序列可能差异不小,但因为编码的蛋白质在嵌入空间中非常接近,就会被 SATURN 分到同一个宏基因里——不管它们来自蛙还是斑马鱼。
这一步等于把跨物种比较的单位从"基因"上移到了"功能模块"上。不同物种拥有各自不同的基因清单,但它们完全可以共享相同的宏基因。
三步走的训练框架
SATURN 的训练分为三个模块,每一环都经过精心设计:
① 宏基因初始化(K-means 聚类)
SATURN 首先用大型蛋白质语言模型(默认 ESM2,15B 参数版本)为每个物种的所有基因生成蛋白质嵌入向量。这些向量是对应基因编码的蛋白质在结构、功能和进化关系上的密集表征。然后,用一个简单的 K-means 聚类把这些蛋白质嵌入分成 K 个簇——每个簇就对应一个宏基因。每个基因与每个宏基因之间的连接权重,反映了该基因编码的蛋白质与这个宏基因所代表的蛋白质功能集合的相似程度。
② 条件自编码器预训练(ZINB 损失 + 蛋白嵌入重建正则化)
预训练阶段沿用了单细胞领域经典的条件自编码器架构——具体来说就是 scVI 的零膨胀负二项(ZINB)损失函数。但 SATURN 加上了一个关键的 twist:在标准的表达重建损失之外,引入了一项正则化项,要求基因到宏基因的权重矩阵能够重建蛋白质嵌入的相似性结构。换句话说,如果两个基因编码的蛋白质在嵌入空间中本来就是邻居,SATURN 会鼓励它们在宏基因空间中保持靠近。
这个设计非常优雅:神经网络在学习"压缩-重建"基因表达的同时,蛋白质嵌入作为先验知识持续地引导着宏基因空间的组织方式——不是简单的拼接,而是一种深度耦合。
③ 弱监督度量学习精调
有了预训练的网络作为初始化,SATURN 进入了关键的跨物种对齐阶段。这一阶段的目标是:让不同物种中相同(或相似)的细胞类型在嵌入空间中彼此靠近,同时让同一物种内不同类型的细胞保持区分度。
SATURN 采用了一种巧妙的弱监督度量学习策略:它只需要每个物种内部的细胞类型标注(这些标注不要求跨物种一致——你可以给人叫"T cell"、给鼠叫"T lymphocyte"、给蛙叫"T lineage",SATURN 不关心标签名字是否统一),而不需要任何跨物种的配对信息。目标函数包含两个部分:(i)利用物种内标签将不同细胞推远;(ii)以无监督方式将跨物种相似细胞拉近。这个设计让 SATURN 既能对齐跨物种保守的细胞类型,又能保留物种特有的细胞类型。
与已有方法的本质区别
| 维度 | SATURN | SAMap(上一代最佳) | Harmony/scVI/Scanorama |
|---|---|---|---|
| 基因表征 | 蛋白质语言模型嵌入 | BLASTP 序列相似性 | 仅视为表达矩阵的列 |
| 跨物种对齐单位 | 宏基因(功能模块) | 一对一序列同源 | 仅限一对一正同源基因 |
| 远程同源捕获 | ✅ 强 | ❌ 弱 | ❌ 不支持 |
| 跨远缘物种整合 | ✅ 蛙-斑马鱼 | ⚠️ 勉强 | ❌ 失败 |
| 多物种差异表达 | ✅ 宏基因级别 | ❌ 仅限同源基因 | ❌ 不支持 |
| 蛋白质嵌入复用 | ✅ 任意蛋白语言模型 | ❌ | ❌ |
📊 关键实验结果
跨物种标签迁移:85.8% 准确率,119% 的性能碾压
SATURN 最硬核的 benchmark 来自青蛙和斑马鱼胚胎发育数据集的跨物种标签迁移任务。实验设计很直接:先用 SATURN 把两个物种的细胞整合到同一个嵌入空间,然后在斑马鱼细胞上训练一个逻辑回归分类器,去预测青蛙细胞的细胞类型——注意,斑马鱼和青蛙的上一次共同祖先生活在约 4 亿年前,这是真正意义上的远缘物种。
SATURN 达到了 85.8% 的 median accuracy(理论最大值为 93%,因为部分蛙特有细胞类型无论如何无法被斑马鱼分类器预测到)。相比之下,此前表现最好的 SAMap 仅有 39.2%——SATURN 提升了 119%。而 Harmony、scVI、Scanorama 等传统方法在这个任务上基本是随机的水平:它们在使用一对一正同源基因作为输入的情况下,完全无法整合这两个远缘物种。
转到从蛙到斑马鱼的标签迁移方向,SATURN 同样大幅领先。并且这一优势在 F1-score、precision、recall 以及多种批次整合评估指标下一贯成立。
宏基因差异表达:发现传统方法"看不见"的基因模块
这是 SATURN 最具独创性的功能。传统跨物种分析中,差异表达只能在两个物种共有的一对一同源基因上进行——大量只在单个物种中存在的基因被直接丢弃。SATURN 通过在宏基因层面做差异表达,彻底绕开了这个限制。
在蛙和斑马鱼的离子细胞(ionocyte)分析中,SATURN 识别出的 top 5 差异宏基因全部对应于已知的离子细胞功能。其中最惊艳的发现是 Cldn 宏基因(包含多种 claudin 蛋白)。这些 claudin 基因在硬骨鱼类的鳃离子细胞中是明确的标记物——但它们不在蛙和斑马鱼的一对一同源基因集合里。换句话说,如果你用传统方法做差异表达,你永远不会知道 claudin 在离子细胞中高表达。但 SATURN 通过蛋白质嵌入发现了它们的功能相似性,自动把它们归入同一个宏基因,并在差异表达中准确标出。
SATURN 还能揭示同一细胞类型在不同物种间的分子差异。在比较蛙和斑马鱼的离子细胞时,35% 的宏基因仅由单一物种的基因贡献——这提供了丰富的跨物种功能分化线索。
哺乳动物细胞图谱:整合 335,000 个细胞,顺便纠错
SATURN 将人类(Tabula Sapiens)、鼠狐猴(Tabula Microcebus)和小鼠(Tabula Muris)三个物种的细胞图谱数据整合为一个哺乳动物细胞图谱,覆盖九种共同组织共 335,000 个细胞。在这个多物种空间中,T 细胞、B 细胞、肌肉细胞等保守类型实现了干净的对齐,而物种特有的细胞类型(如人类脾脏中的红细胞)则自然地形成单独聚类。
更令人印象深刻的是 SATURN 的纠错能力。在肌肉组织中,有一小簇标注为"小鼠巨噬细胞"的细胞在 SATURN 空间中靠近了人类和狐猴的粒细胞簇。检查经典标记基因后发现:这些细胞表达粒细胞标记 Cd55,不表达巨噬细胞标记 Cd74——SATURN 发现了一个原始标注的错误。同样在脾脏中,SATURN 揭示出小鼠和狐猴的 B 细胞更接近人类记忆 B 细胞(而非 naive B 细胞),并由 Cd19 的差异表达得到独立验证。
五种物种的 AH 图谱:青光眼基因的跨物种悬念
在涉及人、食蟹猕猴、恒河猴、小鼠和猪五种物种的眼房水流出(AH)图谱整合中,SATURN 展示了其处理多物种大数据的能力(50,000 个细胞)。更有意思的是,在对青光眼相关基因的分析中,SATURN 发现了一个耐人寻味的模式:四个非人物种的 Myoc 基因链接到了同一个宏基因,但人类的 MYOC 基因被分配到了另一个宏基因——与同样跟青光眼相关但非同源的 A2M 基因分在一起。蛋白质嵌入的可视化分析确认,人类 MYOC 的蛋白嵌入确实与其他四个物种的 Myoc 明显分离。换言之,SATURN 不只是在做数据整合——它正在为比较进化生物学提供一个全新的分子分析视角。
⚠️ 局限与展望
SATURN 需要每个物种有高质量的参考蛋白质组——对于那些尚未完成基因组测序的物种,这条路暂时走不通。即使有参考蛋白组,SATURN 当前把基因的多个蛋白质同工型做平均池化处理,忽略了 RNA 可变剪接对最终翻译产物可能产生的重要影响。另外,SATURN 依赖每个物种内部预先存在的细胞聚类——这既是算法设计的一部分,也是一定程度上的监督依赖。对于极稀有的细胞类型(例如仅 33 个细胞的蛙种系细胞),SATURN 也面临整合困难。
但这些局限并不减损 SATURN 的方法论价值。更值得关注的是它打开的未来方向:蛋白质嵌入完全可以替代索引式表示去改进 CITE-seq 等多组学方法;对 MERFISH 等只检测有限基因集的空间转录组数据,SATURN 不需要把所有数据集砍到共同基因——这是一个重大优势;而且蛋白质嵌入理论上还可以耦合基因型信息做个性化修正。随着单细胞技术被应用到越来越多种类丰富的物种身上,SATURN 将成为一个理解细胞类型保守与分化的关键工具。
📎 论文信息
- 📄 论文:Toward universal cell embeddings: integrating single-cell RNA-seq datasets across species with SATURN | Nature Methods, Vol. 21, pp. 1492–1500 (2024)
- 🔗 链接:https://doi.org/10.1038/s41592-024-02191-z
- 💻 代码:https://github.com/snap-stanford/SATURN
- 👥 团队:Yanay Rosen, Maria Brbić, Yusuf Roohani*, Kyle Swanson, Ziang Li, Jure Leskovec | Stanford University, EPFL, Tsinghua University
- ⭐ GitHub Stars:165