← Back to scModels Other

打开细胞AI的"黑箱":当单细胞大模型学会"解释"自己

打开细胞AI的"黑箱":当单细胞大模型学会"解释"自己
2026-05-23 ·

可解释性、注意力机制、生物学验证

Overview

WeChat科普推文 第18期 · 2026-05-23
话题: 可解释性、注意力机制、生物学验证

---|--------|---------------------|------------------------|
| 基因表征 | 蛋白质语言模型嵌入 | BLASTP 序列相似性 | 仅视为表达矩阵的列 |
| 跨物种对齐单位 | 宏基因(功能模块) | 一对一序列同源 | 仅限一对一正同源基因 |
| 远程同源捕获 | ✅ 强 | ❌ 弱 | ❌ 不支持 |
| 跨远缘物种整合 | ✅ 蛙-斑马鱼 | ⚠️ 勉强 | ❌ 失败 |
| 多物种差异表达 | ✅ 宏基因级别 | ❌ 仅限同源基因 | ❌ 不支持 |
| 蛋白质嵌入复用 | ✅ 任意蛋白语言模型 | ❌ | ❌ |

📊 关键实验结果

跨物种标签迁移:85.8% 准确率,119% 的性能碾压

SATURN 最硬核的 benchmark 来自青蛙和斑马鱼胚胎发育数据集的跨物种标签迁移任务。实验设计很直接:先用 SATURN 把两个物种的细胞整合到同一个嵌入空间,然后在斑马鱼细胞上训练一个逻辑回归分类器,去预测青蛙细胞的细胞类型——注意,斑马鱼和青蛙的上一次共同祖先生活在约 4 亿年前,这是真正意义上的远缘物种。

SATURN 达到了 85.8% 的 median accuracy(理论最大值为 93%,因为部分蛙特有细胞类型无论如何无法被斑马鱼分类器预测到)。相比之下,此前表现最好的 SAMap 仅有 39.2%——SATURN 提升了 119%。而 Harmony、scVI、Scanorama 等传统方法在这个任务上基本是随机的水平:它们在使用一对一正同源基因作为输入的情况下,完全无法整合这两个远缘物种。

转到从蛙到斑马鱼的标签迁移方向,SATURN 同样大幅领先。并且这一优势在 F1-score、precision、recall 以及多种批次整合评估指标下一贯成立。

宏基因差异表达:发现传统方法"看不见"的基因模块

这是 SATURN 最具独创性的功能。传统跨物种分析中,差异表达只能在两个物种共有的一对一同源基因上进行——大量只在单个物种中存在的基因被直接丢弃。SATURN 通过在宏基因层面做差异表达,彻底绕开了这个限制。

在蛙和斑马鱼的离子细胞(ionocyte)分析中,SATURN 识别出的 top 5 差异宏基因全部对应于已知的离子细胞功能。其中最惊艳的发现是 Cldn 宏基因(包含多种 claudin 蛋白)。这些 claudin 基因在硬骨鱼类的鳃离子细胞中是明确的标记物——但它们不在蛙和斑马鱼的一对一同源基因集合里。换句话说,如果你用传统方法做差异表达,你永远不会知道 claudin 在离子细胞中高表达。但 SATURN 通过蛋白质嵌入发现了它们的功能相似性,自动把它们归入同一个宏基因,并在差异表达中准确标出。

SATURN 还能揭示同一细胞类型在不同物种间的分子差异。在比较蛙和斑马鱼的离子细胞时,35% 的宏基因仅由单一物种的基因贡献——这提供了丰富的跨物种功能分化线索。

哺乳动物细胞图谱:整合 335,000 个细胞,顺便纠错

SATURN 将人类(Tabula Sapiens)、鼠狐猴(Tabula Microcebus)和小鼠(Tabula Muris)三个物种的细胞图谱数据整合为一个哺乳动物细胞图谱,覆盖九种共同组织共 335,000 个细胞。在这个多物种空间中,T 细胞、B 细胞、肌肉细胞等保守类型实现了干净的对齐,而物种特有的细胞类型(如人类脾脏中的红细胞)则自然地形成单独聚类。

更令人印象深刻的是 SATURN 的纠错能力。在肌肉组织中,有一小簇标注为"小鼠巨噬细胞"的细胞在 SATURN 空间中靠近了人类和狐猴的粒细胞簇。检查经典标记基因后发现:这些细胞表达粒细胞标记 Cd55,不表达巨噬细胞标记 Cd74——SATURN 发现了一个原始标注的错误。同样在脾脏中,SATURN 揭示出小鼠和狐猴的 B 细胞更接近人类记忆 B 细胞(而非 naive B 细胞),并由 Cd19 的差异表达得到独立验证。

五种物种的 AH 图谱:青光眼基因的跨物种悬念

在涉及人、食蟹猕猴、恒河猴、小鼠和猪五种物种的眼房水流出(AH)图谱整合中,SATURN 展示了其处理多物种大数据的能力(50,000 个细胞)。更有意思的是,在对青光眼相关基因的分析中,SATURN 发现了一个耐人寻味的模式:四个非人物种的 Myoc 基因链接到了同一个宏基因,但人类的 MYOC 基因被分配到了另一个宏基因——与同样跟青光眼相关但非同源的 A2M 基因分在一起。蛋白质嵌入的可视化分析确认,人类 MYOC 的蛋白嵌入确实与其他四个物种的 Myoc 明显分离。换言之,SATURN 不只是在做数据整合——它正在为比较进化生物学提供一个全新的分子分析视角。

⚠️ 局限与展望

SATURN 需要每个物种有高质量的参考蛋白质组——对于那些尚未完成基因组测序的物种,这条路暂时走不通。即使有参考蛋白组,SATURN 当前把基因的多个蛋白质同工型做平均池化处理,忽略了 RNA 可变剪接对最终翻译产物可能产生的重要影响。另外,SATURN 依赖每个物种内部预先存在的细胞聚类——这既是算法设计的一部分,也是一定程度上的监督依赖。对于极稀有的细胞类型(例如仅 33 个细胞的蛙种系细胞),SATURN 也面临整合困难。

但这些局限并不减损 SATURN 的方法论价值。更值得关注的是它打开的未来方向:蛋白质嵌入完全可以替代索引式表示去改进 CITE-seq 等多组学方法;对 MERFISH 等只检测有限基因集的空间转录组数据,SATURN 不需要把所有数据集砍到共同基因——这是一个重大优势;而且蛋白质嵌入理论上还可以耦合基因型信息做个性化修正。随着单细胞技术被应用到越来越多种类丰富的物种身上,SATURN 将成为一个理解细胞类型保守与分化的关键工具。

📎 论文信息

  • 📄 论文:Toward universal cell embeddings: integrating single-cell RNA-seq datasets across species with SATURN | Nature Methods, Vol. 21, pp. 1492–1500 (2024)
  • 🔗 链接:https://doi.org/10.1038/s41592-024-02191-z
  • 💻 代码:https://github.com/snap-stanford/SATURN
  • 👥 团队:Yanay Rosen, Maria Brbić, Yusuf Roohani*, Kyle Swanson, Ziang Li, Jure Leskovec | Stanford University, EPFL, Tsinghua University
  • ⭐ GitHub Stars:165

Links

Tags