← Back to scModels Generative

TranscriptFormer

TranscriptFormer
James D Pearce, Sara E Simmonds*, Gita Mahmoudabadi*, Lakshmi Krishnan*, Giovanni Palla, Ana-Maria Istrate, Alexander Tarashansky, Benjamin Nelson, Omar Valenzuela, Donghui Li, Stephen R Quake, Theofanis Karaletsos (Chan Zuckerberg Initiative) · bioRxiv

TranscriptFormer 用 5.4 亿参数、1.12 亿个细胞、12 个物种,在 one transformer 里读懂了从酵母到人类的"细胞通用语法"——跨物种细胞分类、零样本疾病识别、系统发育树涌现,单细胞大模型正式从"全基因组时代"跨入了"全演化树时代"

Overview

Science 在 2026 年 5 月 7 日在线发表单细胞演化大模型。

CZI(Chan Zuckerberg Initiative)的团队没有继续在"更多参数"的方向上卷。他们问了一个更根本的问题:

如果细胞的底层语言是跨物种共通的呢?

如果一个在海绵里工作的基因程序,和人类里相同的基因程序,在某种深层表示空间里是同构的——那我们为什么要在每个物种上分别训练一个 foundation model?

这是 TranscriptFormer 的核心假设。它做到了三件事:
1. 训练了一个跨 12 个物种的单一模型(从酵母到人类,覆盖 15.3 亿年的演化距离)
2. 模型能零样本识别未见过物种的细胞类型(跨越 6.85 亿年演化距离)
3. 系统发育关系和发育轨迹在模型中自发涌现——没有任何显式的演化树或发育阶段标签

架构:不是"多物种拼接",而是"统一基因语言"

TranscriptFormer 的架构哲学和前面三篇完全不同。scGPT 把基因当 token,Geneformer 把排名当输入,scFoundation 用不对称 attention 装下全基因组。TranscriptFormer 走得更远:它认为细胞不是"句子",而是"基因-表达式联合序列"。

核心创新一:基因 × 表达联合自回归建模

TranscriptFormer 是一个 生成式自回归联合模型。它对每个基因做两件事:

  1. 预测下一个基因是什么(哪个基因会出现)——这对应基因本体
  2. 预测这个基因的表达量是多少(raw count)——这对应表达水平

两个任务共用一个 transformer backbone,但对基因 token 和表达值分别有独立的输出头。损失函数是:

$$ \mathcal{L} = \mathcal{L}_\text{gene} + \lambda \cdot \mathcal{L}_\text{expression} $$

其中 $\mathcal{L}_\text{gene}$ 是交叉熵(gene token 分类),$\mathcal{L}_\text{expression}$ 是负二项似然(count data 的标准选择)。这让模型同时学到了"什么基因经常一起出现"和"它们通常以什么水平表达"。

核心创新二:表达感知多头自注意力(Expression-Aware MHA)

标准 Transformer 的自注意力只看 token embedding 的相似度。TranscriptFormer 在注意力计算中显式注入了基因表达值

Attention(Q, K, V, expr) = softmax(QK^T / √d + expr_bias) · V

其中 expr_bias 是一个从基因表达值导出的可学习偏置项。这意味着两个基因是否互相"注意",不仅取决于它们的功能相似性,还取决于它们在当前细胞中表达了多高。高表达的基因会获得不成比例的注意力权重——这符合生物学直觉:一个 T 细胞疯狂表达 CD3,那它周围的免疫相关基因就应该被重点关注。

核心创新三:因果掩码 + 跨物种蛋白嵌入

TranscriptFormer 使用 causally masked self-attention(GPT 风格),这意味着它在做真正的下一基因预测。训练时看到前面 k 个基因,预测第 k+1 个;推理时可以做任意长度的条件生成。

怎么处理跨物种的基因对应关系?TranscriptFormer 不要求不同物种的基因一一对应。它用 ESM-2 蛋白语言模型为每个基因编码了一个蛋白质序列 embedding,作为该基因的"跨物种锚点"。所以:
- 人类的 TP53 和斑马鱼的 tp53 虽然名字不同,但因为蛋白序列相似,它们的蛋白质 embedding 在高维空间中很接近
- 模型自动学到了"这两个基因在不同物种里干的是类似的事"
- 对于训练时从未见过的物种(如猕猴、负鼠),只需要提供它们的蛋白质 embedding,模型就能 zero-shot 迁移

Publication

A Cross-Species Generative Cell Atlas Across 1.5 Billion Years of Evolution: The TranscriptFormer Single-cell Model

DOI: https://www.biorxiv.org/content/10.1101/2025.04.25.650731v2

Links

📄 Read Paper 💻 GitHub 📱 Science最新单细胞跨物种演化大模型

Specifications

  • ArchitectureTransformer Encoder (BERT-style)
  • Parameters542 M
  • Pretraining Data112 M
  • ModalityscRNA-seq