← Back to scModels Foundation Model

scMoFormer

Wenzhuo Tang, Hongzhi Wen, Renming Liu, Jiayuan Ding, Wei Jin, Yuying Xie, Hui Liu, Jiliang Tang · 2023-10-21 · CIKM 2023

首个多Transformer单细胞多模态预测框架：细胞/基因/蛋白三线并行+图Transformer双分支（GNN先验知识+全局注意力）+GraphSAGE跨模态消息传递，NeurIPS 2022竞赛Kaggle银牌（24/1221，Top 2%），CIKM 2023

Overview

📄 第36期 | Single-Cell Multimodal Prediction via Transformers：当Transformer学会了阅读多组学细胞数据

用三个专门的Transformer分别处理基因、蛋白和细胞，再通过异构图消息传递让它们"互相交流"——scMoFormer首次将多Transformer架构引入单细胞多模态预测，在NeurIPS 2022竞赛中以Top 2%摘得Kaggle银牌。

🔬 为什么这篇文章重要？

单细胞多组学技术让我们第一次能在同一个细胞内同时测量不同层面的分子信息——基因表达、蛋白丰度、染色质可及性——这些曾经必须用不同实验在不同细胞上分别获取的数据，如今可以一次得到。但这批数据的到来也带来了一个棘手的问题：不同模态之间如何交互？基因表达改变如何影响蛋白丰度？蛋白之间的协同作用如何反映在转录层面？

传统方法分两派。自编码器派（scMDC、BABEL、跨模态自编码器）把多种模态的数据拼在一起编码到一个隐空间，然后各自重建。这样做的好处是实现简单，但致命伤是：它把基因和蛋白当成了两个"频道"而不是两个"有生物关系的实体"。一个基因和它编码的蛋白之间那种教科书级别的中心法则关系，在这种模型里完全丢失了。

图神经网络派（ScMoGNN、GLUE）试图弥补这个缺陷。它们从STRING、通路数据库等来源构建基因-基因和蛋白-蛋白的关系图，然后用GNN在这些图上传播信息。这确实比自编码器更"懂生物学"。但这类方法有两个无法绕开的问题。第一，图是静态的——k-NN相似度或数据库里的边一旦建好就不会变，无法针对下游任务自适应调整。第二，GNN的深度陷阱——堆叠多层GNN后，过平滑让所有节点表征趋向一致，过压缩让远距离节点间的信息几乎消失，这两个问题在细胞数量大、基因种类多（2万+）的单细胞场景下尤其严重。

scMoFormer的方案是：用Transformer取代静态图作为关系建模的核心机制。这个直觉直接且漂亮——Transformer的自注意力矩阵天然就是一张"可学习的动态关系图"，每个注意力分数都在根据数据本身调整节点之间的连接强度。更重要的是，scMoFormer不是用一个大Transformer粗放地处理所有数据类型，而是设计了三个专门的Transformer，每种分子有自己的"处理器"，再通过GNN消息传递让它们协作。这种分工就像给生物学的不同层次配备了各自的专家，然后再让他们坐在一起讨论。

值得注意的是，scMoFormer是CIKM 2023的正式论文。CIKM虽不是纯生物学或计算生物学期刊，但它作为信息检索和数据挖掘的顶会，对方法论创新和工程实现的严谨性要求极高。这篇工作在模型设计上的系统性——从图构建到多Transformer协作再到跨模态融合——体现的就是这种计算机科学背景下的"好工程"标准。

🧠 核心创新：scMoFormer的三层Transformer与跨模态"对讲机"

异构图构建：把问题翻译成图语言

scMoFormer的第一步是把所有东西抽象成一张异构图，包含三种节点、四种子图。

基因节点（~22,000个）、蛋白节点（~140个）和细胞节点（数万个）。基因-基因边和蛋白-蛋白边来自STRING数据库——这是一个整合了基因组上下文、实验证据、文本挖掘和共表达等七种信息源的综合数据库，提供可靠的分子互作先验知识。基因-蛋白边则基于一个优雅的生物学事实：基因名中内嵌了它编码的蛋白symbol，直接匹配即可。细胞-基因边是由数据本身定义的——一个基因在该细胞中表达了，就连一条边，权重为归一化对数表达值。

这里有三个设计选择值得深究：

为什么不建细胞-细胞图？ 这是最反直觉的一点，恰恰也是最聪明的一点。单细胞数据的稀疏性（零值率可达78-93%）意味着任何基于表达相似度的k-NN细胞图都会充满噪声和假阳性。scMoFormer选择让细胞Transformer的自注意力动态学习细胞间关系，等于把"哪些细胞相似"这个问题交给模型在训练中自己解决，而不是用一套粗糙的启发式规则提前锁死答案。

为什么不建细胞-蛋白图？ 如果把训练集中目标蛋白的测量值作为细胞-蛋白边的权重，模型会直接"看到"答案——这是信息泄露，会导致灾难性过拟合。作者在消融实验中证实，加入细胞-蛋白边后RMSE从1.627飙升到1.717。

STRING覆盖不全怎么办？ CITE数据集的22,050个基因中只有13,101个在STRING里有记录，140个蛋白中只有120个有互作信息。这正是为什么需要Transformer的全局注意力——它能弥补知识库的覆盖缺口，让那些STRING里"隐身"的基因也能通过数据本身的模式获得关系信息。

三个Transformer的分工

细胞Transformer的核心挑战是规模。原生Transformer的自注意力复杂度是O(N²d)，N为细胞数。一个单细胞数据集动辄数万细胞，这意味着一步自注意力需要数亿次计算。scMoFormer采用核近似线性化注意力——把注意力函数写成核函数形式K(q,k)=φ(q)ᵀφ(k)，将复杂度从O(N²d)降到O(Nrd)，其中r是核维度，远小于d。代价是近似精度损失，但实验证明这在单细胞场景下完全可接受。

基因Transformer和蛋白Transformer的设计更精巧。它们采用GraphGPS架构——每一层同时跑两个并行分支：一个GNN分支在STRING先验知识图上做局部消息传递（利用了已知的生物学关系），一个全局注意力分支允许每个基因/蛋白看到所有其他同类节点（发现数据库之外的潜在关系）。两个分支的输出求和后送入两层MLP。这本质上是把"知识"和"数据"做了软融合——不是用知识取代数据，也不是让数据忽视知识，而是让两者同时发声，由网络自己学习如何平衡。

两个Transformer还分别加了位置编码。拉普拉斯PE捕捉图的谱结构（哪些基因在网络中处于"枢纽"位置），随机游走PE捕捉局部聚类结构（哪些基因属于同一个功能模块）。这些位置信息对于区分网络结构中相似但功能不同的基因至关重要。

跨模态消息传递：专家们的"圆桌讨论"

三个Transformer各自跑完后，需要交换信息。scMoFormer用GraphSAGE在三对节点之间架起桥梁：

基因↔蛋白：STRING数据库中基因和蛋白通过中心法则编码关系相连，消息传递让蛋白Transformer的输出能够影响基因表征，反之亦然。

基因↔细胞：这是最关键的信息流。STRING的先验知识通过基因Transformer处理后，注入细胞表征——等于告诉细胞"根据生物学知识，这些基因之间有功能关联"。同时，细胞中的数据特有模式回传给基因表征——等于告诉基因Transformer"虽然STRING说基因A和B关联，但在这个具体的细胞类型里，它们的行为其实很不一样"。

这套信息循环形成了一个训练中的持续对话：外部知识提供"底色"，数据特有信息负责"微调"。这也是为什么scMoFormer在消融实验中移除任何一个Transformer都会导致性能下降——每个部分都在信息环路中扮演不可替代的角色。

技术对比速览

维度	静态GNN图	纯自编码器	scMoFormer
关系建模	预定义+固定	无显式关系	注意力动态学习
先验知识	STRING等数据库	不融入	STRING+位置编码全融入
可扩展性	受限于图结构	中等	线性注意力+mini-batch
过平滑风险	高（堆多层后）	无	全局注意力规避
知识-数据平衡	知识主导	数据主导	双分支软融合
多任务适用	需重新设计	需重新设计	四任务通用

📊 关键实验结果

scMoFormer在两个基准数据集上和四个baseline做了全面对比。评价指标用了三个：RMSE（均方根误差，数值越低越好）、MAE（平均绝对误差）和Pearson相关系数（衡量预测值和真实值的线性相关性，越高越好）。

CITE数据集（42,843训练细胞，28,145测试细胞，140种表面蛋白）：
- RMSE: 1.627（ScMoGNN 1.666，BABEL 1.674，scMM 2.009，CMAE 1.631）
- Pearson相关系数: 0.8855（所有方法最高，且五次运行方差仅0.00080）
- 训练时间: 24.8分钟 vs ScMoGNN 58.9分钟（快2.4倍）

GEX2ADT数据集（13,953基因，134蛋白）：
- RMSE: 0.420（ScMoGNN 0.426，BABEL 0.454，CMAE 0.515，scMM 0.641）
- Pearson相关系数: 0.8770（方差仅0.00121，稳定性最优）

最令人印象深刻的不是绝对数值的领先，而是稳定性的优势。单细胞数据本身就充满噪声和批次效应，如果模型的预测方差还很大，那输出就几乎没有实用价值。scMoFormer在五次运行中的标准差始终是最小或接近最小的——这在方法论上说明模型捕捉到的是数据中稳健的信号而不是随机波动。

四个模态预测任务的通用性验证：除了核心任务GEX→ADT（基因表达→蛋白），论文还验证了反向任务ADT→GEX、跨模态任务GEX→ATAC（基因表达→染色质可及性）和ATAC→GEX。在蛋白参与的两个任务中scMoFormer超越ScMoGNN，在ATAC相关的任务中略逊一筹——这个不对称性恰好说明STRING蛋白先验知识在蛋白模态参与时才发挥最大价值，进一步验证了框架设计的合理性。

三个关键消融发现：
1. 细胞-细胞静态图帮倒忙（RMSE从1.627升到1.689）——噪声数据中的预定义相似度引入假阳性，不如让注意力动态学习
2. 细胞-蛋白边信息泄露（RMSE升到1.717）——训练集目标值直接编码在图中，过拟合不可避免
3. 仅用GNN（不用Transformer）性能骤降——验证了Transformer的全局注意力对弥补STRING覆盖缺口和发现新关系至关重要

⚠️ 局限与展望

scMoFormer是一篇扎实的工作，但有几个局限性值得诚实面对。

监督学习的瓶颈。这是一个需要配对训练数据的监督框架——每个训练细胞必须同时有基因表达和蛋白测量值。而现实中配对多组学数据比单纯的scRNA-seq数据稀少得多。相比之下，Geneformer和scGPT采用的自监督预训练范式可以在海量无配对数据上学习表示，再用少量配对数据微调。scMoFormer虽然高效，但在数据匮乏时的泛化能力并未被充分验证。

知识图谱依赖。STRING数据库对蛋白和基因互作的覆盖虽广（13,101/22,050个基因，120/140个蛋白），但对于未来出现的新模态——代谢组、脂质组、磷酸化蛋白组——相应的知识图谱从何而来？如果不依赖先验知识只靠数据驱动，scMoFormer的性能还能维持吗？这可能是框架从"好用"走向"通用"的关键门槛。

可解释性的缺位。尽管自注意力矩阵理论上是可解读的——哪些基因关注哪些基因、哪些细胞关注哪些细胞——论文并未对注意力权重做深入的生物学验证。比如，模型学到的基因-基因注意力是否对应已知的通路？细胞之间的注意力是否反映了真实的细胞类型边界？这些问题的答案决定了这个工具能否从"预测工具"进化为"发现工具"。

展望而言，scMoFormer的价值在于它示范了一种设计哲学：不是把生物学塞进现成的深度学习模型里，而是让模型架构去适配生物学的结构层次——基因层、蛋白层、细胞层各有自己的"处理器"，它们之间的关系不是简单堆叠而是有机对话。未来将这些模块与大规模自监督预训练结合，也许能同时做到"通用"和"精准"，这正是单细胞基础模型领域最值得期待的方向。

📎 论文信息

📄 论文: Single-Cell Multimodal Prediction via Transformers (CIKM 2023)
🔗 论文链接: https://doi.org/10.1145/3583780.3615061（arXiv: 2303.00233）
💻 代码: https://github.com/OmicsML/scMoFormer
👥 团队: Wenzhuo Tang, Hongzhi Wen, Renming Liu* et al. (共同一作) | Michigan State University & Emory University
📊 影响力: 17次引用（Semantic Scholar）| NeurIPS 2022竞赛Kaggle银牌（24/1221, Top 2%）

Publication

Single-Cell Multimodal Prediction via Transformers

Links

📄 Read Paper 💻 GitHub

Specifications

ArchitectureGraph Transformer + GNN heterogeneous graph message passing, linearized cell attention, GraphGPS dual-branch (STRING prior + global attention), Laplacian/RW positional encoding, GraphSAGE cross-modality aggregation
Modalitymultiomics