PINNACLE
几何深度学习三层注意力机制为蛋白质生成上下文感知表示,156种细胞类型×24个组织中394,760个蛋白嵌入,RA/IBD靶点优先排序超越context-free模型,68引用/51k访问(Nature Methods, 2024)
Overview
📄 第32期 | Contextual AI Models for Single-Cell Protein Biology:上下文感知AI模型,让蛋白质"知道"自己身在何处
同一蛋白质在不同细胞类型中扮演不同角色——PINNACLE 首次用几何深度学习为蛋白质生成"上下文感知"的表示向量,每个蛋白在每个细胞类型中都有一个独特的嵌入。394,760 个上下文嵌入空间,让类风湿关节炎和炎症性肠病的靶点发现精度显著超越所有上下文无视模型。
🔬 为什么这篇文章重要?
蛋白质是细胞的功能执行者,但一个关键事实常被忽视:同一蛋白质在不同细胞类型中的功能可以截然不同。TP53 在肝细胞中调控代谢,在免疫细胞中启动凋亡;JAK2 在 T 细胞和成纤维细胞中的信号网络也大相径庭。然而,现有的蛋白质表示学习方法——从 sequence-based 的 ESM 到 structure-based 的 MaSIF——都为每个蛋白质生成唯一的表示向量,完全抹去了细胞类型的上下文信息。
这就好比给一个人只发一张"通用身份证",不管你是在教室、法院还是球场——但一个人的角色恰恰是由场景决定的。Zitnik 实验室(哈佛医学院)2024 年 7 月发表在 Nature Methods 上的 PINNACLE,正是要解决这个"上下文无视"的根本问题。它不满足于告诉你"这是什么蛋白",而是要回答"这个蛋白在这个细胞类型里在干什么"。
🧠 PINNACLE:三层注意力机制下的上下文感知蛋白质表示
核心思想
PINNACLE(Protein Network-based Algorithm for Contextual Learning)的输入是三个尺度的网络:
- 156 个细胞类型特异的蛋白互作子网络——从 Tabula Sapiens 单细胞图谱(24 个组织/器官,15 个供体)中,识别每个细胞类型中"被激活"的蛋白编码基因,再从全局参考蛋白互作网络(15,461 个蛋白)中提取对应的子图。每个子网络平均包含 2,530±677 个蛋白。
- 细胞类型-细胞类型通讯网络——基于 CellPhoneDB 预测的配体-受体显著互作,156 个细胞类型节点之间共 3,567 条边。
- 组织层级网络(metagraph)——62 个组织节点(24 个叶子节点 + 38 个祖先节点,沿 BRENDA 组织本体向上追溯至根节点),包含 372 条细胞-组织边和 79 条组织-组织边。
PINNACLE 在这三个尺度上同时学习,通过三种注意力机制实现跨尺度消息传递:
| 注意力层级 | 作用范围 | 学什么 |
|---|---|---|
| 蛋白质级注意力 | 每个细胞类型的 PPI 子网络内 | 该细胞类型中哪些蛋白互作最重要(GATv2) |
| 元图节点级注意力 | 细胞类型/组织之间的边 | 哪些邻居细胞类型/组织对目标节点信息量最大 |
| 元图边类型级注意力 | CC / CT / TT / TC 四种边类型 | 细胞通讯 vs 组织归属 vs 层级关系,孰轻孰重 |
最关键的设计是注意力桥接机制(attention bridge):蛋白质嵌入通过可学习的 γ 权重汇聚为细胞类型嵌入的初始化,而元图传播后的细胞类型嵌入再通过反向 γ 权重回流到蛋白质嵌入中。这意味着——组织层级和细胞通讯的结构被"注入"到了每一个蛋白质的表示向量里。
三步走的学习流程
① 蛋白质层预训练
├── 自监督链接预测:判断两个蛋白是否在特定细胞类型中互作
└── 细胞类型身份分类(center loss):同一细胞类型的蛋白嵌入应聚集
② 细胞类型层 & 组织层预训练
├── 细胞-细胞链接预测
├── 细胞-组织链接预测
├── 组织-组织链接预测
└── 组织-细胞链接预测
③ 统一损失函数优化
L = L_protein + (1-θ)(L_celltype + L_tissue)
蛋白质层占主导(θ≈0.9),元图层提供全局组织约束
这三个尺度的联合训练产生了一个统一的 1,024 维嵌入空间,其中包含 394,760 个蛋白质表示(每个蛋白在每个激活它的细胞类型中有一个独特表示)、156 个细胞类型表示和 62 个组织表示。
与现有方法的根本区别
| PINNACLE | 传统方法(ESM, MaSIF, GAT, BIONIC) | |
|---|---|---|
| 每蛋白的表示数 | 每个细胞类型一个(多重) | 一个(单一) |
| 是否感知细胞类型 | ✅ 每个嵌入绑定到特定细胞类型 | ❌ 所有细胞类型混为一体 |
| 是否感知组织层级 | ✅ 零样本检索组织树 | ❌ 无 |
| 跨尺度知识迁移 | ✅ 蛋白↔细胞类型↔组织三向流动 | ❌ 仅蛋白层 |
📊 关键实验结果
1. 嵌入空间忠实地反映了生物学组织
使用 SAFE 空间富集分析工具,PINNACLE 的蛋白质嵌入在 UMAP 可视化中形成了按细胞类型高度富集的"社区"——来自同一细胞类型的蛋白嵌入显著聚集(156 个细胞类型全部通过超几何检验,FDR α=0.05)。相比之下,移除细胞/组织上下文的消融模型完全无法区分不同细胞类型的蛋白嵌入。
更惊人的是组织嵌入的零样本检索能力:PINNACLE 的 62 个组织嵌入之间的余弦距离与 BRENDA 组织本体中的层级距离高度相关(Spearman ρ 对应显著,p=1.85×10⁻¹¹⁹),说明模型在没有被显式教过"肺和支气管是什么关系"的情况下,自己学会了组织层级结构。
2. 上下文信息增强 3D 结构蛋白表示
将 PINNACLE 的上下文蛋白表示与 MaSIF 的 3D 结构表示拼接后,区分免疫-肿瘤学关键蛋白对(PD-1/PD-L1、B7-1/CTLA-4)的 binding vs non-binding 蛋白的能力提升了多个数量级。仅使用 MaSIF 结构表示时,binding 和 non-binding 蛋白的余弦相似度得分差距不显著(p=0.21);拼接 PINNACLE 上下文表示后,gap 达到高度显著(p<10⁻⁵)。
3. 药物靶点优先排序——上下文感知的价值
在类风湿关节炎(RA)和炎症性肠病(IBD)两个治疗领域进行了严格的靶点优先排序测试:
- 正例:OpenTargets 数据库中至少完成临床 II 期的药物靶点(RA: 152 个,IBD: 114 个)
- 负例:DrugBank 中的可成药蛋白但与目标适应症无已知关联(RA: 1,465 个,IBD: 1,377 个)
- 评估指标:APR@K(Average Precision and Recall at K)
RA 靶点预测:PINNACLE 在 100%(156/156)的细胞类型中超越了 random walk 基线,在 44.2% 的细胞类型中超越了 GAT,在 11.5% 的细胞类型中超越了 BIONIC。
更重要的是,PINNACLE 能够精确定位靶点发挥作用的细胞类型上下文。例如,模型识别出 RA 药物 tofacitinib(JAK 抑制剂)的最佳预测细胞类型是 T 淋巴细胞和成纤维细胞——这与临床上 JAK/STAT 通路在这两类细胞中的病理作用高度吻合。
⚠️ 局限与展望
PINNACLE 有几个值得注意的局限。首先,它依赖 Tabula Sapiens 作为单细胞参考图谱,这意味着细胞类型的粒度和覆盖度受限于该图谱的注释质量——稀有细胞类型和未被充分采样的组织可能被遗漏。其次,当前的蛋白互作网络基于通用参考互作组(BioGRID),没有纳入细胞类型特异性的蛋白构象变化和翻译后修饰信息——而这些恰恰是蛋白质在特定上下文中功能切换的关键机制。
从单细胞大模型的角度看,PINNACLE 开辟了一个被长期忽视的方向:上下文感知的表征学习。scGPT、Geneformer、scFoundation 都在学习"细胞的通用语言",而 PINNACLE 告诉我们——蛋白质的"方言"同样重要,甚至更重要。未来将 PINNACLE 的多尺度图学习与大规模单细胞 transformer 模型结合,可能产生真正意义上的上下文感知单细胞基础模型。
📎 论文信息
- 📄 论文: Li, Huang, Sumathipala et al., "Contextual AI models for single-cell protein biology", Nature Methods, 21, 1546–1557 (2024)
- 🔗 链接: https://doi.org/10.1038/s41592-024-02341-3
- 💻 代码: https://github.com/mims-harvard/PINNACLE
- 🧪 在线Demo: https://huggingface.co/spaces/michellemli/PINNACLE/
- 👥 团队: Michelle M. Li, Yepeng Huang, Marissa Sumathipala et al. | Zitnik Lab, 哈佛医学院 & Roche
- 📊 影响力: 68 引用 · 51k 访问 · 125 Altmetric

▲ 图1:PINNACLE 概览。(a) 从多器官单细胞转录组图谱构建细胞类型特异的蛋白互作网络和组织元图。(b-c) 蛋白质级、细胞类型级、组织级三层注意力机制。(d) 同一蛋白在不同细胞类型中生成不同的上下文嵌入。(e) 传统方法为每个蛋白生成单一表示。(f-h) 多模态学习、上下文迁移学习和上下文感知预测。
Publication
Contextual AI models for single-cell protein biology