Overview
WeChat科普推文 第22期 · 2026-05-27
话题: 基因调控网络推断、注意力机制解析调控关系
🔬 为什么这篇文章重要?
空间转录组学让我们看到了细胞在组织中的位置,但"看到了"不等于"看懂了"。位置相邻的细胞不一定是同一个功能单元——一个T细胞紧挨着一个癌细胞,它们是"邻居",但它们显然不在同一个niche(微环境)里。
现有方法——如SpatialPCA、BayesSpace、Banjo——的逻辑基本一致:根据空间位置和基因表达的相似性把细胞聚成一堆,然后说"这就是一个niche"。这种纯几何+统计的做法完全忽略了一个生物学核心事实:niche的本质是细胞之间的信号对话。T细胞和癌细胞的空间关系是"对抗",星形胶质细胞和神经元的关系是"支持",成纤维细胞和免疫细胞可能是"招募"——这些关系无法从纯位置信息中读出。
NicheCompass的核心洞见是:niche的定义应该从"谁挨着谁"升级为"谁在对谁说什么"。它用图神经网络(GNN)构建空间邻接图,但关键创新在于——模型的每一个embedding维度被强制对应一条具体的信号通路活动(如Wnt、Notch、TGF-β),模型不仅要重建自己的基因表达,还要预测邻居的表达模式。这迫使embedding在训练过程中学会编码"我正在接收/发送什么信号"。
这种范式转换的意义在于:niche第一次可以被定量表征——不再是"cluster 5",而是"Wnt通路活动高 + Notch通路活动低 + TGF-β通路活动中等的细胞群"。
🧠 核心创新:信号感知的图自编码器
架构:从空间邻居图到信号通路embedding
NicheCompass的工作流程分四步:
① 空间邻接图构建。 输入是细胞/spot水平的空间组学数据(基因表达,可选加染色质可及性)。根据二维坐标构建图——节点是细胞,边是空间邻近关系。同时输入协变量(如样本编号)用于批次校正。
② GNN编码器。 基于PyG(PyTorch Geometric)的图神经网络同时编码每个节点自身特征和其邻居特征。协变量嵌入用于移除批次效应——这一点继承了Lotfollahi-lab之前scArches的设计智慧。
③ 信号程序解码。 这是NicheCompass最独特的设计。基因程序分为三类:
- Prior程序:来自先验知识库(CellChat、NicheNet、OmniPath等数据库API),覆盖细胞-细胞通讯、转录调控、组合交互三类
- De novo程序:当先验知识库不完整时(如缺少形态素梯度信息),模型自动从数据中发现空间共表达基因模块
每个程序被拆成两个组件:
- 邻居组件(neighborhood):细胞间互作的信号源方基因(如配体Wnt3a)
- 自身组件(self):信号接收方基因(如受体Frizzled)和胞内互作基因
解码器是线性+掩码结构——embedding的每个维度被一个二进制掩码强制只对应一个特定程序的基因。这意味着可以直接从embedding中读出:"这个细胞Wnt信号接收强度高,Notch发送强度低"。
④ 双重重建损失。 图解码器重建邻接关系(edge reconstruction loss),组学解码器同时重建自身和邻居的基因表达——迫使模型学会预测"我旁边的细胞在干什么"。
与现有方法的本质区别
| 维度 | 传统方法 | NicheCompass |
|---|---|---|
| Niche定义 | 空间+表达聚类 | 信号通路活动定量表征 |
| 细胞互作 | 不建模或事后推断 | 显式嵌入GNN训练过程 |
| 可解释性 | "这个cluster是什么" | "Wnt ↑ / Notch ↓ / TGF-β ↑" |
| 跨技术 | 难 | 支持(不同测序平台整合) |
| 多模态 | 不支持 | 基因表达+染色质可及性 |
| 参考映射 | 不支持 | 支持(query→reference mapping) |
| 规模 | 最多数十万 | 840万细胞(全脑图谱) |
📊 关键实验结果
小鼠器官发生。 在E9.5-E13.5小鼠胚胎数据上,NicheCompass揭示了高度解析的功能niche层级结构,且niche特异基因程序在不同胚胎间高度一致。Benchmark显示在niche恢复、基因程序推断和批次效应去除上均超越已有方法。
人类肿瘤微环境。 在乳腺癌和肺癌空间数据上,NicheCompass成功解码了肿瘤微环境中的供体特异性空间组织——同一癌种不同患者之间的niche组成差异被清晰地表征为信号通路活动模式的差异,而非简单的细胞类型比例差异。
空间参考映射。 这是NicheCompass独有的能力:将新的query数据集映射到已有参考图谱上,自动识别新数据中出现的新niche并对比信号通路的差异。在临床场景中,这意味着一块新切的肿瘤切片可以直接跟标准参考图谱对比,找出异常的信号活动模式。
跨技术整合。 10x Visium和MERFISH两种完全不同的空间技术产生的数据可以在NicheCompass的embedding空间中对齐,验证了信号程序层面(而非基因表达层面)的跨技术一致性。
840万细胞全脑空间图谱。 构建了包含840万个细胞的全鼠脑空间图谱,证明了方法的可扩展性。
⚠️ 局限与展望
第一,对先验知识库的依赖。 Prior程序的覆盖范围和质量直接受限于CellChat/NicheNet/OmniPath等数据库。De novo程序部分缓解了这个问题,但对于数据库完全未覆盖的新型信号通路,模型可能无法捕捉。
第二,计算资源要求。 840万细胞的图谱虽然证明了可扩展性,但GNN在大规模图上的训练和推理仍然需要显著的GPU资源,对于普通实验室可能存在门槛。
第三,Lotfollahi-lab的方法谱系整合。 NicheCompass、scGen、CPA、scArches同出一门,但目前各方法之间尚未形成统一框架。将扰动预测(scGen/CPA)与空间niche分析整合可能是下一个突破。
第四,静态快照的局限。 空间组学数据本质上是静态的,NicheCompass推断的信号对话是基于空间共定位的统计推断,而非真正的实时信号追踪。验证这些推断需要正交实验(如空间蛋白质组学、活体成像)。
📎 论文信息
- 📄 论文:Quantitative characterization of cell niches in spatially resolved omics data
- 📰 期刊:Nature Genetics, volume 57, pages 897–909 (2025)
- 📅 发表:2025年3月18日(Open Access)
- 🔗 链接:https://doi.org/10.1038/s41588-025-02120-6
- 💻 代码:https://github.com/Lotfollahi-lab/nichecompass(PyPI: nichecompass, 115⭐)
- 📖 文档:https://nichecompass.readthedocs.io/
- 👥 团队:Sebastian Birk, Irene Bonafonte-Pardàs, ..., Mohammad Lotfollahi — Wellcome Sanger Institute / Cambridge; Fabian J. Theis — Helmholtz Munich; Carlos Talavera-López — Wurzburg
- 📊 影响力:61 citations | 70k accesses | 127 Altmetric