← Back to scModels Foundation Model

NicheCompass

Birk S, Bonafonte-Pardàs I, Miraki Feriz A, Boxall A, Agirre E, Memi F, Maguza A, Yadav A, Armingol E, Fan R, Castelo-Branco G, Theis FJ, Bayraktar OA, Talavera-López C, Lotfollahi M · 2025-03-18 · Nature Genetics, volume 57, pages 897–909 (2025)

图神经网络显式建模细胞通讯，每个embedding维度对应一条信号通路活动（Wnt/Notch/TGF-β等），将niche从"空间聚类"升级为"信号对话定量表征"，840万细胞全脑空间图谱（Nature Genetics 2025, 61引用）

Overview

📄 第22期 | NicheCompass: 用图神经网络解码细胞"社交网络"——空间组学时代的微环境建模

传统方法把相邻细胞粗暴聚成一类就叫"niche"，完全忽略了细胞之间的信号对话。NicheCompass首次将细胞通讯显式建模进图神经网络，每个embedding维度对应一条具体的信号通路活动，在840万细胞的全脑空间图谱上证明了从信号对话出发定义微环境的范式优势。Nature Genetics 2025。

🔬 为什么这篇文章重要？

空间转录组学让我们看到了细胞在组织中的位置，但"看到了"不等于"看懂了"。位置相邻的细胞不一定是同一个功能单元——一个T细胞紧挨着一个癌细胞，它们是"邻居"，但它们显然不在同一个niche（微环境）里。

现有方法——如SpatialPCA、BayesSpace、Banjo——的逻辑基本一致：根据空间位置和基因表达的相似性把细胞聚成一堆，然后说"这就是一个niche"。这种纯几何+统计的做法完全忽略了一个生物学核心事实：niche的本质是细胞之间的信号对话。T细胞和癌细胞的空间关系是"对抗"，星形胶质细胞和神经元的关系是"支持"，成纤维细胞和免疫细胞可能是"招募"——这些关系无法从纯位置信息中读出。

NicheCompass的核心洞见是：niche的定义应该从"谁挨着谁"升级为"谁在对谁说什么"。它用图神经网络（GNN）构建空间邻接图，但关键创新在于——模型的每一个embedding维度被强制对应一条具体的信号通路活动（如Wnt、Notch、TGF-β），模型不仅要重建自己的基因表达，还要预测邻居的表达模式。这迫使embedding在训练过程中学会编码"我正在接收/发送什么信号"。

这种范式转换的意义在于：niche第一次可以被定量表征——不再是"cluster 5"，而是"Wnt通路活动高 + Notch通路活动低 + TGF-β通路活动中等的细胞群"。

🧠 核心创新：信号感知的图自编码器

架构：从空间邻居图到信号通路embedding

NicheCompass的工作流程分四步：

① 空间邻接图构建。 输入是细胞/spot水平的空间组学数据（基因表达，可选加染色质可及性）。根据二维坐标构建图——节点是细胞，边是空间邻近关系。同时输入协变量（如样本编号）用于批次校正。

② GNN编码器。 基于PyG（PyTorch Geometric）的图神经网络同时编码每个节点自身特征和其邻居特征。协变量嵌入用于移除批次效应——这一点继承了Lotfollahi-lab之前scArches的设计智慧。

③ 信号程序解码。 这是NicheCompass最独特的设计。基因程序分为三类：

Prior程序：来自先验知识库（CellChat、NicheNet、OmniPath等数据库API），覆盖细胞-细胞通讯、转录调控、组合交互三类
De novo程序：当先验知识库不完整时（如缺少形态素梯度信息），模型自动从数据中发现空间共表达基因模块

每个程序被拆成两个组件：
- 邻居组件（neighborhood）：细胞间互作的信号源方基因（如配体Wnt3a）
- 自身组件（self）：信号接收方基因（如受体Frizzled）和胞内互作基因

解码器是线性+掩码结构——embedding的每个维度被一个二进制掩码强制只对应一个特定程序的基因。这意味着可以直接从embedding中读出："这个细胞Wnt信号接收强度高，Notch发送强度低"。

④ 双重重建损失。 图解码器重建邻接关系（edge reconstruction loss），组学解码器同时重建自身和邻居的基因表达——迫使模型学会预测"我旁边的细胞在干什么"。

与现有方法的本质区别

维度	传统方法	NicheCompass
Niche定义	空间+表达聚类	信号通路活动定量表征
细胞互作	不建模或事后推断	显式嵌入GNN训练过程
可解释性	"这个cluster是什么"	"Wnt ↑ / Notch ↓ / TGF-β ↑"
跨技术	难	支持（不同测序平台整合）
多模态	不支持	基因表达+染色质可及性
参考映射	不支持	支持（query→reference mapping）
规模	最多数十万	840万细胞（全脑图谱）

📊 关键实验结果

小鼠器官发生。 在E9.5-E13.5小鼠胚胎数据上，NicheCompass揭示了高度解析的功能niche层级结构，且niche特异基因程序在不同胚胎间高度一致。Benchmark显示在niche恢复、基因程序推断和批次效应去除上均超越已有方法。

人类肿瘤微环境。 在乳腺癌和肺癌空间数据上，NicheCompass成功解码了肿瘤微环境中的供体特异性空间组织——同一癌种不同患者之间的niche组成差异被清晰地表征为信号通路活动模式的差异，而非简单的细胞类型比例差异。

空间参考映射。 这是NicheCompass独有的能力：将新的query数据集映射到已有参考图谱上，自动识别新数据中出现的新niche并对比信号通路的差异。在临床场景中，这意味着一块新切的肿瘤切片可以直接跟标准参考图谱对比，找出异常的信号活动模式。

跨技术整合。 10x Visium和MERFISH两种完全不同的空间技术产生的数据可以在NicheCompass的embedding空间中对齐，验证了信号程序层面（而非基因表达层面）的跨技术一致性。

840万细胞全脑空间图谱。 构建了包含840万个细胞的全鼠脑空间图谱，证明了方法的可扩展性。

⚠️ 局限与展望

第一，对先验知识库的依赖。 Prior程序的覆盖范围和质量直接受限于CellChat/NicheNet/OmniPath等数据库。De novo程序部分缓解了这个问题，但对于数据库完全未覆盖的新型信号通路，模型可能无法捕捉。

第二，计算资源要求。 840万细胞的图谱虽然证明了可扩展性，但GNN在大规模图上的训练和推理仍然需要显著的GPU资源，对于普通实验室可能存在门槛。

第三，Lotfollahi-lab的方法谱系整合。 NicheCompass、scGen、CPA、scArches同出一门，但目前各方法之间尚未形成统一框架。将扰动预测（scGen/CPA）与空间niche分析整合可能是下一个突破。

第四，静态快照的局限。 空间组学数据本质上是静态的，NicheCompass推断的信号对话是基于空间共定位的统计推断，而非真正的实时信号追踪。验证这些推断需要正交实验（如空间蛋白质组学、活体成像）。

📎 论文信息

📄 论文：Quantitative characterization of cell niches in spatially resolved omics data
📰 期刊：Nature Genetics, volume 57, pages 897–909 (2025)
📅 发表：2025年3月18日（Open Access）
🔗 链接：https://doi.org/10.1038/s41588-025-02120-6
💻 代码：https://github.com/Lotfollahi-lab/nichecompass（PyPI: nichecompass, 115⭐）
📖 文档：https://nichecompass.readthedocs.io/
👥 团队：Sebastian Birk, Irene Bonafonte-Pardàs, ..., Mohammad Lotfollahi — Wellcome Sanger Institute / Cambridge; Fabian J. Theis — Helmholtz Munich; Carlos Talavera-López — Wurzburg
📊 影响力：61 citations | 70k accesses | 127 Altmetric

Publication

Quantitative characterization of cell niches in spatially resolved omics data

Links

📄 Read Paper 💻 GitHub

Specifications

ArchitectureGraph Neural Network (PyG), spatial neighborhood graph + signal-program-aware VAE, 3 gene program types (prior/de novo), linear masked decoders for interpretability
ModalitySpatial