细胞里的"总开关"与"电路图"：单细胞大模型正在解码基因的调控密码

2026-05-27 ·

基因调控网络推断、注意力机制解析调控关系

Overview

WeChat科普推文第22期 · 2026-05-27
话题: 基因调控网络推断、注意力机制解析调控关系

🔬 为什么这篇文章重要？

空间转录组学让我们看到了细胞在组织中的位置，但"看到了"不等于"看懂了"。位置相邻的细胞不一定是同一个功能单元——一个T细胞紧挨着一个癌细胞，它们是"邻居"，但它们显然不在同一个niche（微环境）里。

现有方法——如SpatialPCA、BayesSpace、Banjo——的逻辑基本一致：根据空间位置和基因表达的相似性把细胞聚成一堆，然后说"这就是一个niche"。这种纯几何+统计的做法完全忽略了一个生物学核心事实：niche的本质是细胞之间的信号对话。T细胞和癌细胞的空间关系是"对抗"，星形胶质细胞和神经元的关系是"支持"，成纤维细胞和免疫细胞可能是"招募"——这些关系无法从纯位置信息中读出。

NicheCompass的核心洞见是：niche的定义应该从"谁挨着谁"升级为"谁在对谁说什么"。它用图神经网络（GNN）构建空间邻接图，但关键创新在于——模型的每一个embedding维度被强制对应一条具体的信号通路活动（如Wnt、Notch、TGF-β），模型不仅要重建自己的基因表达，还要预测邻居的表达模式。这迫使embedding在训练过程中学会编码"我正在接收/发送什么信号"。

这种范式转换的意义在于：niche第一次可以被定量表征——不再是"cluster 5"，而是"Wnt通路活动高 + Notch通路活动低 + TGF-β通路活动中等的细胞群"。

🧠 核心创新：信号感知的图自编码器

架构：从空间邻居图到信号通路embedding

NicheCompass的工作流程分四步：

① 空间邻接图构建。 输入是细胞/spot水平的空间组学数据（基因表达，可选加染色质可及性）。根据二维坐标构建图——节点是细胞，边是空间邻近关系。同时输入协变量（如样本编号）用于批次校正。

② GNN编码器。 基于PyG（PyTorch Geometric）的图神经网络同时编码每个节点自身特征和其邻居特征。协变量嵌入用于移除批次效应——这一点继承了Lotfollahi-lab之前scArches的设计智慧。

③ 信号程序解码。 这是NicheCompass最独特的设计。基因程序分为三类：

Prior程序：来自先验知识库（CellChat、NicheNet、OmniPath等数据库API），覆盖细胞-细胞通讯、转录调控、组合交互三类
De novo程序：当先验知识库不完整时（如缺少形态素梯度信息），模型自动从数据中发现空间共表达基因模块

每个程序被拆成两个组件：
- 邻居组件（neighborhood）：细胞间互作的信号源方基因（如配体Wnt3a）
- 自身组件（self）：信号接收方基因（如受体Frizzled）和胞内互作基因

解码器是线性+掩码结构——embedding的每个维度被一个二进制掩码强制只对应一个特定程序的基因。这意味着可以直接从embedding中读出："这个细胞Wnt信号接收强度高，Notch发送强度低"。

④ 双重重建损失。 图解码器重建邻接关系（edge reconstruction loss），组学解码器同时重建自身和邻居的基因表达——迫使模型学会预测"我旁边的细胞在干什么"。

与现有方法的本质区别

维度	传统方法	NicheCompass
Niche定义	空间+表达聚类	信号通路活动定量表征
细胞互作	不建模或事后推断	显式嵌入GNN训练过程
可解释性	"这个cluster是什么"	"Wnt ↑ / Notch ↓ / TGF-β ↑"
跨技术	难	支持（不同测序平台整合）
多模态	不支持	基因表达+染色质可及性
参考映射	不支持	支持（query→reference mapping）
规模	最多数十万	840万细胞（全脑图谱）

📊 关键实验结果

小鼠器官发生。 在E9.5-E13.5小鼠胚胎数据上，NicheCompass揭示了高度解析的功能niche层级结构，且niche特异基因程序在不同胚胎间高度一致。Benchmark显示在niche恢复、基因程序推断和批次效应去除上均超越已有方法。

人类肿瘤微环境。 在乳腺癌和肺癌空间数据上，NicheCompass成功解码了肿瘤微环境中的供体特异性空间组织——同一癌种不同患者之间的niche组成差异被清晰地表征为信号通路活动模式的差异，而非简单的细胞类型比例差异。

空间参考映射。 这是NicheCompass独有的能力：将新的query数据集映射到已有参考图谱上，自动识别新数据中出现的新niche并对比信号通路的差异。在临床场景中，这意味着一块新切的肿瘤切片可以直接跟标准参考图谱对比，找出异常的信号活动模式。

跨技术整合。 10x Visium和MERFISH两种完全不同的空间技术产生的数据可以在NicheCompass的embedding空间中对齐，验证了信号程序层面（而非基因表达层面）的跨技术一致性。

840万细胞全脑空间图谱。 构建了包含840万个细胞的全鼠脑空间图谱，证明了方法的可扩展性。

⚠️ 局限与展望

第一，对先验知识库的依赖。 Prior程序的覆盖范围和质量直接受限于CellChat/NicheNet/OmniPath等数据库。De novo程序部分缓解了这个问题，但对于数据库完全未覆盖的新型信号通路，模型可能无法捕捉。

第二，计算资源要求。 840万细胞的图谱虽然证明了可扩展性，但GNN在大规模图上的训练和推理仍然需要显著的GPU资源，对于普通实验室可能存在门槛。

第三，Lotfollahi-lab的方法谱系整合。 NicheCompass、scGen、CPA、scArches同出一门，但目前各方法之间尚未形成统一框架。将扰动预测（scGen/CPA）与空间niche分析整合可能是下一个突破。

第四，静态快照的局限。 空间组学数据本质上是静态的，NicheCompass推断的信号对话是基于空间共定位的统计推断，而非真正的实时信号追踪。验证这些推断需要正交实验（如空间蛋白质组学、活体成像）。

📎 论文信息

📄 论文：Quantitative characterization of cell niches in spatially resolved omics data
📰 期刊：Nature Genetics, volume 57, pages 897–909 (2025)
📅 发表：2025年3月18日（Open Access）
🔗 链接：https://doi.org/10.1038/s41588-025-02120-6
💻 代码：https://github.com/Lotfollahi-lab/nichecompass（PyPI: nichecompass, 115⭐）
📖 文档：https://nichecompass.readthedocs.io/
👥 团队：Sebastian Birk, Irene Bonafonte-Pardàs, ..., Mohammad Lotfollahi — Wellcome Sanger Institute / Cambridge; Fabian J. Theis — Helmholtz Munich; Carlos Talavera-López — Wurzburg
📊 影响力：61 citations | 70k accesses | 127 Altmetric