scGen
首个用VAE+潜空间向量算术预测单细胞扰动响应的生成模型。2019年Nature Methods,690引用。跨细胞类型/物种外推扰动效应,Theis实验室单细胞AI版图奠基之作。
Overview
📄 第29期 | scGen predicts single-cell perturbation responses:第一个教会AI"预测未知"的单细胞模型
2019年,一个来自慕尼黑的团队用变分自编码器做了一件此前无人做到的事——在从未见过的细胞类型上,准确预测基因扰动后的表达变化。这篇Nature Methods论文开启了单细胞领域"in silico筛选"的先河。

▲ 图1:scGen工作流程。在潜空间学习"扰动向量",将其应用到未见过的细胞类型上,解码回基因表达空间。
🔬 为什么这篇文章重要?
做生物实验的人都有一个痛点:想测试某个药物对十种细胞类型的影响,但只做了其中五种。剩下五种怎么办?再做一轮实验——花钱、花时间、花生命。
2019年之前,计算生物学家对这个问题束手无策。统计模型需要配对样本,机器学习模型只能内插不能外推。没有人证明过,一个模型可以在训练时没见过某种细胞类型的扰动状态,却能准确预测它的响应。
scGen 是第一篇证明这件事可行的论文。它用一个看似简单的架构——变分自编码器加潜空间向量算术——跨越了细胞类型、研究批次乃至物种的边界。690次引用,6万次访问,它不仅是Theis实验室单细胞AI版图的奠基之作(后续的scArches、CPA都由此展开),更定义了一个新范式:预测生物学。
🧠 核心创新:scGen 是怎么工作的?
scGen 的核心思路可以用一句话概括:在潜空间里做加减法。
三步走的预测流程
① 编码:把所有细胞压进同一个潜空间
scGen 使用变分自编码器(VAE)将高维基因表达数据(约7000个高变基因)压缩到低维潜空间。编码器学会将每个细胞的基因表达谱映射为一个潜向量 z,解码器负责从 z 重建原始表达谱。
这里的关键是:VAE不是简单压缩,它学的是一个平滑的、可插值的潜空间——相似的细胞在潜空间中靠近,不同细胞类型形成不同的"区域",而沿着潜空间的某些方向移动,对应着有生物学意义的变化。
② 学习扰动向量 Δ:扰动 = 潜空间中的一次"平移"
scGen 的第二个关键组件是"扰动向量"。假设你有对照细胞(control)和被IFN-β刺激过的细胞(stimulated),把两类细胞分别编码到潜空间后,计算它们的平均潜向量之差:
Δ_stim = mean(z_stimulated) - mean(z_control)
这个 Δ 就是"IFN-β刺激"这件事在潜空间中的几何表示——一个固定方向和长度的向量。
③ 预测:z_new = z_control + Δ
最精彩的部分来了:如果你有一个从未在刺激条件下见过的细胞类型(比如单核细胞只在对照条件下被你观测过),只需:
- 把对照状态下的单核细胞编码为 z_mono_control
- 加上扰动向量:z_mono_predicted = z_mono_control + Δ_stim
- 解码回基因表达空间
你就得到了单核细胞在被IFN-β刺激后理论上应该呈现的表达谱。
scGen vs 同期方法
| 方法 | 能否预测未见的细胞类型? | 能否跨物种? | 核心机制 |
|---|---|---|---|
| 传统差异表达分析 | ❌ 只能分析已有数据 | ❌ | 统计检验 |
| 机器学习分类器 | ❌ 只能内插 | ❌ | 监督学习 |
| 机理模型(ODE等) | ⚠️ 需要完整的通路知识 | ❌ | 微分方程 |
| scGen | ✅ 潜空间外推 | ✅ | VAE + 向量算术 |
为什么潜空间向量算术有效?
这不是魔法,而是VAE的正则化性质的直接结果。VAE的训练目标包含两部分:重建损失(让解码回的数据像真的)和KL散度损失(让潜空间接近标准正态分布)。后者强制潜空间连续且光滑——潜空间中相近的点解码出相似的表达谱,且两点之间的线性插值解码出合理的中间状态。
当一个生物学扰动在潜空间中表现为一个大致一致的平移方向时(即同一扰动对不同细胞类型的潜空间影响方向相似),向量算术就自然成立。scGen的实验结果证明,至少在IFN-β刺激、LPS处理、沙门氏菌感染等场景下,这个假设确实成立。
📊 关键实验结果
scGen 在三个递进难度的任务上验证了它的能力:
任务一:跨细胞类型预测。 在PBMC数据集上,用IFN-β刺激的CD4 T和CD8 T细胞训练模型学习扰动向量 Δ_stim,然后预测单核细胞、B细胞、NK细胞、树突状细胞的刺激响应。预测结果与真实刺激数据高度吻合——模型从未见过这些细胞类型的刺激状态,却准确推断出了哪些基因会上调或下调。
任务二:跨物种预测。 用人类细胞的LPS响应数据训练,预测小鼠细胞的LPS响应。这比跨细胞类型更难——不同物种的基因集合不同(同源基因对应关系),基线表达水平也不同。scGen成功捕获了物种间保守的响应模式。
任务三:跨研究/批次泛化。 scGen还展示了批次校正能力——可以将来自不同实验室、不同测序平台的数据整合到统一的潜空间中,同时保留生物学差异(扰动效应),去除技术噪声。

▲ 图2:跨细胞类型扰动预测。模型在CD4 T和CD8 T细胞的IFN-β刺激数据上训练,预测单核细胞等未见过类型的响应。
⚠️ 局限与展望
scGen 的开创性毋庸置疑,但它也有清晰的边界:
-
线性潜空间假设。 向量算术成立的前提是扰动在潜空间中表现为均匀的平移。对于复杂的非线性扰动(如多基因组合敲除),这个假设可能不成立。这一点在后续的CPA(组合扰动自编码器)中得到了改进。
-
需要配对数据。 scGen要求训练集中至少有一些细胞类型同时具有对照和扰动两种状态,才能学习扰动向量。纯零样本场景(没有任何扰动数据)无法处理。
-
规模限制。 2019年的scGen处理的是数千到数万个细胞,相比今天动辄百万细胞的基础模型,它的表征能力有限。
然而,scGen真正的遗产不在于模型本身,而在于它证明了一个重要的命题:潜空间中的向量算术可以捕捉生物学扰动的本质。这一洞见深刻影响了后续工作——scArches将迁移学习引入VAE、CPA将向量算术扩展为非线性组合、Cell-JEPA则用联合嵌入预测架构重新诠释了同一思想。从"能不能"到"怎么做得更好",scGen完成了最艰难的第一步。
📎 论文信息
- 📄 论文: scGen predicts single-cell perturbation responses
- 🔗 链接: https://doi.org/10.1038/s41592-019-0494-8
- 💻 代码: https://github.com/theislab/scgen
- 👥 团队: Mohammad Lotfollahi, F. Alexander Wolf & Fabian J. Theis | Helmholtz Munich / TU Munich
- 📊 影响力: 690 Citations | 60k Accesses | Nature Methods (2019)
- 📅 发表日期: 2019年7月29日
Publication
scGen predicts single-cell perturbation responses