← Back to scModels Foundation Model

scArches

Mohammad Lotfollahi, Mohsen Naghipourfar, Malte D. Luecken, Matin Khajavi, Maren Buttner, Marco Wagenstetter, Ziga Avsec, Adam Gayoso, Nir Yosef, Marta Interlandi, Sergei Rybakov, Alexander V. Misharin, Fabian J. Theis · 2022-01-01 · Nature Biotechnology (2022)

架构手术（architectural surgery）迁移学习策略：只微调adaptor新节点，参数量比全量整合少4-5个数量级，速度提升5-8倍，支持去中心化迭代图谱更新、跨模态蛋白填补、COVID-19疾病状态保留

Overview

📄 第25期 | Mapping Single-Cell Data to Reference Atlases by Transfer Learning：当迁移学习遇见图谱时代的单细胞

scArches 引入一种名为"架构手术"的迁移学习策略，让研究者无需共享原始数据、无需从头重跑整个整合流程，就能将新测序数据映射到已建好的参考图谱上。训练参数量比全量整合少四个数量级，速度却快了五到八倍——在单细胞大模型日趋"军备竞赛"的当下，这篇 2021 年的论文提出的工程范式反而显得更有先见之明。

🔬 为什么这篇文章重要？

单细胞测序正在大规模"造地图"。从 2018 年的 Tabula Muris（小鼠 20 个器官的单细胞转录组）到 Human Cell Atlas 这样的全球协作项目，参考图谱已经囊括了数百万个细胞，覆盖不同组织、器官、发育阶段和疾病条件。理论上，任何研究者拿到一个新测序的样本，都应该能"对号入座"——把数据投到参考图谱上，自动完成细胞类型标注、跨条件比较和新状态发现。

但现实很残酷。不同实验室的样本之间存在批次效应（batch effect）——同一个细胞类型在不同测序平台、不同操作员手下的表达谱看起来像两种完全不同的细胞。传统的数据整合方法（如 Seurat、Harmony、scVI 从头训练）要求把所有原始数据汇聚到一起跑一遍完整流程，但这面临三重障碍：数据隐私法规限制了原始数据的跨机构共享；重跑百万级细胞的全量整合对计算资源是巨大消耗；最关键的是，如果你手里是一份疾病样本的数据而需要一个健康参考图谱，怎么办？你既不能把健康人的数据发给病人研究团队以保护隐私，也不能让疾病特异性信号被当成"批次效应"一股脑消除掉——否则 COVID-19 患者肺部的炎症巨噬细胞将与健康人的驻留巨噬细胞被强行混合，抹杀了关键的科学发现。

scArches 于 2021 年 8 月在线发表，2022 年正式刊登在 Nature Biotechnology，第一作者 Mohammad Lotfollahi（现为 Helmholtz Munich 独立 PI，同时也是 scGen、CPA、NicheCompass 等工具的作者）与 Fabian Theis 团队合作完成。这篇文章至今已有 617 次引用和超过 13 万次访问，是单细胞数据整合领域被引最高的论文之一。它的核心贡献不在于发明了一个新模型结构，而在于提出了一套让已有参考模型可以被下载、更新和复用的去中心化工程范式。"不共享数据，只共享模型权重"——这个简单的理念恰好回应了单细胞领域从"小作坊"走向"大型协作"的范式转变。

🧠 核心创新：架构手术（Architectural Surgery）是怎么工作的？

如果说把参考图谱模型想象成一栋已经建好的摩天大楼，传统的做法是：每次来了一个新住户，你就得把整栋楼拆了重新浇筑地基和钢结构。scArches 的做法是：在大楼外墙加一个"接入舱"（adaptor），只装修这一小块，整栋楼的承重结构纹丝不动。

三步走的工作流程

① 参考模型预训练：建造大楼

scArches 首先使用一个条件深度生成模型（通常是条件变分自编码器 CVAE 或其变体）在多个批次的参考数据集上进行训练。所谓"条件"，是指在训练时给模型一个额外的标签告诉它"这批数据来自哪个实验/测序平台/实验室"。训练收敛后，模型学到的潜空间（latent space）中，批次效应被显式地回归掉，剩下的是纯净的生物学差异。这个阶段的模型可以基于多种"基座"（base model）：

scVI：用零膨胀负二项分布建模基因表达，是无监督整合的事实标准
trVAE：在解码器端引入条件层，擅长条件生成和扰动建模
scANVI：在 scVI 的潜空间上叠加一个半监督分类器，适合需要细胞类型标注的场景
totalVI：联合建模 RNA 表达和表面蛋白丰度，实现多模态整合
CVAE (NB)：使用负二项分布的通用条件变分自编码器

训练完成后，研究者将模型权重上传到 Zenodo 等开放仓库。这一步只需做一次。

② 架构手术：加装接入舱

这是 scArches 命名的来源，也是技术含量最高的一步。在一个已经训练好的神经网络中，每一批数据对应一个输入神经元（one-hot 编码的条件标签）。训练好的网络有固定的输入维度——无法为一个新批次凭空增加一个输入位。scArches 的做法是在网络的输入层"动手术"：为新批次插入一个新的条件节点，初始化其对应的可训练权重向量，然后将整个网络的主体参数冻结。

这里有一个关键的设计决策：冻结多少层？论文系统性地比较了三种微调粒度：

策略	可训练参数	批次校正	生物保留	实际效果
仅 adaptor（推荐）	百~千级	✓	✓	最少参数，最好正则化
编码器+解码器输入层	万级	✓	✓	接近 adaptor 策略
全量微调	百万级	✓✓	✓	参数量暴增但效果持平

在小鼠大脑 25 万细胞的参考图谱上，仅微调 adaptor 就在 10 项评估指标（包括 kNN 图连通性、批次混合熵、调整兰德指数、归一化互信息等）上与全量微调持平，而可训练参数量减少了 10,000 至 100,000 倍（四个多数量级！）。这种"少即是多"的效果本质上是强烈的正则化：模型被强制不偏离参考潜空间太远，从而天然地抵抗了对查询数据的过拟合。

③ 适配器微调：住户入住

用户下载参考模型的权重和已有的 adaptor 集合（如果有），用自己的查询数据训练一个新的 adaptor，同时保持主体参数冻结。训练完成后，查询数据的每个细胞在参考潜空间中有了坐标，可以与参考细胞进行比较、分类和共同可视化。这个新训练的 adaptor 也可以上传回 Zenodo，供下一个用户使用——由此形成了一个去中心化、迭代更新的协作网络。

scArches 的巧思在于底座无关性：它不是某个特定模型的包装壳，而是一套兼容多种基座模型的通用"手术协议"。不论你用的是 scVI 做无监督整合、scANVI 做半监督标注、还是 totalVI 做多模态建模，架构手术的逻辑是统一的：冷冻主体、加节点、微调 adaptor。这种设计让 scArches 可以随着底层模型生态的进化而自然演进，不至于被一个过时的架构绑架。

📊 关键实验结果

跨组织零样本标注：准确率 84%。scArches 用一个宏大的实验展示了其可扩展性：以 Tabula Senis（包含 155 种细胞类型、23 个组织、5 个年龄段的 26 万细胞参考图谱）为参考，将 Tabula Muris 的 9 万细胞作为查询数据映射上去。这里的难度在于：参考和查询来自不同的测序平台（SMART-seq2 vs 10x Genomics），时间点不同（多个年龄段 vs 单个月龄），且查询数据中包含参考中不存在的组织（气管，9330 个细胞）。scArches trVAE 不仅将相同细胞类型正确对齐，还成功将气管细胞识别为"未知"——模型为它分配了高不确定性评分，诚实地说"我不知道这是什么"，而不是强行匹配到最相似的参考类型。

多模态知识的跨模态迁移。如果你有一个 CITE-seq 参考图谱（同时测了 RNA 和 25 种表面蛋白），但查询数据只有 scRNA-seq（纯 RNA），能怎么办？scArches + totalVI 的组合可以通过在参考潜空间中学习 RNA-蛋白的联合分布，在映射查询 RNA 数据后"推断"出每个细胞的表面蛋白丰度。实验结果清晰地区分出了 CD3+（T 细胞标记）、CD4+（辅助 T）、CD8+（细胞毒性 T）、CD19+（B 细胞）和 CD14+（单核细胞）等主要免疫群体，尽管查询数据本身从未测过任何蛋白。这在临床场景中极为实用——很多大型队列只有 RNA 数据，但研究者希望结合蛋白标记来精细分群。

疾病信号保留：COVID-19 的案例研究。这是论文中最有说服力的实验。参考图谱是健康人的骨髓、外周血和正常肺组织（共 154,723 个细胞），查询数据是 COVID-19 患者（轻症、中症、重症）的支气管肺泡灌洗液免疫细胞（62,469 个细胞）。成功的疾病-健康整合需要满足三个标准：

保留健康细胞状态的生物学差异 ✓
将两组的相同细胞类型正确对齐 ✓
保留仅在疾病中出现的特异细胞状态 ✓

scArches 在这三项上全部达标。关键发现：来自重症患者的单核细胞来源肺泡巨噬细胞（MoAMs，标记为 FABP4⁻C1Q⁺CCL2⁺）在潜空间中形成了一个独立群体，位于单核细胞和驻留巨噬细胞（TRAMs）之间——不仅没有被错误地混入参考巨噬细胞，还忠实地反映了它们的发育来源（从单核细胞动员而来）。中度患者的 TRAMs 虽然与健康 TRAMs 整合，但因为高表达干扰素响应基因（IFI27、CXCL10）而形成了独立子群，揭示了一个在参考图谱中不存在的激活状态。类似地，COVID-19 患者的细胞毒性 CD8+ T 细胞因为 ISG15、MX1 等干扰素响应基因的高表达而与参考 T 细胞分离，呼应了当时最新的临床发现。

速度和可扩展性。在 scVI 和 scANVI 基座上，scArches 可以在不到 1 小时内完成 100 万个查询细胞的映射，相比从头整合快 5-8 倍。更重要的是，这种速度优势随着参考图谱规模的增大而增加——因为参考训练是一次性成本，而每次查询映射只需要微调几百到几千个参数。

⚠️ 局限与展望

scArches 的优雅之处也是其局限所在。它是一种数据整合策略和协作框架，而非一种新的模型架构——映射质量严重依赖于基座模型的选择和参考数据的质量。论文坦承，当参考细胞占比低于 50% 时，性能显著下降；稀有细胞类型（含量 <0.5%）的映射仍存在与相邻细胞类型混合的风险。

另一个结构性局限是，scArches 目前版本只能往训练好的参考模型上"粘"新批次，但不能重新训练或大幅修改参考模型的底层表示。如果参考模型的训练数据存在系统性偏差（比如参考图谱中全是年轻小鼠、缺少老年个体的细胞状态），查询映射本身无法纠正这个偏差。

从历史视角看，scArches 于 2021 年发表时，单细胞基础模型（scGPT、Geneformer、scFoundation、UCE 等）尚未大规模涌现。如今这些大规模预训练模型天然提供了"通用参考嵌入空间"，scArches 式的迁移学习框架是否能与它们结合，形成一个"大模型预训练 + 架构手术微调"的新范式？Isl lab 团队后续推出的 CPA（组合扰动自编码器，预测未见过药物组合的单细胞响应）和 NicheCompass（图神经网络驱动的空间微环境建模）正是沿着这条思路的自然演进——前者用 scArches 式的迁移学习做跨条件的扰动预测，后者用可解释的嵌入维度直接对应信号通路活性。

更长远地看，随着空间转录组学和多组学数据的爆炸式增长，scArches 提出的"不共享数据、只共享模型"的去中心化协作范式只会越来越重要。它解决的不只是一个技术问题，更是一个科研基础设施问题——正如开源代码改变了软件开发，开放的预训练模型权重可能正在改变单细胞生物学的研究方式。

📎 论文信息

📄 论文: Mapping single-cell data to reference atlases by transfer learning
🔗 链接: https://doi.org/10.1038/s41587-021-01001-7 (Open Access)
💻 代码: https://github.com/theislab/scarches (⭐ 404 · 🍴 70 · PyPI 可安装)
👥 团队: Mohammad Lotfollahi, Mohsen Naghipourfar, Malte D. Luecken, Matin Khajavi, Maren Büttner, Marco Wagenstetter, Žiga Avsec, Adam Gayoso, Nir Yosef, Marta Interlandi, Sergei Rybakov, Alexander V. Misharin & Fabian J. Theis
🏛️ 机构: Helmholtz Center Munich / Technical University of Munich / UC Berkeley / Northwestern University
📊 影响力: 617 引用 · 130,000+ 访问 · 324 Altmetric · Open Access
📖 发表: Nature Biotechnology, 2022, 40:121–130

Publication

Mapping single-cell data to reference atlases by transfer learning

Links

📄 Read Paper 💻 GitHub

Specifications

ArchitectureConditional VAE transfer learning with architectural surgery; base models include scVI, trVAE, scANVI, totalVI, and NB-CVAE; adaptor-based fine-tuning with frozen backbone weights
ModalityscRNA-seq