← Back to scModels Foundation Model

scTab

scTab
Felix Fischer, David S. Fischer, Roman Mukhin, Andrey Isaev, Evan Biederstedt, Alexandra-Chloé Villani, Fabian J. Theis · 2024-08-04 · Nature Communications

TabNet架构+特征注意力的跨组织细胞注释模型,2200万细胞/56组织/164细胞类型,宏观F1=0.83超越线性模型及scGPT,首次系统验证单细胞细胞注释的scaling law。

Overview

📄 第27期 | scTab:跨组织单细胞注释模型的规模化之路

当深度学习模型第一次在2200万个细胞、56种人体组织上证明:非线性模型确实比线性模型更好——而且数据越多、模型越大,性能越好。


🔬 为什么这篇文章重要?

细胞类型注释是单细胞转录组学中最核心的分析步骤之一。生物学研究者通常需要查阅标志基因文献、手动比对marker基因表达,才能给每个细胞cluster贴上"T细胞""巨噬细胞"这样的标签。这个过程耗时、主观,且难以标准化。

此前虽然有不少自动化工具(CellTypist、SingleR等),但它们大多基于线性模型,且只在单一组织上训练。一个关键问题长期悬而未决:当我们把数百个跨组织数据集合并在一起时,神经网络能否比简单的逻辑回归做得更好? 换句话说,跨组织细胞分类这个任务的复杂度,是否已经达到了需要"深度学习"的临界点?

2024年8月发表在Nature Communications上的scTab,用一场教科书级别的规模化实验回答了这个问题。这篇来自Helmholtz Munich的Fabian Theis团队的工作,不仅构建了一个跨56种人体组织、覆盖164种细胞类型的分类模型,更系统性地展示了深度学习在单细胞领域的"scaling law"——性能随数据规模和模型规模同步提升。


🧠 核心创新:scTab是怎么工作的?

scTab有三个核心设计,环环相扣。

1. 架构选择:为什么不用Transformer?

一个有趣的设计决策是:scTab刻意没有使用当时热门的Transformer架构(如scGPT和Geneformer)。研究者的理由是:基因表达谱是无序的表格数据,基因之间不存在像文本token那样的序列依赖关系。强行用Transformer做自注意力,不仅浪费计算,还引入了不必要的归纳偏置。

因此,scTab选择了TabNet——一种专门为表格数据设计的深度学习架构——并做了三项关键适配:

组件 原始TabNet scTab改造
输入层 Batch Normalization 为scRNA-seq定制:size factor归一化至10,000 + log1p变换
特征注意力 通用feature attention 让模型自动聚焦"哪些基因对分类更重要"
计算效率 多层feature/attention block 精简block数量(profiling后发现冗余),加速收敛

scTab的feature attention机制尤其聪明:单细胞数据中并非所有基因都携带等量信息,有些基因在不同cell type间差异巨大(marker genes),有些则表达稳定(housekeeping)。Feature attention让模型自动学会分配注意力给信息量更高的基因,而不是对所有基因一视同仁。

2. 数据增强:模拟"换个捐赠者"的细胞

深度学习模型容易过拟合,而单细胞领域此前几乎没有成熟的数据增强策略。scTab提出了一种语义保持的增强方法:预计算同一细胞类型在不同捐赠者间的平均基因表达差异向量(augmentation vector),然后在训练时随机采样并叠加到原始表达向量上。

效果是直观的:模型看到了"同一个T细胞如果在不同捐赠者体内会是什么样",从而学会忽略捐赠者特异性的噪声,聚焦真正的细胞类型信号。实验结果显示,加入数据增强后,验证集macro F1-score从0.7755提升到0.7841,交叉熵损失从0.797降至0.659(p=0.0039)。

3. 缩放定律:数据多样性与模型大小同样重要

scTab做了两组经典的缩放实验:

  • 细胞数缩放(cell-based subsampling):固定生物多样性,单纯增加细胞数 → 性能提升有限
  • 捐赠者缩放(donor-based subsampling):增加捐赠者数量,从而增加生物多样性 → 性能持续提升

结论清晰:批量多样性比原始细胞数更重要。这给社区一个明确信号——与其收集更多同质化的细胞,不如纳入更多不同捐赠者、不同组织的样本。

模型大小的缩放同样显著:从170万参数的最小模型到1620万参数的最大模型,macro F1从0.7864提升到0.8323。


📊 关键实验结果

在2200万细胞、164种细胞类型的基准测试上,scTab全面超越了各类基线:

模型 macro F1-score 备注
CellTypist(线性) 0.7304 子采样至150万细胞(内存限制)
优化线性模型 0.7848 全量训练数据
MLP(多层感知机) 0.7971 + 数据增强
XGBoost 0.8127
scGPT(零样本) 0.7301 仅使用embedding+逻辑回归
scGPT(微调) 0.749 在scTab训练数据上微调
CIForm(Transformer) 0.766 子采样至75万细胞(内存限制)
scTab 0.8295 + 数据增强

最值得关注的是细粒度亚型区分能力:scTab在区分T细胞亚型(CD4+、CD8+、调节性T细胞等)时优势尤为明显,而在粗粒度的"是不是免疫细胞"上,与线性模型差距不大。这意味着随着Cell Ontology和训练数据标注精度的提升,scTab的优势会进一步放大


⚠️ 局限与展望

  • 标注粒度的天花板:所有监督学习模型的性能受限于训练数据的标注质量。CELLxGENE数据中,不同研究团队的标注粒度参差不齐——有的标到"B细胞",有的标到"naive B细胞"。这不是模型架构能解决的问题,而是需要社区共同推进数据策展。
  • 技术平台的限制:当前scTab仅包含10X Genomics平台的数据。扩展到其他测序技术(Smart-seq2、Parse Biosciences等)将使模型更具普适性。
  • 罕见细胞类型:细胞数少于5000或出现在少于30个捐赠者中的稀有类型被过滤掉了。这些恰好是生物学最关心的细胞群。
  • Cell Ontology仍在演进:细胞类型之间的关系定义尚未完全确定,这会影响评估指标的有效性。

Theis团队明确指出:scTab的价值不在于"发现新细胞类型",而在于提供上下文相关的预测建议,供生物学家进一步验证。这是工具服务于科学的正确姿态。


📎 论文信息

  • 📄 论文: scTab: Scaling cross-tissue single-cell annotation models
  • 🔗 链接: https://doi.org/10.1038/s41467-024-51059-5
  • 💻 代码: https://github.com/theislab/scTab
  • 👥 团队: Felix Fischer, David S. Fischer, Roman Mukhin, Andrey Isaev, Evan Biederstedt, Alexandra-Chloé Villani & Fabian J. Theis
  • 🏛️ 机构: Helmholtz Munich, Technical University of Munich, Harvard Medical School, Broad Institute of MIT and Harvard, MGH
  • 📊 影响力: 58次引用 | 27,000次访问 | GitHub 65 stars
  • 📅 发表: Nature Communications, 2024年8月4日

Publication

scTab: Scaling cross-tissue single-cell annotation models

Links

📄 Read Paper 💻 GitHub

Specifications

  • ArchitectureTabNet with feature attention (tabular deep learning), adapted for scRNA-seq with size factor normalization + log1p transform; data augmentation via donor-difference vectors; deep ensemble uncertainty quantification
  • ModalityscRNA-seq