← Back to scModels Foundation Model

scTab

Felix Fischer, David S. Fischer, Roman Mukhin, Andrey Isaev, Evan Biederstedt, Alexandra-Chloé Villani, Fabian J. Theis · 2024-08-04 · Nature Communications

TabNet架构+特征注意力的跨组织细胞注释模型，2200万细胞/56组织/164细胞类型，宏观F1=0.83超越线性模型及scGPT，首次系统验证单细胞细胞注释的scaling law。

Overview

📄 第27期 | scTab：跨组织单细胞注释模型的规模化之路

当深度学习模型第一次在2200万个细胞、56种人体组织上证明：非线性模型确实比线性模型更好——而且数据越多、模型越大，性能越好。

🔬 为什么这篇文章重要？

细胞类型注释是单细胞转录组学中最核心的分析步骤之一。生物学研究者通常需要查阅标志基因文献、手动比对marker基因表达，才能给每个细胞cluster贴上"T细胞""巨噬细胞"这样的标签。这个过程耗时、主观，且难以标准化。

此前虽然有不少自动化工具（CellTypist、SingleR等），但它们大多基于线性模型，且只在单一组织上训练。一个关键问题长期悬而未决：当我们把数百个跨组织数据集合并在一起时，神经网络能否比简单的逻辑回归做得更好？ 换句话说，跨组织细胞分类这个任务的复杂度，是否已经达到了需要"深度学习"的临界点？

2024年8月发表在Nature Communications上的scTab，用一场教科书级别的规模化实验回答了这个问题。这篇来自Helmholtz Munich的Fabian Theis团队的工作，不仅构建了一个跨56种人体组织、覆盖164种细胞类型的分类模型，更系统性地展示了深度学习在单细胞领域的"scaling law"——性能随数据规模和模型规模同步提升。

🧠 核心创新：scTab是怎么工作的？

scTab有三个核心设计，环环相扣。

1. 架构选择：为什么不用Transformer？

一个有趣的设计决策是：scTab刻意没有使用当时热门的Transformer架构（如scGPT和Geneformer）。研究者的理由是：基因表达谱是无序的表格数据，基因之间不存在像文本token那样的序列依赖关系。强行用Transformer做自注意力，不仅浪费计算，还引入了不必要的归纳偏置。

因此，scTab选择了TabNet——一种专门为表格数据设计的深度学习架构——并做了三项关键适配：

组件	原始TabNet	scTab改造
输入层	Batch Normalization	为scRNA-seq定制：size factor归一化至10,000 + log1p变换
特征注意力	通用feature attention	让模型自动聚焦"哪些基因对分类更重要"
计算效率	多层feature/attention block	精简block数量（profiling后发现冗余），加速收敛

scTab的feature attention机制尤其聪明：单细胞数据中并非所有基因都携带等量信息，有些基因在不同cell type间差异巨大（marker genes），有些则表达稳定（housekeeping）。Feature attention让模型自动学会分配注意力给信息量更高的基因，而不是对所有基因一视同仁。

2. 数据增强：模拟"换个捐赠者"的细胞

深度学习模型容易过拟合，而单细胞领域此前几乎没有成熟的数据增强策略。scTab提出了一种语义保持的增强方法：预计算同一细胞类型在不同捐赠者间的平均基因表达差异向量（augmentation vector），然后在训练时随机采样并叠加到原始表达向量上。

效果是直观的：模型看到了"同一个T细胞如果在不同捐赠者体内会是什么样"，从而学会忽略捐赠者特异性的噪声，聚焦真正的细胞类型信号。实验结果显示，加入数据增强后，验证集macro F1-score从0.7755提升到0.7841，交叉熵损失从0.797降至0.659（p=0.0039）。

3. 缩放定律：数据多样性与模型大小同样重要

scTab做了两组经典的缩放实验：

细胞数缩放（cell-based subsampling）：固定生物多样性，单纯增加细胞数 → 性能提升有限
捐赠者缩放（donor-based subsampling）：增加捐赠者数量，从而增加生物多样性 → 性能持续提升

结论清晰：批量多样性比原始细胞数更重要。这给社区一个明确信号——与其收集更多同质化的细胞，不如纳入更多不同捐赠者、不同组织的样本。

模型大小的缩放同样显著：从170万参数的最小模型到1620万参数的最大模型，macro F1从0.7864提升到0.8323。

📊 关键实验结果

在2200万细胞、164种细胞类型的基准测试上，scTab全面超越了各类基线：

模型	macro F1-score	备注
CellTypist（线性）	0.7304	子采样至150万细胞（内存限制）
优化线性模型	0.7848	全量训练数据
MLP（多层感知机）	0.7971	+ 数据增强
XGBoost	0.8127	—
scGPT（零样本）	0.7301	仅使用embedding+逻辑回归
scGPT（微调）	0.749	在scTab训练数据上微调
CIForm（Transformer）	0.766	子采样至75万细胞（内存限制）
scTab	0.8295	+ 数据增强

最值得关注的是细粒度亚型区分能力：scTab在区分T细胞亚型（CD4+、CD8+、调节性T细胞等）时优势尤为明显，而在粗粒度的"是不是免疫细胞"上，与线性模型差距不大。这意味着随着Cell Ontology和训练数据标注精度的提升，scTab的优势会进一步放大。

⚠️ 局限与展望

标注粒度的天花板：所有监督学习模型的性能受限于训练数据的标注质量。CELLxGENE数据中，不同研究团队的标注粒度参差不齐——有的标到"B细胞"，有的标到"naive B细胞"。这不是模型架构能解决的问题，而是需要社区共同推进数据策展。
技术平台的限制：当前scTab仅包含10X Genomics平台的数据。扩展到其他测序技术（Smart-seq2、Parse Biosciences等）将使模型更具普适性。
罕见细胞类型：细胞数少于5000或出现在少于30个捐赠者中的稀有类型被过滤掉了。这些恰好是生物学最关心的细胞群。
Cell Ontology仍在演进：细胞类型之间的关系定义尚未完全确定，这会影响评估指标的有效性。

Theis团队明确指出：scTab的价值不在于"发现新细胞类型"，而在于提供上下文相关的预测建议，供生物学家进一步验证。这是工具服务于科学的正确姿态。

📎 论文信息

📄 论文: scTab: Scaling cross-tissue single-cell annotation models
🔗 链接: https://doi.org/10.1038/s41467-024-51059-5
💻 代码: https://github.com/theislab/scTab
👥 团队: Felix Fischer, David S. Fischer, Roman Mukhin, Andrey Isaev, Evan Biederstedt, Alexandra-Chloé Villani & Fabian J. Theis
🏛️ 机构: Helmholtz Munich, Technical University of Munich, Harvard Medical School, Broad Institute of MIT and Harvard, MGH
📊 影响力: 58次引用 | 27,000次访问 | GitHub 65 stars
📅 发表: Nature Communications, 2024年8月4日

Publication

scTab: Scaling cross-tissue single-cell annotation models

Links

📄 Read Paper 💻 GitHub

Specifications

ArchitectureTabNet with feature attention (tabular deep learning), adapted for scRNA-seq with size factor normalization + log1p transform; data augmentation via donor-difference vectors; deep ensemble uncertainty quantification
ModalityscRNA-seq