scLong
首个十亿参数全基因组单细胞基础模型:覆盖人类28,000个基因全自注意力+GO-GCN双路编码,48M细胞预训练,基因扰动/药物响应/GRN推断六任务全面超越Geneformer/scGPT
Overview
📄 第37期 | scLong: A Billion-Parameter Foundation Model for Capturing Long-Range Gene Context in Single-Cell Transcriptomics
十亿参数、全基因组建模:当单细胞基础模型不再只读"摘要",而是通读"全书"
现有单细胞基础模型普遍只建模几千个高表达基因——相当于只读了一本书的目录和前两章。scLong 用十亿参数和全基因组自注意力机制覆盖人类全部28,000个基因,首次让模型"通读全书",并在基因扰动响应预测、抗癌药物敏感性预测、基因调控网络推断等直接对接药物发现的核心任务上全面超越 Geneformer、scGPT 等现有方法。
🔬 为什么这篇文章重要?
单细胞 RNA 测序技术让我们能在单个细胞精度上测量基因的表达水平。过去五年间,以 Geneformer、scGPT、scBERT 为代表的基础模型显著提升了细胞类型注释、批次效应校正、基因网络推断等任务的性能,引用量动辄破千,成为计算生物学最活跃的前沿阵地之一。
但这些模型共享一个隐蔽的妥协——一个几乎所有从业者都知道但鲜少被公开讨论的事实:为了计算可行,它们只保留每个细胞中表达量最高的几千个基因。Geneformer 使用约 2,500 个基因,scGPT 使用约 3,000 个基因。这意味着人类基因组中超过 90% 的基因信息在模型训练开始前就被系统性丢弃了。
这个妥协的生物学代价是巨大的。单细胞转录组中,许多决定性基因恰恰是低表达的:转录因子往往以极低拷贝数存在,却掌控着整个基因调控网络的开关;信号受体、细胞因子、非编码 RNA 等也是典型低表达但高功能密度的分子。丢弃这些基因,就像分析一个国家的政治运作却只关注 GDP 前 500 强的企业——诚然它们很重要,但真正的决策发生在别处。
scLong 是第一个系统性地正面挑战这一妥协的单细胞基础模型。它的核心主张简洁而激进:全基因组自注意力。不是 2,000 个基因,不是 5,000 个基因,而是人类基因组全部约 28,000 个蛋白编码基因。为支撑这个雄心,它将参数量推至十亿级别(约 1B),使用 4,800 万细胞预训练,并引入 Gene Ontology 知识图谱作为先验知识注入。这种设计不仅是一种技术选择,更是一份关于"什么才是真正重要的单细胞信息"的立场声明。
🧠 核心创新:scLong 是怎么工作的?
问题的本质:基因上下文依赖的建模困境
理解 scLong 需要先理解它要解决的问题。基因从不单独行动。基因 A 的表达变化会影响基因 B 的功能,基因 C 和 D 同属一个信号通路,基因 E 的突变会让基因 F 的效应反转。这种基因间的上下文依赖是分子生物学的核心原理,但传统单细胞基础模型因为基因窗口过窄,系统性地切断了大量远距离的调控关系。
scLong 的解决方案可以分解为三个相互嵌套的设计决策:
| 设计维度 | Geneformer | scGPT | scBERT | scLong |
|---|---|---|---|---|
| 建模基因数 | ~2,500 | ~3,000 | ~2,500 | 28,000(全基因组) |
| 参数量级 | ~50M | ~50M | ~100M | ~1B(十亿级) |
| 预训练细胞 | 30M | 33M | 1M | 48M |
| 基因初始化 | 随机嵌入 | 随机嵌入 | 随机嵌入 | Gene2Vec 预训练 |
| 外部知识注入 | 无 | 无 | 无 | GO 知识图谱 × GCN |
| 注意力范围 | 局部(排序学习) | 局部(基因桶) | 局部(基因桶) | 全局(全基因组) |
| 核心架构 | 6层 Transformer | 12层 Transformer | 12层 Performer | Transformer + GO-GCN 双路融合 |
三步走的技术路线
① 基因嵌入初始化:Gene2Vec 赋予先验
scLong 不是从随机向量开始学习基因的表示。它使用预训练的 Gene2Vec 嵌入为每个基因提供初始值。Gene2Vec 从大规模基因共表达网络中学习——两个在大量实验中频繁共同上/下调的基因,其向量天然接近。这意味着模型在"预训练"开始前就已经掌握了基因之间的功能关联,相当于一个新生在入学前已经学会了基因世界的"基本词汇表"。
② 全基因组自注意力 + GO 知识图谱双路编码
这是 scLong 架构的核心,也是最值得细品的创新点。主路径是标准的 Transformer 自注意力,但自注意力的计算范围覆盖全部 28,000 个基因——任何一个基因(无论表达量高低)都可以直接与任何其他基因进行注意力交互。这理论上赋予了模型捕获远距离调控关系的能力:一个低表达转录因子可以与数百个下游靶基因建立直接的注意力连接,而这些连接在传统窄窗口模型中被结构性切断。
与此同时,并行的 GO-GCN 路径从 Gene Ontology 知识图谱中提取先验知识。GO 是人类生物学最系统化的知识库之一,以有向无环图的形式记录了基因之间的三类关系:分子功能(这个基因的蛋白做什么)、生物学过程(它参与什么通路)、细胞组分(它在细胞的哪个位置工作)。GCN 将这张图编码为每个基因节点的结构嵌入,然后在融合层与 Transformer 的上下文嵌入相加,实现"已有的生物学知识"与"数据驱动的表达模式"的联合建模。
预处理阶段:
48M 细胞 × 28,000 基因表达矩阵
│
├──→ Gene2Vec 初始化每个基因的起始向量
└──→ GO 知识图谱构建 GCN 图结构
预训练阶段(每步 forward pass):
基因表达向量
│
├──→ Transformer 全基因组自注意力
│ │
│ └──→ 上下文感知基因嵌入(数据驱动)
│
└──→ GO-GCN 图卷积
│
└──→ 功能结构感知基因嵌入(知识驱动)
│
└──→ 融合层 → scLong 最终表示
│
└──→ 遮罩基因预测(MLM式训练目标)
③ 预训练策略:遮罩基因预测 + 全基因上下文
预训练目标类似 BERT 的遮罩语言模型:随机遮盖部分基因的表达值,让模型根据未被遮盖的基因上下文以及 GO 知识来预测被遮盖的值。关键不同在于——因为自注意力覆盖全基因组,当遮盖一个低表达基因(如转录因子 FOXA2)时,模型可以利用远离它的高表达效应基因(如胰岛素 INS)的信息来辅助推断。这种跨基因层级的信息流动在窄窗口模型中不可能发生。
预训练代码已在 GitHub 开源。使用 4 块 GPU,梯度累积 200 步(等价于 batch size 200),初始学习率 5e-5,训练 30 个 epoch。数据来自 CELLxGENE 等公开数据库的 48M 细胞。
📊 关键实验结果
scLong 在六个下游任务上进行了系统评估,覆盖从分子机制到临床应用的不同尺度:
1. 基因扰动响应预测
在 Norman 等人的人类单基因扰动数据集上,scLong 预测 CRISPR 敲除后全转录组变化的能力全面超越 Geneformer 和 scGPT。关键指标包括 MSE(预测值与真实值的偏差)、Pearson 相关系数(预测方向一致性)和遗传相互作用(GI)分类精度。GI 分类是特别有挑战性的子任务:它要求模型判断"同时敲除两个基因的联合效应"是否不同于"分别敲除的效应之和"——这在药物组合设计中具有直接应用价值。scLong 在这一指标上的提升,印证了全基因组注意力对组合效应的建模优势。
2. 药物响应预测
在 GDSC(Genomics of Drug Sensitivity in Cancer)癌症药物敏感性数据库上,scLong 在多个癌种 × 药物组合上的预测精度超越了 DeepCDR、DeepDDS 等专门为此任务设计的模型。值得强调的是:这些专用模型的目标单一(只预测药物响应),而 scLong 是通用的单细胞预训练模型微调而来——通用的预训练表示能打败专用的任务模型,这本身就是全基因组建模价值的强有力的间接证据。
3. 基因调控网络推断
在 BEELINE 基准上,scLong 推断的 GRN 与 ChIP-seq 金标准实验数据的一致性显著高于现有方法。这在意料之中——调控网络推断天然需要全基因组视角,因为一个转录因子的靶基因可能分布在基因组的任何位置,窄窗口模型在原理上就处于劣势。
4. 零样本批次整合
无需任何微调,scLong 的嵌入可以直接对不同实验批次的细胞进行对齐,在 ASW(Average Silhouette Width)等批次校正指标上表现优异。这表明全基因组建模带来的嵌入质量提升具有跨任务的通用性。
关键洞察:scLong 不是在单一任务上"好一点点",而是在六个性质截然不同的任务上全面超越基线。这不仅仅是性能提升——更是一种验证:全基因组建模确实比选择性压缩保留了更多有用的生物学信息。
⚠️ 局限与展望
计算成本是最大现实障碍。十亿参数 × 28,000 基因的全自注意力意味着 O(n²) 的计算复杂度在 n=28,000 时极其昂贵。GitHub README 中的下游微调脚本都需要多 GPU 环境——4 块 NVIDIA GPU 是最低配置。对于大多数计算生物学实验室,这个门槛并不低。
预印本阶段的暂时性。本文目前仅发表于 bioRxiv(2024 年 11 月),尚未经过同行评议。部分性能声明——尤其是在药物响应预测上超越专用模型的结论——需要独立验证。引用数目前仅 5 次,尚处于学术界吸收消化阶段。
物种限制。当前版本仅覆盖人类基因组。跨物种泛化能力——例如能否将人类基因调控知识迁移到小鼠模型——尚未评估。
候选清单勘误。原候选清单中该论文的 DOI(10.1101/2024.11.01.621373)和 GitHub 地址(bowang-lab/scLong)均为错误信息。正确的 DOI 为 10.1101/2024.11.09.622759,正确 GitHub 为 BaiDing1234/scLong。这个勘误本身也折射出一个问题:预印本论文的元数据散布在多个平台,可复现性链条在预印本阶段天然脆弱。
未来方向值得期待。作者团队来自 MBZUAI、UCSD、CMU 和 Scripps 研究所,这个横跨 AI 顶尖机构和生物医学重镇的阵容暗示了后续可能的扩展方向:将全基因组建模推广到多组学场景(scATAC-seq、CITE-seq),开发知识蒸馏版本以降低使用门槛,以及将预测结果与真实湿实验药物筛选数据形成验证闭环。
📎 论文信息
- 📄 论文: scLong: A Billion-Parameter Foundation Model for Capturing Long-Range Gene Context in Single-Cell Transcriptomics
- 🔗 链接: https://doi.org/10.1101/2024.11.09.622759 (bioRxiv, 2024)
- 💻 代码: https://github.com/BaiDing1234/scLong ⭐ 21 · 🍴 6
- 👥 团队: Ding Bai & Shentong Mo (MBZUAI), Ruiyi Zhang & Jiahao Gao & Jeremy Parker Yang & Qiuyang Wu & Pengtao Xie (UCSD), Yingtao Luo (CMU), Digvijay Singh & Hamidreza Rahmani & Danielle A. Grotjahn (Scripps), Tiffany Amariuta & Sheng Zhong & Nathan Lewis & Wei Wang & Trey Ideker (UCSD), Eric P. Xing (MBZUAI)
- 🏛️ 机构: Mohamed bin Zayed University of Artificial Intelligence · University of California San Diego · Carnegie Mellon University · Scripps Research Institute
- 📊 影响力: bioRxiv 预印本(2024.11),Semantic Scholar 引用 5 次,GitHub 21 ⭐
下期预告:候选清单已全部遍历完毕。第38期将开启新一轮选题策略,或转向最新涌现的 2025-2026 年单细胞大模型新作。敬请期待。
Publication
scLong: A Billion-Parameter Foundation Model for Capturing Long-Range Gene Context in Single-Cell Transcriptomics