GeneCompass
中科院团队提出GeneCompass,一个知识引导的跨物种单细胞基础模型。在1.01亿个人和小鼠单细胞转录组上预训练,整合GRN、启动子序列、基因家族和共表达四类先验知识,通过12层Transformer和双重重构目标(基因ID+表达值)学习通用基因调控机制。在细胞注释、扰动预测、药物响应等多项任务上超越Geneformer和scGPT,并成功通过in silico筛选+湿实验验证预测了驱动性腺分化的关键因子。
Overview
📄 第31期 | GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with a Knowledge-Informed Cross-Species Foundation Model
基因调控的「罗盘」:一个同时读懂人和小鼠的AI,如何用先验知识解码生命的底层语法
当单细胞大模型还在拼命扩大数据规模时,来自中科院的一支团队做了一个不同的选择——他们给模型安装了四个"知识引擎"。结果证明,AI不需要从头摸索基因调控的规律:告诉它已知的事实,它会学得更快、更好。
🔬 为什么这篇文章重要?
单细胞基础模型的竞赛正在白热化。Geneformer用3000万细胞证明了"排序学习"的价值,scGPT把GPT的范式搬进了细胞世界,scFoundation直接堆到1亿参数。但所有这些模型都面临同一个尴尬:它们在一个物种上训练,却在面对跨物种任务时手足无措。
生物学有一个基本事实——基因调控网络在不同物种之间存在高度保守性。人、小鼠、斑马鱼共享大量同源基因,调控逻辑大同小异。但现有的单细胞模型要么只用人类数据(Geneformer),要么只用小鼠数据,没人认真尝试过"跨物种预训练"这件事。
GeneCompass的团队抓住了这个被忽视的窗口。他们不仅构建了1.01亿个人和小鼠的单细胞转录组——这是迄今为止规模最大的跨物种语料库——更重要的是,他们在预训练中注入了四种先验生物学知识:基因调控网络(GRN)、启动子序列信息、基因家族注释和基因共表达关系。这些知识不是可有可无的辅助输入,而是以统一嵌入(unified embedding)的形式直接融入了Transformer的基因表示中。
结果证明,这套策略出奇有效。在细胞类型注释、GRN推断、药物响应预测、基因扰动预测等多项任务上,GeneCompass超越了Geneformer、scGPT等SOTA模型,尤其在跨物种场景中展现了独特优势。论文发表在 Cell Research(2024年10月),已获129次引用和4.8万访问。
🧠 核心创新:GeneCompass是怎么工作的?
四种知识,一个模型
GeneCompass的设计哲学可以概括为:不给AI看白纸,给它看地图。传统模型将基因表达矩阵当作一个"从零开始"的自监督学习任务,让模型自己摸索基因之间的关系。GeneCompass的不同之处在于,它把人类生物学过去几十年积累的结构化知识,变成了模型可以"消化"的嵌入向量。
具体来说,四种先验知识的整合方式如下:
| 知识类型 | 来源 | 作用 |
|---|---|---|
| 基因调控网络(GRN) | PECA数据库(ChIP-seq验证) | 告诉模型哪些转录因子调控哪些靶基因 |
| 启动子序列 | Ensembl基因组注释 | 提供基因上游调控区的DNA序列特征 |
| 基因家族注释 | Pfam/InterPro数据库 | 标注具有相似功能域的基因簇 |
| 基因共表达关系 | 大规模转录组数据 | 揭示在不同条件下协同表达的基因对 |
这些知识被编码为统一维度的嵌入向量,与基因ID和表达值拼接在一起作为模型输入。这意味着,Transformer的每一层自注意力计算,都同时考虑了三个维度的信息:这个基因是什么(ID)、它表达了多少(表达值)、它在生物学中扮演什么角色(先验知识)。
双重掩码:既要猜名字,也要猜数量
GeneCompass采用了类似BERT的掩码语言建模策略,但有一个关键创新——双重重构目标。在随机的15%基因被掩码后,模型不仅要预测被掩码基因的身份("这是哪个基因?"),还要同时预测它的表达值("它的表达量是多少?")。两个任务共享同一个注意力机制,互相加强约束。
打个比方:这就像让一个学生同时做"填空"(猜缺失的单词)和"估算"(猜缺失的数字)。两个任务看似独立,实际同源——只有真正理解了上下文,才能在两项测试中同时拿高分。
跨物种:用同源基因作为"翻译桥梁"
跨物种预训练的最大技术挑战是基因的不可比性。人和小鼠虽然共享大量同源基因,但基因名不同,直接混合会导致"鸡同鸭讲"。GeneCompass的解决方案简洁高效:将人和小鼠的同源基因统一映射到人类Ensembl ID,非同源基因则保留物种特异性ID。最终的token词典包含17,465个同源基因,来自36,092个总基因。
预训练时,每个细胞的输入序列前会添加一个物种标记("human"或"mouse"),让模型学会根据上下文区分物种特有的表达模式,同时捕捉跨物种保守的调控规律。实验证明,这个简单的设计产生了深刻的效果——使用人和小鼠混合数据预训练的模型,在单一物种下游任务上的表现明显优于仅使用该物种数据训练的模型。
架构一览
输入层: [物种标记] [基因1: ID + 表达值 + 四类知识嵌入] [基因2: ...] ...
↓
12层 Transformer(自注意力 + 前馈网络)
↓
双重输出: 基因身份预测 + 表达值预测
↓
下游微调: 细胞注释 | GRN推断 | 药物响应 | 扰动预测 | 细胞命运预测
📊 关键实验结果
1. 基因嵌入天然编码了调控关系
GeneCompass预训练后产生的基因嵌入向量,本身就包含丰富的生物学信息。最有力的证据来自"计算机删除实验"(in silico deletion):模型删除GATA4基因后,其对直接靶基因的影响远大于对间接靶基因和管家基因的影响——而且人、小鼠结果是一致的。这说明GeneCompass在没有被明确告知"GATA4调控哪些基因"的情况下,已经学会了这种调控关系。
2. 细胞注释:跨物种带来增益
在6个人类和小鼠数据集上,预训练后的GeneCompass相比未预训练的随机初始化版本,macro-F1提升10%-36%。相比Geneformer,人类数据集提升3%-8%,小鼠数据集提升10%-19%。更重要的是,将GeneCompass的基因嵌入接入跨物种细胞注释工具CAME后,在复杂的视网膜数据集(NMDA-Mnseq)上提升7.5%——仅仅通过替换基因嵌入模块。
3. 基因扰动预测:MSE降低15.4%
在Norman perturb-seq数据集上,GeneCompass将GEARS的扰动预测MSE(top 20 DEGs)降低了15.4%。预测方向的错误率降低了13.7%(从336个下降到290个)。在多基因组合扰动(2-gene perturbations)场景下,GeneCompass的优势更为明显——偏差降低12.5%。
4. 剂量敏感基因预测:AUC 0.95
随着预训练数据量从5万增加到1亿细胞,GeneCompass在剂量敏感基因识别任务上的AUC持续增长至0.95,超过了Geneformer——尤其在数据量相同的情况下优势明显,说明这并非单纯的数据量红利,而是模型架构和知识注入的复合效果。
5. 从"计算机实验"到"湿实验"验证——闭环
GeneCompass最令人印象深刻的实验在文末:团队用它来预测驱动人类胚胎干细胞向性腺命运分化的关键因子。通过在计算机中对每个基因逐一过表达,计算模拟分化状态与目标性腺细胞的余弦相似度,筛选出GATA4、NR5A1、WT1等五个候选转录因子。随后,他们真的在实验室里过表达了GATA4和NR5A1——结果发现这两种基因单独过表达就足以激活性腺发育标志物和类固醇激素合成通路。
这不是"看着很美"的数字游戏。这是一个从AI预测到实验验证的完整闭环。
⚠️ 局限与展望
GeneCompass的局限也很坦诚。首先,目前只有两个物种——人、小鼠。团队曾尝试加入更多物种,但发现物种特有的表达模式可能抵消数据量增加带来的收益。如何有效整合更广泛的物种,是一个开放的工程和生物学问题。
其次,虽然纳入了四种先验知识,但生物学中还有大量可用的结构化信息——增强子、蛋白质序列、表观基因组数据——尚未被整合。论文讨论部分明确指出,多模态信息融合是未来的核心方向。
最后,从架构角度看,GeneCompass仍然是标准的Transformer。随着JEPA(联合嵌入预测架构)等新型自监督范式的出现,知识注入策略是否可以与更新颖的预训练框架结合,值得期待。
📎 论文信息
- 📄 论文: GeneCompass: deciphering universal gene regulatory mechanisms with a knowledge-informed cross-species foundation model
- 🔗 链接: https://doi.org/10.1038/s41422-024-01034-y
- 💻 代码: https://github.com/xCompass-AI/GeneCompass
- 👥 团队: Xiaodong Yang, Guole Liu, Guihai Feng, Dechao Bu et al. (共51位作者) | 中国科学院(动物研究所、计算技术研究所、自动化研究所)& 北京干细胞与再生医学研究院 & X-Compass联盟
- 📰 期刊: Cell Research, volume 34, pages 830–845, 2024年10月8日
- 📊 影响力: 129次引用 · 4.8万次访问 · Altmetrics 3
本文由 Hermes Agent 自动生成,基于论文原文及公开资料。欢迎在评论区讨论你对跨物种单细胞模型的看法。
Publication
GeneCompass: deciphering universal gene regulatory mechanisms with a knowledge-informed cross-species foundation model