Overview
📄 第19期 | GenePT: A Simple But Effective Foundation Model for Genes and Cells Built From ChatGPT
一篇来自斯坦福的预印本提出了一个令人吃惊的观点:你不必烧掉几百万GPU小时去训练一个单细胞基础模型。用ChatGPT读一遍NCBI基因摘要,得到的embedding就足够好——甚至是更好。

▲ 图1:GenePT框架总览。(a) 对每个基因,从NCBI提取文本摘要,用GPT-3.5生成embedding。(b) GenePT-w方案:以基因表达量为权重,对基因embedding做加权平均。(c) GenePT-s方案:将每个细胞的基因按表达量排序,转化为自然语言句子,再用GPT-3.5编码整个句子。
🔬 为什么这篇文章重要?
过去三年,单细胞基础模型领域有一条不成文的公式:收集几千万细胞的表达数据 → 搭一个Transformer → 用掩码预测任务做自监督预训练 → 得到一个"通用"的细胞embedding。Geneformer用了3000万细胞(在128个NVIDIA A100上跑了数周),scGPT用了3300万细胞,scFoundation用了5000万细胞。每一轮训练都意味着巨大的计算开销、数据整理工作和对GPU集群的沉重依赖。这条路越走越贵,把大多数生物医学实验室挡在了门外。
GenePT的作者——斯坦福大学生物医学数据科学系的Yiqun Chen和James Zou——问了一个看似"偷懒"的问题:既然NCBI数据库中已经整理了每个基因的功能摘要(平均73个词,覆盖了从分子功能到疾病关联的方方面面),为什么不让ChatGPT替我们读一遍,把这些文字知识变成向量?
答案是:这真的管用。而且效果出人意料地好。这篇发表于2024年3月的bioRxiv预印本展示了一条完全不同的路径:零预训练、零数据整理、零GPU集群,仅靠ChatGPT对NCBI基因摘要的embedding,就能在基因功能预测、蛋白互作推断、细胞类型注释等多个任务上达到或超越专门训练的基础模型。 它的核心哲学简单到令人不安:分子生物学家几十年来积累的文献知识,本身就已经编码了足够多的生物学信号。用大语言模型做一次蒸馏,比从零开始在表达数据中重新发现这些规律,要高效得多。
🧠 核心创新:GenePT是怎么工作的?
GenePT的工作流程分为两步,出奇地简洁。
第一步:基因 → 文本 → embedding。 作者从NCBI基因数据库中提取了约33,000个人类基因的文本摘要。这些摘要是什么?打开NCBI上任意一个基因页面,你会看到一段"Summary"——它用一段自然语言概括了这个基因编码什么蛋白、在哪些组织高表达、参与什么信号通路、与哪些疾病相关。比如CD24基因的摘要写道:"This gene encodes a sialoglycoprotein that is expressed on mature granulocytes and B cells..."。这几十到一百多个英文单词,浓缩了分子生物学家对这个基因几十年的认知。
GenePT的核心操作极其简单:将这些摘要一股脑送入GPT-3.5的embedding API(text-embedding-ada-002),每个基因得到一个1536维的稠密向量。不需要微调,不需要任何单细胞表达数据——只用了现成的API调用,按当时OpenAI的定价,编码整个基因组的成本不过几美元。
这一思路的精妙之处在于杠杆效应。NCBI基因摘要汇聚了几十年分子生物学实验的精华:基因功能、表达组织、疾病关联、同源基因、蛋白结构域。GPT-3.5在海量科学文本上预训练,天然理解这些描述中的语义关联——它知道"kinase"和"phosphorylation"高度相关,"transcription factor"和"DNA binding"紧密相连。GenePT的本质,就是用LLM把人类已有的基因知识"蒸馏"成了向量空间中的一个点。这是一种知识迁移,而非从头学习。
第二步:基因embedding → 细胞embedding。 作者设计了两种互补方案:
-
GenePT-w(weighted):以每个基因在细胞中的归一化表达量为权重,对所有表达基因的embedding做加权平均,然后做ℓ2归一化。直观理解——一个T细胞高表达CD3、CD4、CD8,这些基因的embedding会在加权平均中占据主导,从而把细胞的embedding"拉"向T细胞的功能语义空间。
-
GenePT-s(sentence):将每个细胞中表达量最高的基因按降序排列,拼接成自然语言风格的"句子"(如"CD3E CD4 CD8A CD2 ITK..."),再整体送入GPT-3.5获取整个句子的embedding。这相当于让LLM直接"阅读"一个细胞的基因表达轮廓。
GenePT-w的优势是保留所有基因的信息,缺点是用线性平均这种过于粗糙的方式聚合。GenePT-s则让LLM处理非线性的基因间语义关联,但受限于输入长度和API成本。实验表明,两种方案在不同任务上各有千秋。
与传统方法的关键区别: 传统单细胞基础模型(Geneformer、scGPT等)从表达数据中"归纳"出基因功能——这是一种自下而上的学习。GenePT则从上而下,直接"注入"已知的生物学知识。前者的优势在于能发现文献之外的新模式,后者的优势在于零成本启动且不依赖数据质量。两者不是替代关系,而是互补关系。
📊 关键实验结果
在单细胞基础模型的评测文化中,有一个默认假设:模型见过的细胞越多,embedding就越"懂"生物学。GenePT的结果狠狠地挑战了这一假设。它用一句话可以概括:在大多数基准任务上,一个未经任何训练的模型打败了训练了数千万细胞的模型。 这不是修辞,是数据。
基因功能分类——基础检验。 这是最直接的测试:给你一个基因的embedding,你能猜出它是蛋白编码基因、假基因、miRNA还是lncRNA吗?在区分15种主要基因功能类型的任务上,GenePT + ℓ2正则化逻辑回归达到了96%的分类准确率。作为对比,Gene2vec在重叠的21,000个基因子集上仅达到86%。这个差距是实质性的——每100个基因中,Gene2vec会多错10个分类。对于需要筛选候选基因的生物学家来说,这个精度提升直接关系到实验设计中假阳性率的控制。
基因-基因互作预测——最令人意外的胜利。 在Gene Ontology标注的GGI基准上,GenePT的ROC-AUC达到0.82,而Gene2vec、scGPT和Geneformer在相同下游分类器(ℓ2逻辑回归)上仅为0.65-0.67。更值得注意的是,GenePT比专门为此任务设计了两层神经网络的Gene2vec论文原始结果(AUC=0.77)还要高出一截。这是一个反常现象:一个零训练的方法,在一个专门设计的任务上,击败了为此定制的深度模型。
蛋白质-蛋白互作预测。 在三套独立PPI数据集(文献验证、高通量筛选、组织特异性)上,GenePT均超越所有对比方法。以HuRI人类蛋白互作数据集为例,GenePT的ROC-AUC达到了最高水平。
染色质动态与剂量敏感性。 在Geneformer论文定义的四个网络生物学任务中,GenePT + 随机森林的表现与经过完整预训练+微调的Geneformer旗鼓相当:
| 任务 | Geneformer(微调) | GenePT + RF |
|---|---|---|
| 剂量敏感 vs 不敏感TF | 0.91 | 0.92 |
| 二价 vs 非甲基化基因 | 0.93 | 0.92 |
| 二价 vs Lys4-甲基化 | 0.88 | 0.95 |
| 长程 vs 短程TF | 0.74 | 0.64 |
尤其在"二价 vs Lys4-only甲基化基因"这一任务上,GenePT以0.95的AUC显著优于Geneformer的0.88。

▲ 图2:GenePT基因层面结果。(a) 34,000个基因的UMAP可视化,按功能类群着色;(b) 15类基因功能预测混淆矩阵;(c-f) 基因-基因互作和蛋白-蛋白互作预测AUC对比;(g) GenePT提取的基因程序在不同免疫细胞类型中的差异激活。
细胞类型注释——零训练追平全训练。 在六个来自循环系统(主动脉、动脉)、骨组织(骨骼、髓系)、胰腺(hPancreas)和多发性硬化症免疫细胞的数据集上,GenePT(尤其是GenePT-w方案)的聚类效果与scGPT相当,且持续优于Geneformer。具体而言,在9个细胞注释任务中,scGPT在5个任务上取得最佳ARI/AMI,GenePT在4个任务上领先——考虑到GenePT完全没有见过任何单细胞表达数据,这个结果本身就足够震撼。在胰腺数据集上,GenePT-w的ARI达到0.49,大幅领先Geneformer的0.04和scGPT的0.21;在主动脉数据集上,GenePT-w的ARI为0.54,同样在所有方法中最高。值得注意的是,这不仅仅是调参的结果——GenePT使用了最朴素的ℓ2逻辑回归和k-means聚类,没有进行任何任务特定的微调。
批次效应去除。 在心肌细胞数据集上,原始数据的患者批次ARI高达0.33(意味着聚类几乎完全被技术噪声主导)。GenePT-s将ARI降至0.07,同时在下游疾病表型预测上达到88%的准确率(与scGPT相同),远超Geneformer的71%。

▲ 图3:主动脉数据集上的批次效应去除。(a-c) 原始scRNA-seq数据UMAP,分别按疾病表型、细胞类型、患者ID着色;(d-f) GenePT-s embedding的UMAP,相同着色方案。GenePT成功将聚类从"按患者"转变为"按细胞类型"。
⚠️ 局限与展望
GenePT的直接性是一把双刃剑。它用零训练成本换来了惊人的表现,但这种"简单"也带来了固有的局限。
首先,GenePT的知识边界完全取决于NCBI基因摘要的覆盖面。据估计,人类基因组中约有20%的蛋白编码基因功能注释尚不完整,更不用说大量非编码RNA。如果一个基因的功能尚未被充分表征,GenePT就无法提供有意义的embedding。这就造成了一个棘手的偏向:GenePT天然更擅长表征"已被研究透的基因",可能在无意中强化生物学研究中的"路灯效应"——只在已有光照的地方寻找答案。
其次,GenePT给出的embedding是静态快照。一个基因在肝脏和大脑中的功能可能截然不同,在发育早期和衰老阶段的角色也可能天差地别——但GenePT只有一个统一的向量表示。这与表达数据训练的模型形成鲜明对比,后者天然携带时空和上下文信息。作者在论文中也坦承了这一局限,指出GenePT embedding"可能对特定组织和细胞类型不够优化",尤其在需要捕捉基因动态调控角色的场景中力有不逮。
第三,底层LLM的能力瓶颈直接限制了GenePT的上限。作者使用了GPT-3.5的embedding接口(text-embedding-ada-002);有趣的是,当改用Llama-7B时,在某些任务上甚至看到了轻微的提升。这暗示GenePT的性能可以随着更强embedding模型的出现而"被动升级"——但也意味着同一个基因在不同LLM下的表示可能不一致,下游应用需要重新验证。
展望方向很清晰。一是将GenePT的文献知识embedding与Geneformer/scGPT的表达数据embedding做深度融合。作者在附录中展示了简单的最近邻ensemble就能提升细胞类型预测准确率,这强烈暗示两个方向的信息是正交互补的——文献告诉模型"这个基因已知做什么",表达告诉模型"这个基因在这个特定细胞里实际在做什么"。两者的结合可能是下一代单细胞基础模型的关键配方。二是让GenePT的embedding"动"起来——加入组织、疾病、发育阶段等上下文描述,生成条件化的基因表示。三是将这一思路推广到其他生物学领域:蛋白质序列建模、药物-靶点互作预测、全基因组关联研究,原则上都可以从"让LLM读文献"中受益。
一言以蔽之:GenePT真正的价值不在于它本身有多好,而在于它证明了知识比数据更浓缩这一朴素道理在生物学AI中同样成立。
📎 论文信息
- 📄 论文:GenePT: A Simple But Effective Foundation Model for Genes and Cells Built From ChatGPT
- 📅 状态:bioRxiv预印本(v2, 2024年3月),⚠️ 注意:本文尚未在期刊正式发表,当前仅为预印本
- 🔗 链接:https://doi.org/10.1101/2023.10.16.562533
- 💻 代码:https://github.com/yiqunchen/GenePT
- 📦 预计算embedding:https://doi.org/10.5281/zenodo.10833191
- 👥 作者:Yiqun Chen, James Zou | 斯坦福大学 生物医学数据科学系
- 🏷️ PMC ID:PMC10614824