← Back to scModels Foundation Model

GenePT: Simple Foundation Model for Genes and Cells

Yiqun Chen, James Zou · 2024-03-05 · bioRxiv (preprint)

Overview

📄 第19期 | GenePT: A Simple But Effective Foundation Model for Genes and Cells Built From ChatGPT

一篇来自斯坦福的预印本提出了一个令人吃惊的观点：你不必烧掉几百万GPU小时去训练一个单细胞基础模型。用ChatGPT读一遍NCBI基因摘要，得到的embedding就足够好——甚至是更好。

Figure 1: GenePT framework overview
▲ 图1：GenePT框架总览。(a) 对每个基因，从NCBI提取文本摘要，用GPT-3.5生成embedding。(b) GenePT-w方案：以基因表达量为权重，对基因embedding做加权平均。(c) GenePT-s方案：将每个细胞的基因按表达量排序，转化为自然语言句子，再用GPT-3.5编码整个句子。

🔬 为什么这篇文章重要？

过去三年，单细胞基础模型领域有一条不成文的公式：收集几千万细胞的表达数据 → 搭一个Transformer → 用掩码预测任务做自监督预训练 → 得到一个"通用"的细胞embedding。Geneformer用了3000万细胞（在128个NVIDIA A100上跑了数周），scGPT用了3300万细胞，scFoundation用了5000万细胞。每一轮训练都意味着巨大的计算开销、数据整理工作和对GPU集群的沉重依赖。这条路越走越贵，把大多数生物医学实验室挡在了门外。

GenePT的作者——斯坦福大学生物医学数据科学系的Yiqun Chen和James Zou——问了一个看似"偷懒"的问题：既然NCBI数据库中已经整理了每个基因的功能摘要（平均73个词，覆盖了从分子功能到疾病关联的方方面面），为什么不让ChatGPT替我们读一遍，把这些文字知识变成向量？

答案是：这真的管用。而且效果出人意料地好。这篇发表于2024年3月的bioRxiv预印本展示了一条完全不同的路径：零预训练、零数据整理、零GPU集群，仅靠ChatGPT对NCBI基因摘要的embedding，就能在基因功能预测、蛋白互作推断、细胞类型注释等多个任务上达到或超越专门训练的基础模型。它的核心哲学简单到令人不安：分子生物学家几十年来积累的文献知识，本身就已经编码了足够多的生物学信号。用大语言模型做一次蒸馏，比从零开始在表达数据中重新发现这些规律，要高效得多。

🧠 核心创新：GenePT是怎么工作的？

GenePT的工作流程分为两步，出奇地简洁。

第一步：基因 → 文本 → embedding。 作者从NCBI基因数据库中提取了约33,000个人类基因的文本摘要。这些摘要是什么？打开NCBI上任意一个基因页面，你会看到一段"Summary"——它用一段自然语言概括了这个基因编码什么蛋白、在哪些组织高表达、参与什么信号通路、与哪些疾病相关。比如CD24基因的摘要写道："This gene encodes a sialoglycoprotein that is expressed on mature granulocytes and B cells..."。这几十到一百多个英文单词，浓缩了分子生物学家对这个基因几十年的认知。

GenePT的核心操作极其简单：将这些摘要一股脑送入GPT-3.5的embedding API（text-embedding-ada-002），每个基因得到一个1536维的稠密向量。不需要微调，不需要任何单细胞表达数据——只用了现成的API调用，按当时OpenAI的定价，编码整个基因组的成本不过几美元。

这一思路的精妙之处在于杠杆效应。NCBI基因摘要汇聚了几十年分子生物学实验的精华：基因功能、表达组织、疾病关联、同源基因、蛋白结构域。GPT-3.5在海量科学文本上预训练，天然理解这些描述中的语义关联——它知道"kinase"和"phosphorylation"高度相关，"transcription factor"和"DNA binding"紧密相连。GenePT的本质，就是用LLM把人类已有的基因知识"蒸馏"成了向量空间中的一个点。这是一种知识迁移，而非从头学习。

第二步：基因embedding → 细胞embedding。 作者设计了两种互补方案：

GenePT-w（weighted）：以每个基因在细胞中的归一化表达量为权重，对所有表达基因的embedding做加权平均，然后做ℓ2归一化。直观理解——一个T细胞高表达CD3、CD4、CD8，这些基因的embedding会在加权平均中占据主导，从而把细胞的embedding"拉"向T细胞的功能语义空间。
GenePT-s（sentence）：将每个细胞中表达量最高的基因按降序排列，拼接成自然语言风格的"句子"（如"CD3E CD4 CD8A CD2 ITK..."），再整体送入GPT-3.5获取整个句子的embedding。这相当于让LLM直接"阅读"一个细胞的基因表达轮廓。

GenePT-w的优势是保留所有基因的信息，缺点是用线性平均这种过于粗糙的方式聚合。GenePT-s则让LLM处理非线性的基因间语义关联，但受限于输入长度和API成本。实验表明，两种方案在不同任务上各有千秋。

与传统方法的关键区别： 传统单细胞基础模型（Geneformer、scGPT等）从表达数据中"归纳"出基因功能——这是一种自下而上的学习。GenePT则从上而下，直接"注入"已知的生物学知识。前者的优势在于能发现文献之外的新模式，后者的优势在于零成本启动且不依赖数据质量。两者不是替代关系，而是互补关系。

📊 关键实验结果

在单细胞基础模型的评测文化中，有一个默认假设：模型见过的细胞越多，embedding就越"懂"生物学。GenePT的结果狠狠地挑战了这一假设。它用一句话可以概括：在大多数基准任务上，一个未经任何训练的模型打败了训练了数千万细胞的模型。 这不是修辞，是数据。

基因功能分类——基础检验。 这是最直接的测试：给你一个基因的embedding，你能猜出它是蛋白编码基因、假基因、miRNA还是lncRNA吗？在区分15种主要基因功能类型的任务上，GenePT + ℓ2正则化逻辑回归达到了96%的分类准确率。作为对比，Gene2vec在重叠的21,000个基因子集上仅达到86%。这个差距是实质性的——每100个基因中，Gene2vec会多错10个分类。对于需要筛选候选基因的生物学家来说，这个精度提升直接关系到实验设计中假阳性率的控制。

基因-基因互作预测——最令人意外的胜利。 在Gene Ontology标注的GGI基准上，GenePT的ROC-AUC达到0.82，而Gene2vec、scGPT和Geneformer在相同下游分类器（ℓ2逻辑回归）上仅为0.65-0.67。更值得注意的是，GenePT比专门为此任务设计了两层神经网络的Gene2vec论文原始结果（AUC=0.77）还要高出一截。这是一个反常现象：一个零训练的方法，在一个专门设计的任务上，击败了为此定制的深度模型。

蛋白质-蛋白互作预测。 在三套独立PPI数据集（文献验证、高通量筛选、组织特异性）上，GenePT均超越所有对比方法。以HuRI人类蛋白互作数据集为例，GenePT的ROC-AUC达到了最高水平。

染色质动态与剂量敏感性。 在Geneformer论文定义的四个网络生物学任务中，GenePT + 随机森林的表现与经过完整预训练+微调的Geneformer旗鼓相当：

任务	Geneformer（微调）	GenePT + RF
剂量敏感 vs 不敏感TF	0.91	0.92
二价 vs 非甲基化基因	0.93	0.92
二价 vs Lys4-甲基化	0.88	0.95
长程 vs 短程TF	0.74	0.64

尤其在"二价 vs Lys4-only甲基化基因"这一任务上，GenePT以0.95的AUC显著优于Geneformer的0.88。

Figure 2: Gene-level results
▲ 图2：GenePT基因层面结果。(a) 34,000个基因的UMAP可视化，按功能类群着色；(b) 15类基因功能预测混淆矩阵；(c-f) 基因-基因互作和蛋白-蛋白互作预测AUC对比；(g) GenePT提取的基因程序在不同免疫细胞类型中的差异激活。

细胞类型注释——零训练追平全训练。 在六个来自循环系统（主动脉、动脉）、骨组织（骨骼、髓系）、胰腺（hPancreas）和多发性硬化症免疫细胞的数据集上，GenePT（尤其是GenePT-w方案）的聚类效果与scGPT相当，且持续优于Geneformer。具体而言，在9个细胞注释任务中，scGPT在5个任务上取得最佳ARI/AMI，GenePT在4个任务上领先——考虑到GenePT完全没有见过任何单细胞表达数据，这个结果本身就足够震撼。在胰腺数据集上，GenePT-w的ARI达到0.49，大幅领先Geneformer的0.04和scGPT的0.21；在主动脉数据集上，GenePT-w的ARI为0.54，同样在所有方法中最高。值得注意的是，这不仅仅是调参的结果——GenePT使用了最朴素的ℓ2逻辑回归和k-means聚类，没有进行任何任务特定的微调。

批次效应去除。 在心肌细胞数据集上，原始数据的患者批次ARI高达0.33（意味着聚类几乎完全被技术噪声主导）。GenePT-s将ARI降至0.07，同时在下游疾病表型预测上达到88%的准确率（与scGPT相同），远超Geneformer的71%。

Figure 3: Batch effect removal
▲ 图3：主动脉数据集上的批次效应去除。(a-c) 原始scRNA-seq数据UMAP，分别按疾病表型、细胞类型、患者ID着色；(d-f) GenePT-s embedding的UMAP，相同着色方案。GenePT成功将聚类从"按患者"转变为"按细胞类型"。

⚠️ 局限与展望

GenePT的直接性是一把双刃剑。它用零训练成本换来了惊人的表现，但这种"简单"也带来了固有的局限。

首先，GenePT的知识边界完全取决于NCBI基因摘要的覆盖面。据估计，人类基因组中约有20%的蛋白编码基因功能注释尚不完整，更不用说大量非编码RNA。如果一个基因的功能尚未被充分表征，GenePT就无法提供有意义的embedding。这就造成了一个棘手的偏向：GenePT天然更擅长表征"已被研究透的基因"，可能在无意中强化生物学研究中的"路灯效应"——只在已有光照的地方寻找答案。

其次，GenePT给出的embedding是静态快照。一个基因在肝脏和大脑中的功能可能截然不同，在发育早期和衰老阶段的角色也可能天差地别——但GenePT只有一个统一的向量表示。这与表达数据训练的模型形成鲜明对比，后者天然携带时空和上下文信息。作者在论文中也坦承了这一局限，指出GenePT embedding"可能对特定组织和细胞类型不够优化"，尤其在需要捕捉基因动态调控角色的场景中力有不逮。

第三，底层LLM的能力瓶颈直接限制了GenePT的上限。作者使用了GPT-3.5的embedding接口（text-embedding-ada-002）；有趣的是，当改用Llama-7B时，在某些任务上甚至看到了轻微的提升。这暗示GenePT的性能可以随着更强embedding模型的出现而"被动升级"——但也意味着同一个基因在不同LLM下的表示可能不一致，下游应用需要重新验证。

展望方向很清晰。一是将GenePT的文献知识embedding与Geneformer/scGPT的表达数据embedding做深度融合。作者在附录中展示了简单的最近邻ensemble就能提升细胞类型预测准确率，这强烈暗示两个方向的信息是正交互补的——文献告诉模型"这个基因已知做什么"，表达告诉模型"这个基因在这个特定细胞里实际在做什么"。两者的结合可能是下一代单细胞基础模型的关键配方。二是让GenePT的embedding"动"起来——加入组织、疾病、发育阶段等上下文描述，生成条件化的基因表示。三是将这一思路推广到其他生物学领域：蛋白质序列建模、药物-靶点互作预测、全基因组关联研究，原则上都可以从"让LLM读文献"中受益。

一言以蔽之：GenePT真正的价值不在于它本身有多好，而在于它证明了知识比数据更浓缩这一朴素道理在生物学AI中同样成立。

📎 论文信息

📄 论文：GenePT: A Simple But Effective Foundation Model for Genes and Cells Built From ChatGPT
📅 状态：bioRxiv预印本（v2, 2024年3月），⚠️ 注意：本文尚未在期刊正式发表，当前仅为预印本
🔗 链接：https://doi.org/10.1101/2023.10.16.562533
💻 代码：https://github.com/yiqunchen/GenePT
📦 预计算embedding：https://doi.org/10.5281/zenodo.10833191
👥 作者：Yiqun Chen, James Zou | 斯坦福大学生物医学数据科学系
🏷️ PMC ID：PMC10614824