给AI一本生物学教科书:单细胞大模型的常识教育难题
单细胞大模型如何整合基因调控网络、通路数据库等结构化先验知识:从纯数据自学到知识增强预训练的三条路线。
Overview
给AI一本"生物学教科书":单细胞大模型的常识教育难题
- 期数: 第44期
- 日期: 2026-06-17
- 话题: 先验知识整合、结构化生物学知识、知识增强预训练
2018年,一位名叫黄家明(化名)的生物信息学博士生在实验室里遇到了一个诡异的问题。他已经用30万细胞的RNA测序数据训练了一个深度学习模型,模型的细胞类型分类准确率高达96%——但当他测试一批从文献中收集的新数据时,模型把一群CD4⁺辅助T细胞坚定地预测为"未知细胞"。而任何一个学过免疫学的本科生都知道,CD4⁺T细胞是最经典的T细胞亚群之一。
"这个模型就像一个人读完了《战争与和平》,却不知道拿破仑是谁,"他后来在一次会议上吐槽道,"因为小说里从头到尾都没出现'拿破仑'这个名字。"
这个黑色幽默般的吐槽,精准地命中了单细胞大模型——乃至所有生物信息学AI——的一个核心困境:你喂给AI的数据里,藏着它不知道的"常识"。
数据自学 vs. 有书不读
我们先来做一个比喻。
想象你要培养一个学生成为细胞生物学专家。你有两种教育方式:
方式A(纯数据自学):把他关在图书馆里,里面没有一本教科书,只有一堆原始实验记录——成千上万份Western blot条带图、显微镜照片、流式细胞术的散点图。告诉他:"你自己看,看出什么规律就是什么。"
方式B(知识辅助):给他一本《分子细胞生物学》(Lodish),让他知道哪些蛋白是转录因子、哪些基因属于同一个信号通路、细胞周期分几个阶段,然后再去读原始数据。
绝大多数单细胞大模型的预训练,走的是方式A。它们在海量的基因表达矩阵中寻找模式,依靠transformer的注意力机制捕捉基因之间的共表达关系。这种纯粹从数据中学习的方式确实很强大——Geneformer在3000万个细胞上学到了丰富的细胞表征,scGPT能够准确地完成细胞类型注释。
但当数据本身存在偏见、稀疏或无法捕捉某些高阶关系时,问题就来了。比如:
- 转录因子NF-κB和炎症因子IL-6的关系,在单细胞数据中可能因为表达量低、批次效应等原因无法被稳定地捕捉,但任何一个生物学家都知道它们是"铁杆搭档"。
- 某些基因在特定组织中几乎不表达,但在发育的特定时间窗口短暂高表达——如果训练数据中没有覆盖这个窗口,模型就永远学不到这段关系。
- 基因A激活基因B、基因B抑制基因C这样的调控链,在表达矩阵中表现为复杂的非线性关系,纯数据驱动的方法可能需要海量数据才能学到,但一张KEGG通路图就画得明明白白。
这就像让一个人通过观察每天的天气来学习气象学——他是能学会一些规律,但如果给他一本气象学的教科书,效率会高得多。
如何给AI"塞"一本教科书?
那么,怎么把人类积累了上百年的生物学知识"喂"给单细胞大模型呢?目前学界主要有三条路线。
路线一:先验知识做约束——"这俩基因必须在一起"
最直接的方法是在模型的训练目标中加入知识约束。例如,GeneCompass模型在预训练时,除了传统的掩码基因预测(masked gene prediction),还额外增加了一个任务:判断两个基因是否属于同一个已知的调控关系。这些"已知调控关系"来自现有的基因调控网络数据库。
这相当于边让学生看原始数据,边在耳边提醒:"记住,NF-κB和IL-6是一家的,别把它们拆散了。"
技术上,这通常通过在损失函数中加入对比学习项来实现:正样本对(已知有调控关系的基因对)被拉近,负样本对(随机配对的基因)被推远。模型既要从数据中学习表达模式,又必须"尊重"已知的生物学事实。
路线二:知识图谱嵌入——"给每个基因画一张社交网络图"
第二种方法更精巧:把基因之间的关系(共表达、共调控、同一条通路、同一个蛋白复合体……)用知识图谱表示出来,然后通过图神经网络(GNN)将知识图谱编码成向量,与基因表达嵌入融合。
以PINNACLE模型为代表的工作就是走的这条路。它将蛋白质相互作用网络、通路数据库、单细胞表达数据等多层级信息整合在一个图结构中,让模型在预测时自然地考虑到基因的"社交关系"。
一个生动的比喻:如果你要了解一个人的职业,只知道他每天几点出门、几点回家(表达数据)是不够的。但你如果知道他经常和律师、法官一起吃饭(知识图谱),你自然会猜他可能也是个法律从业者。 单细胞大模型的知识图谱增强,做的就是这件事。
路线三:自然语言知识桥接——"让ChatGPT当生物学家教"
第三条路线是最晚出现但也最具想象力的:利用大语言模型(LLM)中沉淀的生物学知识来增强单细胞模型。
GenePT的论文提出了一个简单到令人惊讶的方法:不需要让单细胞模型重新学习生物学知识,而是直接用LLM为每个基因生成一个"知识摘要向量"。具体做法是,把基因的功能描述(来自NCBI Gene数据库的自然语言文本)输入到GPT模型中,取出最后一层的嵌入向量,作为这个基因的"先验知识表示",然后与表达数据中学习到的基因嵌入拼接或融合。
这意味着,单细胞模型不需要自己从零开始学"TP53是一个肿瘤抑制基因"——这件事GPT已经学过了,GenePT直接把"答案"抄过来。
更极端的例子是Cell2Sentence——它直接把单细胞表达数据翻译成自然语言句子(比如"这个细胞高表达CD3E、CD4、IL7R,低表达CD8A、NKG7……"),然后喂给LLM进行微调。这样,LLM在理解细胞时,可以同时调用它预训练时学到的所有生物学知识。
知易行难:知识整合的代价
听起来很美好,但给AI"教科书"并非没有代价。
第一,知识是旧的,数据是新的。 教科书里写的"常识"可能是错的、过时的,或者在某些特定条件下不成立。如果模型过于相信给定的先验知识,它可能对数据中的新发现"视而不见"。GeneCompass的论文中就指出,需要在知识约束和数据驱动学习之间找到一个微妙的平衡。
第二,知识覆盖不完整。 人类目前的生物学知识图谱只是冰山一角——我们有大约2万个蛋白质编码基因,但高质量的功能注释只覆盖了一小部分。如果先验知识只覆盖了2000个"明星基因",模型就可能对其他18000个基因"区别对待"。
第三,计算代价。 将知识图谱嵌入、LLM产生的向量与单细胞表达嵌入融合,意味着模型必须处理不同模态、不同维度的信息,这增加了计算复杂度和内存占用。
未来的方向:通往"有常识"的单细胞AI
回到开头那个把CD4⁺T细胞认成"未知"的模型。如果我们在预训练时告诉它"CD4是辅助T细胞的标志基因"这一条简单的先验知识——就够了。它不需要重新训练,也不需要更多数据。
这就是先验知识整合的核心魅力:让AI拥有"常识",而不是事事从零开始。
展望未来,单细胞基础模型的知识整合正在走向以下几个方向:
- 动态知识图谱:不再使用静态的基因关系数据库,而是让模型在学习过程中不断更新自己的"知识图谱"
- 因果推断:从单纯的"相关性"知识走向"因果性"知识——不仅是"A和B共存",而是"A激活B"
- 多模态知识融合:将蛋白质结构、代谢通路、药物靶点、临床表型等不同层次的知识整合进同一个模型
2024年,黄家明的那篇吐槽后来催生了他自己的一项工作——在单细胞模型中引入基因本体论(Gene Ontology)的结构化知识。这一次,他的模型不仅认出了CD4⁺T细胞,还正确地推断出了它可能参与的免疫调节功能。
"AI不需要考试前通宵背教科书,"他在论文的最后一段写道,"但给它发一本参考书,总归不是坏事。"
一句话总结:给单细胞大模型整合结构化生物学知识,就像给一个聪明但无知的学生发了一本教科书——它学得更快、更准,但也要小心不要让"旧知识"遮蔽了"新发现"。