给AI一本生物学教科书：单细胞大模型的常识教育难题

单细胞大模型如何整合基因调控网络、通路数据库等结构化先验知识：从纯数据自学到知识增强预训练的三条路线。

Overview

给AI一本"生物学教科书"：单细胞大模型的常识教育难题

期数: 第44期
日期: 2026-06-17
话题: 先验知识整合、结构化生物学知识、知识增强预训练

2018年，一位名叫黄家明（化名）的生物信息学博士生在实验室里遇到了一个诡异的问题。他已经用30万细胞的RNA测序数据训练了一个深度学习模型，模型的细胞类型分类准确率高达96%——但当他测试一批从文献中收集的新数据时，模型把一群CD4⁺辅助T细胞坚定地预测为"未知细胞"。而任何一个学过免疫学的本科生都知道，CD4⁺T细胞是最经典的T细胞亚群之一。

"这个模型就像一个人读完了《战争与和平》，却不知道拿破仑是谁，"他后来在一次会议上吐槽道，"因为小说里从头到尾都没出现'拿破仑'这个名字。"

这个黑色幽默般的吐槽，精准地命中了单细胞大模型——乃至所有生物信息学AI——的一个核心困境：你喂给AI的数据里，藏着它不知道的"常识"。

数据自学 vs. 有书不读

我们先来做一个比喻。

想象你要培养一个学生成为细胞生物学专家。你有两种教育方式：

方式A（纯数据自学）：把他关在图书馆里，里面没有一本教科书，只有一堆原始实验记录——成千上万份Western blot条带图、显微镜照片、流式细胞术的散点图。告诉他："你自己看，看出什么规律就是什么。"

方式B（知识辅助）：给他一本《分子细胞生物学》（Lodish），让他知道哪些蛋白是转录因子、哪些基因属于同一个信号通路、细胞周期分几个阶段，然后再去读原始数据。

绝大多数单细胞大模型的预训练，走的是方式A。它们在海量的基因表达矩阵中寻找模式，依靠transformer的注意力机制捕捉基因之间的共表达关系。这种纯粹从数据中学习的方式确实很强大——Geneformer在3000万个细胞上学到了丰富的细胞表征，scGPT能够准确地完成细胞类型注释。

但当数据本身存在偏见、稀疏或无法捕捉某些高阶关系时，问题就来了。比如：

转录因子NF-κB和炎症因子IL-6的关系，在单细胞数据中可能因为表达量低、批次效应等原因无法被稳定地捕捉，但任何一个生物学家都知道它们是"铁杆搭档"。
某些基因在特定组织中几乎不表达，但在发育的特定时间窗口短暂高表达——如果训练数据中没有覆盖这个窗口，模型就永远学不到这段关系。
基因A激活基因B、基因B抑制基因C这样的调控链，在表达矩阵中表现为复杂的非线性关系，纯数据驱动的方法可能需要海量数据才能学到，但一张KEGG通路图就画得明明白白。

这就像让一个人通过观察每天的天气来学习气象学——他是能学会一些规律，但如果给他一本气象学的教科书，效率会高得多。

如何给AI"塞"一本教科书？

那么，怎么把人类积累了上百年的生物学知识"喂"给单细胞大模型呢？目前学界主要有三条路线。

路线一：先验知识做约束——"这俩基因必须在一起"

最直接的方法是在模型的训练目标中加入知识约束。例如，GeneCompass模型在预训练时，除了传统的掩码基因预测（masked gene prediction），还额外增加了一个任务：判断两个基因是否属于同一个已知的调控关系。这些"已知调控关系"来自现有的基因调控网络数据库。

这相当于边让学生看原始数据，边在耳边提醒："记住，NF-κB和IL-6是一家的，别把它们拆散了。"

技术上，这通常通过在损失函数中加入对比学习项来实现：正样本对（已知有调控关系的基因对）被拉近，负样本对（随机配对的基因）被推远。模型既要从数据中学习表达模式，又必须"尊重"已知的生物学事实。

路线二：知识图谱嵌入——"给每个基因画一张社交网络图"

第二种方法更精巧：把基因之间的关系（共表达、共调控、同一条通路、同一个蛋白复合体……）用知识图谱表示出来，然后通过图神经网络（GNN）将知识图谱编码成向量，与基因表达嵌入融合。

以PINNACLE模型为代表的工作就是走的这条路。它将蛋白质相互作用网络、通路数据库、单细胞表达数据等多层级信息整合在一个图结构中，让模型在预测时自然地考虑到基因的"社交关系"。

一个生动的比喻：如果你要了解一个人的职业，只知道他每天几点出门、几点回家（表达数据）是不够的。但你如果知道他经常和律师、法官一起吃饭（知识图谱），你自然会猜他可能也是个法律从业者。单细胞大模型的知识图谱增强，做的就是这件事。

路线三：自然语言知识桥接——"让ChatGPT当生物学家教"

第三条路线是最晚出现但也最具想象力的：利用大语言模型（LLM）中沉淀的生物学知识来增强单细胞模型。

GenePT的论文提出了一个简单到令人惊讶的方法：不需要让单细胞模型重新学习生物学知识，而是直接用LLM为每个基因生成一个"知识摘要向量"。具体做法是，把基因的功能描述（来自NCBI Gene数据库的自然语言文本）输入到GPT模型中，取出最后一层的嵌入向量，作为这个基因的"先验知识表示"，然后与表达数据中学习到的基因嵌入拼接或融合。

这意味着，单细胞模型不需要自己从零开始学"TP53是一个肿瘤抑制基因"——这件事GPT已经学过了，GenePT直接把"答案"抄过来。

更极端的例子是Cell2Sentence——它直接把单细胞表达数据翻译成自然语言句子（比如"这个细胞高表达CD3E、CD4、IL7R，低表达CD8A、NKG7……"），然后喂给LLM进行微调。这样，LLM在理解细胞时，可以同时调用它预训练时学到的所有生物学知识。

知易行难：知识整合的代价

听起来很美好，但给AI"教科书"并非没有代价。

第一，知识是旧的，数据是新的。 教科书里写的"常识"可能是错的、过时的，或者在某些特定条件下不成立。如果模型过于相信给定的先验知识，它可能对数据中的新发现"视而不见"。GeneCompass的论文中就指出，需要在知识约束和数据驱动学习之间找到一个微妙的平衡。

第二，知识覆盖不完整。 人类目前的生物学知识图谱只是冰山一角——我们有大约2万个蛋白质编码基因，但高质量的功能注释只覆盖了一小部分。如果先验知识只覆盖了2000个"明星基因"，模型就可能对其他18000个基因"区别对待"。

第三，计算代价。 将知识图谱嵌入、LLM产生的向量与单细胞表达嵌入融合，意味着模型必须处理不同模态、不同维度的信息，这增加了计算复杂度和内存占用。

未来的方向：通往"有常识"的单细胞AI

回到开头那个把CD4⁺T细胞认成"未知"的模型。如果我们在预训练时告诉它"CD4是辅助T细胞的标志基因"这一条简单的先验知识——就够了。它不需要重新训练，也不需要更多数据。

这就是先验知识整合的核心魅力：让AI拥有"常识"，而不是事事从零开始。

展望未来，单细胞基础模型的知识整合正在走向以下几个方向：

动态知识图谱：不再使用静态的基因关系数据库，而是让模型在学习过程中不断更新自己的"知识图谱"
因果推断：从单纯的"相关性"知识走向"因果性"知识——不仅是"A和B共存"，而是"A激活B"
多模态知识融合：将蛋白质结构、代谢通路、药物靶点、临床表型等不同层次的知识整合进同一个模型

2024年，黄家明的那篇吐槽后来催生了他自己的一项工作——在单细胞模型中引入基因本体论（Gene Ontology）的结构化知识。这一次，他的模型不仅认出了CD4⁺T细胞，还正确地推断出了它可能参与的免疫调节功能。

"AI不需要考试前通宵背教科书，"他在论文的最后一段写道，"但给它发一本参考书，总归不是坏事。"

一句话总结：给单细胞大模型整合结构化生物学知识，就像给一个聪明但无知的学生发了一本教科书——它学得更快、更准，但也要小心不要让"旧知识"遮蔽了"新发现"。