Evaluation: 当大模型遇上细胞：谁来给 AI 考官打出公正的分数？

2026-05-17 ·

How to evaluate single-cell foundation models.

Overview

WeChat科普推文第12期 · 2026-05-17
话题: 单细胞大模型评测、基准数据集、评估指标

2023 年夏天，多伦多大学的 Bo Wang 实验室发布了 scGPT——一个用 3300 万个人类单细胞数据训练出来的大模型。论文的补充材料厚达 47 页，其中整整 18 页专门用来展示评测结果。但论文审稿阶段，作者收到的最尖锐的问题不是"你们的 Transformer 架构为什么有效"，也不是"怎么处理 dropout"，而是——

"你们凭什么说它比别人的模型更好？"

这个问题问到了整个领域的痛处。评测算个什么东西？谁来评？用什么标准？在单细胞大模型这个方兴未艾的领域里，几乎每一篇论文都在宣称自己是"state-of-the-art"（最优水平）。但如果你真的逐篇对比它们的"成绩单"，会发现一个让人啼笑皆非的事实：大家的考试根本不一样——有人用人类胰腺数据，有人用小鼠大脑皮层；有人看细胞类型注释的准确率，有人报告基因表达重建的相关系数；有人测试 3 个数据集，有人跑了 20 个。

这相当于让一个短跑运动员、一个举重选手和一个马拉松选手同台竞技，但裁判手里握着的却是一张花样滑冰的评分表。

今天，我们就来认真聊聊这个问题：如何评估一个单细胞大模型的好坏？ 答案，比"考个试打个分"要复杂得多——也精彩得多。

一、为什么传统"考试"失灵了？

在人工智能的发展史上，标准化的基准测试（benchmark）功不可没。ImageNet 成就了计算机视觉的黄金十年；GLUE 和 SuperGLUE 推动了自然语言处理的高速迭代。规则很简单：每个人都用同样的测试集、同样的评价指标，谁的分数高谁就是老大。

但单细胞数据天然地"不标准"。

首先，不同实验室、不同测序平台、不同组织来源得到的基因表达数据，其统计分布天差地别。用 10x Genomics 测出来的细胞，和用 Smart-seq2 测出来的细胞，即便来自同一组织，表达谱也长得不一样——这就是我们之前讨论过的"批次效应"。一个在某个数据集上表现优异的模型，换一套数据可能立刻"原形毕露"。

其次，scRNA-seq 数据有一个让人头疼的特性：极度稀疏。一个典型数据集中，超过 90% 的基因表达值都是零。但这不意味着那些基因真的没表达——只是因为测序深度不够，信使 RNA 分子没有被"抓拍"到。这种被称为"dropout"的现象，让传统的误差指标（比如均方误差 MSE、决定系数 R²）变得近乎无用。模型"猜"对一个零值，到底是理解到位了，还是瞎猫碰上死耗子？你根本分不清。

更棘手的是第三个问题："正确答案"本身就不存在。 细胞类型的定义充满了学术争议。一个同时表达 CD4 和 IFN-γ 的 T 细胞，到底是"活化的 CD4⁺ T 细胞"、还是"Th1 型辅助 T 细胞"，还是两者都对？免疫学家自己都经常意见不一。如果连"标准答案"的边界都是模糊的，你让 AI 做选择题，出的却是一道没有唯一正解的问答题——这评测怎么做？

所以，给单细胞大模型打分，本质上是在一个没有标尺、答案模糊、考场条件千变万化的世界里，试图给出公允的评判。好比在流沙上盖房子——费了九牛二虎之力，地基随时可能下陷。

二、多维度"体检"：不只看一张成绩单

正因为单一指标不可靠，研究者们发展出了一套"组合拳"式的评测体系。这不是一张简单的成绩单，而是一次全面的体检。

（1）细胞类型注释 —— 最直观的"认人"测试

给模型一个陌生的细胞，让它回答"你是谁"——是 T 细胞还是 B 细胞？是神经元还是星形胶质细胞？这是单细胞领域最经典的任务。模型通常的做法是：把每个细胞映射到一个高维向量空间（embedding），然后看它最近邻的已标注细胞是什么类型。

但这里面藏着一个陷阱：如果训练集和测试集是从同一个数据集中切分出来的，模型的高准确率可能只是"记住"了这个特定数据集里的噪声模式，而非真正学会了识别细胞类型的生物学本质。跨数据集的注释准确率——用肺的数据训练、去标注胰腺的细胞——才是更硬核的考验。

（2）基因表达重建 —— "完形填空"考试

大多数单细胞大模型采用的是自监督学习：训练时随机遮住一部分基因，让模型根据其他基因的表达水平去"猜"被遮住的值。这跟 BERT 做 masked language modeling 异曲同工——把一句话里的某个词遮住，让模型根据上下文填空。

"在细胞核内，______ 负责 DNA 的转录。"

一个读过足够多生物学文本的模型很容易填出"RNA 聚合酶"。同样，一个看过足够多细胞表达谱的模型，应该能从 CD3E、CD4 的高表达中推断出 CD8A 是否也应该高表达。但 dropout 这个"幽灵"总在暗中捣乱——被遮住的基因碰巧就是零，模型"猜中"了零，不代表它真的懂了调控逻辑。它可能只是学会了"当测序深度低时，全部猜零就行"。

（3）批次整合 —— "消除噪音"测评

一个优秀的单细胞大模型应该具备这样一种能力：抹平无关的技术变异（批次效应），同时保留有意义的生物学变异。评测方法是把来自不同批次的数据投影到模型的 embedding 空间，看不同批次的同类型细胞是否紧密混在一起（去除了技术噪音），而不同类型的细胞又是否分离清晰（保留了生物信号）。这就像一个优秀的翻译：抹掉口音差异，但不改变话语的含义。

（4）扰动预测 —— 真正的"理解"测试

这是最有生物学深度的一项评测。假设我们把某个基因敲除，或者给细胞施加一种药物，细胞的全局基因表达会如何变化？如果模型能准确预测这种变化，说明它不只学会了"背诵"表达谱的模式，而是真正内化了基因调控网络的因果逻辑。2024 年发表在 Nature Methods 上的一项研究就以此为"试金石"来检验一系列单细胞大模型——结果发现，虽然部分模型在某些基因上表现惊艳，但在全局扰动预测上仍有很长的路要走。

（5）零样本泛化 —— 终极的"举一反三"

用人类数据训练的模型，能不能直接读懂小鼠的细胞？用健康组织训练的模型，能不能发现肿瘤中的异常？这种跨物种、跨组织、跨疾病的泛化能力，是大模型最令人着迷的特质，也恰恰是最难评测的一环。你需要的不是一个测试集，而是一整套"从未见过"的场景拼图。

三、基准数据集的诞生与尴尬

面对如此复杂的评测需求，一些标杆性的基准框架应运而生。

scIB（单细胞整合基准） 是最早的系统性评测框架之一。它像一个综合评分表，把批次整合、生物学保守性等多个指标加权汇总成一个总分。scIB 在一定程度上统一了评测语言，让不同方法之间有了可比性。但它也有明显的时代局限性：它的设计初衷是测评数据整合算法，而非今天意义上的"大模型"。

Celling（来自陈氏实验室）是一个更聚焦于大模型的评测框架，预选了多个数据集和任务，提供"一键式"评测流程。使用者只需把模型的 embedding 输入，就能自动生成一份详尽的成绩单。

但一个根本性的问题始终悬而未决：这些基准测试到底在测什么？

2024 年，一篇引发广泛讨论的预印本给出了一个令人不安的答案。研究者做了一个实验：严格按组织类型划分训练集和测试集——用肺的数据训练，用肝的数据测试。结果，几乎所有模型的性能都出现了断崖式下跌。原来，很多模型在标准基准上的高分，并非来自深刻的生物学理解，而只是学会了数据集中某些"组织特异性的简单模式"。换一个组织，这些模式就不灵了。

这暴露了一个令人脸红的事实：我们引以为傲的评测体系，可能只是在训练一群擅长应试的"刷题机器"。

四、中国团队：让评测不再只是"西方叙事"

值得一提的是，中国科学家在单细胞大模型评测的问题上做出了独特且重要的贡献。

清华大学的团队在开发 scFoundation 时并没有止步于模型本身的架构创新。他们构建了一套包含 33 个下游任务的庞大评测体系，覆盖了细胞类型注释、扰动预测、药物敏感性预测、基因调控网络推断等多个维度——这是当时已发表工作中最为全面的单细胞大模型评测之一。这种"系统性体检"的思路影响了后来很多工作的评测设计。

北京大学的研究者则聚焦于一个更隐蔽但更致命的问题：数据泄漏。在很多评测中，训练数据和测试数据并非真正独立——它们可能来自同一个实验、同一个供体、甚至同一个细胞的两次随机抽样。当这种泄漏发生时，模型的高分其实是一种"变相作弊"。北大的团队提出了一套严格的"数据隔离"评测协议，确保评测结果不受这种混淆的影响。

另外，浙江大学、中国科学院、同济大学等团队也积极参与了国际基准数据集和评测框架的建设。中国团队的深度参与，让这个领域的评测体系不再是西方人群和模式生物的"独角戏"——亚洲人群数据、本土疾病模型正在被纳入标准评测流程，推动整个领域走向真正的"普适性"。

五、重新定义"好模型"：从排名到匹配

面对评测的困境，一部分研究者开始反思路径本身：我们是不是问了个错问题？

单细胞大模型的"好"，可能根本不该是一个一维标尺上的数字。一个善于预测基因扰动的模型（对药物发现极有价值），也许在做细胞类型注释时只是"还行"的水平。一个能在零样本条件下跨物种工作的模型，在某些特定组织中的精度可能不如专为那个组织定制的"小专家模型"。这就像评价一个人：你是好的钢琴家，还是好的数学家，还是好的朋友？——不同的评判框架，不同的答案。

由此，一种"任务驱动"的评测范式开始浮现：不要笼统地问"这个模型好不好"，而要问"这个模型在你的任务上好不好"。评测的目的不是排出一张"龙虎榜"，而是帮助生物学家找到最适合自己那个特定问题的工具。

更激进的一种思路是：用湿实验来评测。模型预测某个基因敲除后的表达变化——去真的做一次 CRISPR 实验来验证；模型声称发现了一个新的细胞亚群——用流式细胞术或空间转录组学去逐一确认。这不只是评测，更是将大模型从"硅基玩具"升格为"科学发现引擎"的关键一步。

六、AI 评测 AI？评测的终极悖论

最后，一个让人既兴奋又不安的趋势正悄然浮现：用 AI 来评测 AI。

2024 年底，一些团队开始尝试用 GPT-4 来辅助评估单细胞大模型的输出。具体做法是：把模型预测的差异表达基因列表喂给 GPT-4，让它判断这些基因富集的通路是否合乎生物学逻辑。这有点像请一位博学但非专业的"通才评委"来审读一篇分子生物学论文——他不一定懂所有的技术细节，但偶尔能给出出人意料的洞见。

但这也引发了更深的哲学困惑：当评测体系越来越复杂、越来越依赖 AI 本身，我们还能信任评测结果吗？一个 AI 说另一个 AI 好，这到底是客观评价，还是"同行相护"的算法回音壁？

这不仅是单细胞大模型的困境，也是整个 AI 领域的共同命题。

或许绕了一圈，我们最终需要一个最朴素、最不容置疑的标准：这个模型，帮我们发现了什么我们之前不知道的东西？ 一个真正好的单细胞大模型，不是在几十个指标上都拿第一名，而是在某个深夜，让一个生物学家盯着屏幕上的预测结果，喃喃自语："这个，我以前从没想过。"

一句话总结：评测单细胞大模型，不是给 AI 印一张排名成绩单，而是在一个答案模糊、考场多变的世界里，帮不同的问题找到最趁手的那把钥匙——而最好的评测，永远是它帮我们看见了什么从前没看见的风景。