← Back to scModels Other

Evaluation: 当大模型遇上细胞:谁来给 AI 考官打出公正的分数?

Evaluation: 当大模型遇上细胞:谁来给 AI 考官打出公正的分数?
2026-05-17 ·

How to evaluate single-cell foundation models.

Overview

WeChat科普推文 第12期 · 2026-05-17
话题: 单细胞大模型评测、基准数据集、评估指标

2023 年夏天,多伦多大学的 Bo Wang 实验室发布了 scGPT——一个用 3300 万个人类单细胞数据训练出来的大模型。论文的补充材料厚达 47 页,其中整整 18 页专门用来展示评测结果。但论文审稿阶段,作者收到的最尖锐的问题不是"你们的 Transformer 架构为什么有效",也不是"怎么处理 dropout",而是——

"你们凭什么说它比别人的模型更好?"

这个问题问到了整个领域的痛处。评测算个什么东西?谁来评?用什么标准?在单细胞大模型这个方兴未艾的领域里,几乎每一篇论文都在宣称自己是"state-of-the-art"(最优水平)。但如果你真的逐篇对比它们的"成绩单",会发现一个让人啼笑皆非的事实:大家的考试根本不一样——有人用人类胰腺数据,有人用小鼠大脑皮层;有人看细胞类型注释的准确率,有人报告基因表达重建的相关系数;有人测试 3 个数据集,有人跑了 20 个。

这相当于让一个短跑运动员、一个举重选手和一个马拉松选手同台竞技,但裁判手里握着的却是一张花样滑冰的评分表。

今天,我们就来认真聊聊这个问题:如何评估一个单细胞大模型的好坏? 答案,比"考个试打个分"要复杂得多——也精彩得多。


一、为什么传统"考试"失灵了?

在人工智能的发展史上,标准化的基准测试(benchmark)功不可没。ImageNet 成就了计算机视觉的黄金十年;GLUE 和 SuperGLUE 推动了自然语言处理的高速迭代。规则很简单:每个人都用同样的测试集、同样的评价指标,谁的分数高谁就是老大。

但单细胞数据天然地"不标准"。

首先,不同实验室、不同测序平台、不同组织来源得到的基因表达数据,其统计分布天差地别。用 10x Genomics 测出来的细胞,和用 Smart-seq2 测出来的细胞,即便来自同一组织,表达谱也长得不一样——这就是我们之前讨论过的"批次效应"。一个在某个数据集上表现优异的模型,换一套数据可能立刻"原形毕露"。

其次,scRNA-seq 数据有一个让人头疼的特性:极度稀疏。一个典型数据集中,超过 90% 的基因表达值都是零。但这不意味着那些基因真的没表达——只是因为测序深度不够,信使 RNA 分子没有被"抓拍"到。这种被称为"dropout"的现象,让传统的误差指标(比如均方误差 MSE、决定系数 R²)变得近乎无用。模型"猜"对一个零值,到底是理解到位了,还是瞎猫碰上死耗子?你根本分不清。

更棘手的是第三个问题:"正确答案"本身就不存在。 细胞类型的定义充满了学术争议。一个同时表达 CD4 和 IFN-γ 的 T 细胞,到底是"活化的 CD4⁺ T 细胞"、还是"Th1 型辅助 T 细胞",还是两者都对?免疫学家自己都经常意见不一。如果连"标准答案"的边界都是模糊的,你让 AI 做选择题,出的却是一道没有唯一正解的问答题——这评测怎么做?

所以,给单细胞大模型打分,本质上是在一个没有标尺、答案模糊、考场条件千变万化的世界里,试图给出公允的评判。好比在流沙上盖房子——费了九牛二虎之力,地基随时可能下陷。


二、多维度"体检":不只看一张成绩单

正因为单一指标不可靠,研究者们发展出了一套"组合拳"式的评测体系。这不是一张简单的成绩单,而是一次全面的体检。

(1)细胞类型注释 —— 最直观的"认人"测试

给模型一个陌生的细胞,让它回答"你是谁"——是 T 细胞还是 B 细胞?是神经元还是星形胶质细胞?这是单细胞领域最经典的任务。模型通常的做法是:把每个细胞映射到一个高维向量空间(embedding),然后看它最近邻的已标注细胞是什么类型。

但这里面藏着一个陷阱:如果训练集和测试集是从同一个数据集中切分出来的,模型的高准确率可能只是"记住"了这个特定数据集里的噪声模式,而非真正学会了识别细胞类型的生物学本质。跨数据集的注释准确率——用肺的数据训练、去标注胰腺的细胞——才是更硬核的考验。

(2)基因表达重建 —— "完形填空"考试

大多数单细胞大模型采用的是自监督学习:训练时随机遮住一部分基因,让模型根据其他基因的表达水平去"猜"被遮住的值。这跟 BERT 做 masked language modeling 异曲同工——把一句话里的某个词遮住,让模型根据上下文填空。

"在细胞核内,______ 负责 DNA 的转录。"

一个读过足够多生物学文本的模型很容易填出"RNA 聚合酶"。同样,一个看过足够多细胞表达谱的模型,应该能从 CD3E、CD4 的高表达中推断出 CD8A 是否也应该高表达。但 dropout 这个"幽灵"总在暗中捣乱——被遮住的基因碰巧就是零,模型"猜中"了零,不代表它真的懂了调控逻辑。它可能只是学会了"当测序深度低时,全部猜零就行"。

(3)批次整合 —— "消除噪音"测评

一个优秀的单细胞大模型应该具备这样一种能力:抹平无关的技术变异(批次效应),同时保留有意义的生物学变异。评测方法是把来自不同批次的数据投影到模型的 embedding 空间,看不同批次的同类型细胞是否紧密混在一起(去除了技术噪音),而不同类型的细胞又是否分离清晰(保留了生物信号)。这就像一个优秀的翻译:抹掉口音差异,但不改变话语的含义。

(4)扰动预测 —— 真正的"理解"测试

这是最有生物学深度的一项评测。假设我们把某个基因敲除,或者给细胞施加一种药物,细胞的全局基因表达会如何变化?如果模型能准确预测这种变化,说明它不只学会了"背诵"表达谱的模式,而是真正内化了基因调控网络的因果逻辑。2024 年发表在 Nature Methods 上的一项研究就以此为"试金石"来检验一系列单细胞大模型——结果发现,虽然部分模型在某些基因上表现惊艳,但在全局扰动预测上仍有很长的路要走。

(5)零样本泛化 —— 终极的"举一反三"

用人类数据训练的模型,能不能直接读懂小鼠的细胞?用健康组织训练的模型,能不能发现肿瘤中的异常?这种跨物种、跨组织、跨疾病的泛化能力,是大模型最令人着迷的特质,也恰恰是最难评测的一环。你需要的不是一个测试集,而是一整套"从未见过"的场景拼图。


三、基准数据集的诞生与尴尬

面对如此复杂的评测需求,一些标杆性的基准框架应运而生。

scIB(单细胞整合基准) 是最早的系统性评测框架之一。它像一个综合评分表,把批次整合、生物学保守性等多个指标加权汇总成一个总分。scIB 在一定程度上统一了评测语言,让不同方法之间有了可比性。但它也有明显的时代局限性:它的设计初衷是测评数据整合算法,而非今天意义上的"大模型"。

Celling(来自陈氏实验室)是一个更聚焦于大模型的评测框架,预选了多个数据集和任务,提供"一键式"评测流程。使用者只需把模型的 embedding 输入,就能自动生成一份详尽的成绩单。

但一个根本性的问题始终悬而未决:这些基准测试到底在测什么?

2024 年,一篇引发广泛讨论的预印本给出了一个令人不安的答案。研究者做了一个实验:严格按组织类型划分训练集和测试集——用肺的数据训练,用肝的数据测试。结果,几乎所有模型的性能都出现了断崖式下跌。原来,很多模型在标准基准上的高分,并非来自深刻的生物学理解,而只是学会了数据集中某些"组织特异性的简单模式"。换一个组织,这些模式就不灵了。

这暴露了一个令人脸红的事实:我们引以为傲的评测体系,可能只是在训练一群擅长应试的"刷题机器"


四、中国团队:让评测不再只是"西方叙事"

值得一提的是,中国科学家在单细胞大模型评测的问题上做出了独特且重要的贡献。

清华大学的团队在开发 scFoundation 时并没有止步于模型本身的架构创新。他们构建了一套包含 33 个下游任务的庞大评测体系,覆盖了细胞类型注释、扰动预测、药物敏感性预测、基因调控网络推断等多个维度——这是当时已发表工作中最为全面的单细胞大模型评测之一。这种"系统性体检"的思路影响了后来很多工作的评测设计。

北京大学的研究者则聚焦于一个更隐蔽但更致命的问题:数据泄漏。在很多评测中,训练数据和测试数据并非真正独立——它们可能来自同一个实验、同一个供体、甚至同一个细胞的两次随机抽样。当这种泄漏发生时,模型的高分其实是一种"变相作弊"。北大的团队提出了一套严格的"数据隔离"评测协议,确保评测结果不受这种混淆的影响。

另外,浙江大学、中国科学院、同济大学等团队也积极参与了国际基准数据集和评测框架的建设。中国团队的深度参与,让这个领域的评测体系不再是西方人群和模式生物的"独角戏"——亚洲人群数据、本土疾病模型正在被纳入标准评测流程,推动整个领域走向真正的"普适性"。


五、重新定义"好模型":从排名到匹配

面对评测的困境,一部分研究者开始反思路径本身:我们是不是问了个错问题?

单细胞大模型的"好",可能根本不该是一个一维标尺上的数字。一个善于预测基因扰动的模型(对药物发现极有价值),也许在做细胞类型注释时只是"还行"的水平。一个能在零样本条件下跨物种工作的模型,在某些特定组织中的精度可能不如专为那个组织定制的"小专家模型"。这就像评价一个人:你是好的钢琴家,还是好的数学家,还是好的朋友?——不同的评判框架,不同的答案。

由此,一种"任务驱动"的评测范式开始浮现:不要笼统地问"这个模型好不好",而要问"这个模型在你的任务上好不好"。评测的目的不是排出一张"龙虎榜",而是帮助生物学家找到最适合自己那个特定问题的工具。

更激进的一种思路是:用湿实验来评测。模型预测某个基因敲除后的表达变化——去真的做一次 CRISPR 实验来验证;模型声称发现了一个新的细胞亚群——用流式细胞术或空间转录组学去逐一确认。这不只是评测,更是将大模型从"硅基玩具"升格为"科学发现引擎"的关键一步。


六、AI 评测 AI?评测的终极悖论

最后,一个让人既兴奋又不安的趋势正悄然浮现:用 AI 来评测 AI。

2024 年底,一些团队开始尝试用 GPT-4 来辅助评估单细胞大模型的输出。具体做法是:把模型预测的差异表达基因列表喂给 GPT-4,让它判断这些基因富集的通路是否合乎生物学逻辑。这有点像请一位博学但非专业的"通才评委"来审读一篇分子生物学论文——他不一定懂所有的技术细节,但偶尔能给出出人意料的洞见。

但这也引发了更深的哲学困惑:当评测体系越来越复杂、越来越依赖 AI 本身,我们还能信任评测结果吗?一个 AI 说另一个 AI 好,这到底是客观评价,还是"同行相护"的算法回音壁?

这不仅是单细胞大模型的困境,也是整个 AI 领域的共同命题。

或许绕了一圈,我们最终需要一个最朴素、最不容置疑的标准:这个模型,帮我们发现了什么我们之前不知道的东西? 一个真正好的单细胞大模型,不是在几十个指标上都拿第一名,而是在某个深夜,让一个生物学家盯着屏幕上的预测结果,喃喃自语:"这个,我以前从没想过。"


一句话总结:评测单细胞大模型,不是给 AI 印一张排名成绩单,而是在一个答案模糊、考场多变的世界里,帮不同的问题找到最趁手的那把钥匙——而最好的评测,永远是它帮我们看见了什么从前没看见的风景。

Links

Tags