Chinese Teams: 在细胞的"语言"中寻找语法：中国团队的单细胞AI征途

2026-05-19 ·

Contributions from Chinese research teams in single-cell AI.

Overview

WeChat科普推文第14期 · 2026-05-19
话题: 中国团队贡献、产学研协同

2019年深秋，清华大学生物信息学实验室里，一位博士生的屏幕上映着密密麻麻的基因表达热图。她已经连续三周在做同一件事：把几十万个单细胞数据投影到二维平面上，靠肉眼观察每一个"细胞簇"的边界，然后根据文献中记载的"标志基因"——比如 T 细胞应该高表达 CD3D，B 细胞应该高表达 CD19——逐个给这些簇贴上细胞类型的标签。

"做完一批数据，眼睛都是花的，"她后来回忆道，"我当时想，有没有可能让 AI 来干这件事？"

她不知道的是，这个念头将在未来几年里，引出一场由中国科学家主导的"细胞语言"革命。

一、一个奇怪的悖论：细胞数据"爆炸"，但读得懂的很少

先花一分钟理解问题的规模。

一个成年人体内大约有 37 万亿个细胞。过去十年，单细胞 RNA 测序（scRNA-seq）技术的成本以摩尔定律般的速度下降——测一个细胞的转录组，从 2012 年的数百美元降到了如今的不到一美分。结果就是数据的海啸：截至 2025 年底，全球公共数据库中存储的单细胞转录组数据已经突破 5 亿个细胞。

但这里有一个让人哭笑不得的悖论：数据量越大，"读得懂"的比例反而越低。

为什么？因为给细胞"贴标签"是一道纯手工工序。生物学家需要根据已知的标志基因来推断细胞类型，而每个数据集使用的实验平台、测序深度、组织来源都不同，手动标注的标准也千差万别。更麻烦的是，许多稀有细胞类型根本没有已知的标志基因——你无法标注你不认识的东西。

这就好比一个图书馆收到了 5 亿本书，但图书管理员只会说三种语言，而且所有的书脊上都没有标题。你只能一本一本地翻，凭经验猜这本书是小说、教科书还是食谱。

二、scBERT：一个"叛逆"的想法

2022 年，一篇发表在 Nature Machine Intelligence 上的论文提出了一个在当时看来颇为大胆的方案。

论文的标题是《scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data》。作者团队来自腾讯 AI Lab、清华大学、北京大学等机构——一支典型的产学研联合体。

他们的核心逻辑其实很简单：如果你把基因当作"单词"，把细胞的基因表达谱当作一个"句子"，那么给细胞分类，本质上就是一个自然语言理解问题——和让 AI 判断一篇文章是体育新闻还是财经报道，没有本质区别。

BERT 是 2018 年谷歌提出的革命性自然语言模型，它通过"完形填空"式的预训练（随机遮住一些单词让模型猜），让 AI 学会了语言的深层规律。scBERT 的巧妙之处在于，它意识到基因之间没有"顺序"——基因 A 排在基因 B 前面，对于一个细胞来说是毫无意义的——所以它放弃了 BERT 原版的位置编码，换上了一种专门处理无序集合的注意力机制。

更关键的是，scBERT 不依赖"标志基因"来分类。它通过在海量公开数据上预训练，自己学会了哪些基因组合在一起意味着"这是一个 T 细胞"。换句话说，它不是在查字典，而是在学语法。

这个想法的成效出人意料：scBERT 在多个基准数据集上，对已知细胞类型的分类准确率超过了当时所有主流方法，更令人兴奋的是，它对从未见过的稀有细胞类型也表现出了惊人的识别能力——这是传统方法完全做不到的。

三、从 BERT 到 GPT：scGPT 给出中国答案

如果说 scBERT 证明了"细胞语言"存在的可能性，那么 scGPT 则把这件事往前推进了一大步。

scGPT 的名字本身就充满雄心——直接对标 OpenAI 的 GPT。2024 年发表在 Nature Methods 上，由崔昊天（多伦多大学 / Vector Institute）、王博等主导，核心作者中多位具有中国高校背景。

和 scBERT 不同，scGPT 采用生成式预训练策略：它让模型根据部分基因的表达值，去预测被"遮住"的那些基因该表达多少。这就像是让 AI 看着一幅被打满马赛克的细胞画像，去补全缺失的颜色。

这个训练方式的惊人之处在于，模型学到的不仅是"这个细胞是谁"，还有"这个细胞内部正在发生什么"——哪些基因正在被转录，哪些通路被激活，甚至这个细胞处于细胞周期的哪个阶段。

scGPT 的一个标志性成果，是它在基因扰动预测（perturbation prediction）上的表现。简单说，如果科学家想知道"敲除基因 X 会对细胞产生什么影响"，传统做法是花几个月做湿实验。scGPT 的答案是：在它的"细胞语料库"里，很可能已经见过基因 X 被抑制时其他基因的变化模式——它可以直接用 in silico 的方式预测结果。

这项能力如果大规模落地，将彻底改变药物靶点筛选的效率。

四、不止模型：基础设施的"中国版图"

除了训练模型本身，中国团队在单细胞数据基础设施建设上也扮演了关键角色。

2023 年前后，中国科学院、北京大学、清华大学等机构的研究者参与了多个大规模单细胞数据整合项目，包括对 Human Cell Atlas（人类细胞图谱）的数据贡献。与此同时，多个国产单细胞数据库上线，涵盖了从胚胎发育到肿瘤微环境的丰富数据场景。

值得注意的是 scFoundation——一个具有约 1 亿参数的单细胞基础模型，由清华大学等机构联合开发，在约 5000 万个人类细胞上完成预训练。它的设计理念是"大而全"：用一个模型覆盖尽可能多的组织类型和生物学条件，希望在面对新任务时，只需极少量的微调数据就能达到专业模型的水平。

这和 ChatGPT 的逻辑如出一辙：学得越多，举一反三的能力越强。

五、为什么是中国团队？

一个自然的问题是：为什么在单细胞大模型这个赛道上，中国团队表现得如此活跃？

答案可能藏在两个维度里。

第一是数据。 中国拥有全球最庞大的人口基数和最活跃的临床样本积累。从大型队列研究到肿瘤基因组项目，中国在单细胞数据的"原材料"上有得天独厚的优势。

第二是 AI 人才密度。 过去十年，中国的计算机科学和人工智能教育爆发式增长，培养了一大批既懂深度学习又愿意投身交叉学科的年轻研究者。单细胞大模型恰好处于 AI 和生物学的交叉点上——这是一个"两栖"人才最稀缺也最值钱的领域。

一位在欧洲从事单细胞研究的华裔学者在一次访谈中说过一句话："在单细胞 AI 这个领域，如果看论文的第一作者名单，你会发现中国名字的比例高得不成比例。"

这不是偶然。

六、未竟之路

当然，挑战依然巨大。

目前所有单细胞大模型都有一个共同的软肋：批次效应（batch effect）。不同实验室、不同测序平台、不同实验条件下产生的数据，在统计分布上存在系统性偏差。一个在 A 平台上训练出来的模型，用到 B 平台的数据上时，性能往往大打折扣。如何让模型真正学会"跨平台泛化"，是所有人都在攻克的技术难点。

另一个更大的问题是：生物学意义验证。模型可以在 benchmark 上拿到漂亮的分数，但它在真实生物学问题上的预测——比如它说"基因 X 是治疗某疾病的新靶点"——最终还是需要湿实验来验证。从"AI 说了算"到"实验室验证"，这条路还很长。

但回顾过去五年，从 2019 年那位清华博士生手工标注细胞，到 2024 年 scGPT 被 Nature Methods 接收，中国团队在这条路上的速度令人印象深刻。

如果说单细胞大模型是在浩瀚的细胞宇宙中绘制星图，那中国团队已经为这幅星图标注了许多关键坐标。接下来的问题是：谁能第一个找到通往"通用细胞语法"的罗塞塔石碑？

这个答案，可能正在某个实验室的深夜屏幕上悄然浮现。

一句话总结：从算盘到算法，中国科学家正在用 AI 重新定义"读懂细胞"的方式——不是更努力地一个一个地看，而是教会机器看穿 37 万亿个细胞背后的共同语法。