← Back to scModels Other

Chinese Teams: 在细胞的"语言"中寻找语法:中国团队的单细胞AI征途

Chinese Teams: 在细胞的"语言"中寻找语法:中国团队的单细胞AI征途
2026-05-19 ·

Contributions from Chinese research teams in single-cell AI.

Overview

WeChat科普推文 第14期 · 2026-05-19
话题: 中国团队贡献、产学研协同

2019年深秋,清华大学生物信息学实验室里,一位博士生的屏幕上映着密密麻麻的基因表达热图。她已经连续三周在做同一件事:把几十万个单细胞数据投影到二维平面上,靠肉眼观察每一个"细胞簇"的边界,然后根据文献中记载的"标志基因"——比如 T 细胞应该高表达 CD3D,B 细胞应该高表达 CD19——逐个给这些簇贴上细胞类型的标签。

"做完一批数据,眼睛都是花的,"她后来回忆道,"我当时想,有没有可能让 AI 来干这件事?"

她不知道的是,这个念头将在未来几年里,引出一场由中国科学家主导的"细胞语言"革命。


一、一个奇怪的悖论:细胞数据"爆炸",但读得懂的很少

先花一分钟理解问题的规模。

一个成年人体内大约有 37 万亿个细胞。过去十年,单细胞 RNA 测序(scRNA-seq)技术的成本以摩尔定律般的速度下降——测一个细胞的转录组,从 2012 年的数百美元降到了如今的不到一美分。结果就是数据的海啸:截至 2025 年底,全球公共数据库中存储的单细胞转录组数据已经突破 5 亿个细胞

但这里有一个让人哭笑不得的悖论:数据量越大,"读得懂"的比例反而越低。

为什么?因为给细胞"贴标签"是一道纯手工工序。生物学家需要根据已知的标志基因来推断细胞类型,而每个数据集使用的实验平台、测序深度、组织来源都不同,手动标注的标准也千差万别。更麻烦的是,许多稀有细胞类型根本没有已知的标志基因——你无法标注你不认识的东西。

这就好比一个图书馆收到了 5 亿本书,但图书管理员只会说三种语言,而且所有的书脊上都没有标题。你只能一本一本地翻,凭经验猜这本书是小说、教科书还是食谱。


二、scBERT:一个"叛逆"的想法

2022 年,一篇发表在 Nature Machine Intelligence 上的论文提出了一个在当时看来颇为大胆的方案。

论文的标题是《scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data》。作者团队来自腾讯 AI Lab、清华大学、北京大学等机构——一支典型的产学研联合体。

他们的核心逻辑其实很简单:如果你把基因当作"单词",把细胞的基因表达谱当作一个"句子",那么给细胞分类,本质上就是一个自然语言理解问题——和让 AI 判断一篇文章是体育新闻还是财经报道,没有本质区别。

BERT 是 2018 年谷歌提出的革命性自然语言模型,它通过"完形填空"式的预训练(随机遮住一些单词让模型猜),让 AI 学会了语言的深层规律。scBERT 的巧妙之处在于,它意识到基因之间没有"顺序"——基因 A 排在基因 B 前面,对于一个细胞来说是毫无意义的——所以它放弃了 BERT 原版的位置编码,换上了一种专门处理无序集合的注意力机制。

更关键的是,scBERT 不依赖"标志基因"来分类。它通过在海量公开数据上预训练,自己学会了哪些基因组合在一起意味着"这是一个 T 细胞"。换句话说,它不是在查字典,而是在学语法。

这个想法的成效出人意料:scBERT 在多个基准数据集上,对已知细胞类型的分类准确率超过了当时所有主流方法,更令人兴奋的是,它对从未见过的稀有细胞类型也表现出了惊人的识别能力——这是传统方法完全做不到的。


三、从 BERT 到 GPT:scGPT 给出中国答案

如果说 scBERT 证明了"细胞语言"存在的可能性,那么 scGPT 则把这件事往前推进了一大步。

scGPT 的名字本身就充满雄心——直接对标 OpenAI 的 GPT。2024 年发表在 Nature Methods 上,由崔昊天(多伦多大学 / Vector Institute)、王博等主导,核心作者中多位具有中国高校背景。

和 scBERT 不同,scGPT 采用生成式预训练策略:它让模型根据部分基因的表达值,去预测被"遮住"的那些基因该表达多少。这就像是让 AI 看着一幅被打满马赛克的细胞画像,去补全缺失的颜色。

这个训练方式的惊人之处在于,模型学到的不仅是"这个细胞是谁",还有"这个细胞内部正在发生什么"——哪些基因正在被转录,哪些通路被激活,甚至这个细胞处于细胞周期的哪个阶段。

scGPT 的一个标志性成果,是它在基因扰动预测(perturbation prediction)上的表现。简单说,如果科学家想知道"敲除基因 X 会对细胞产生什么影响",传统做法是花几个月做湿实验。scGPT 的答案是:在它的"细胞语料库"里,很可能已经见过基因 X 被抑制时其他基因的变化模式——它可以直接用 in silico 的方式预测结果。

这项能力如果大规模落地,将彻底改变药物靶点筛选的效率。


四、不止模型:基础设施的"中国版图"

除了训练模型本身,中国团队在单细胞数据基础设施建设上也扮演了关键角色。

2023 年前后,中国科学院、北京大学、清华大学等机构的研究者参与了多个大规模单细胞数据整合项目,包括对 Human Cell Atlas(人类细胞图谱)的数据贡献。与此同时,多个国产单细胞数据库上线,涵盖了从胚胎发育到肿瘤微环境的丰富数据场景。

值得注意的是 scFoundation——一个具有约 1 亿参数的单细胞基础模型,由清华大学等机构联合开发,在约 5000 万个人类细胞上完成预训练。它的设计理念是"大而全":用一个模型覆盖尽可能多的组织类型和生物学条件,希望在面对新任务时,只需极少量的微调数据就能达到专业模型的水平。

这和 ChatGPT 的逻辑如出一辙:学得越多,举一反三的能力越强。


五、为什么是中国团队?

一个自然的问题是:为什么在单细胞大模型这个赛道上,中国团队表现得如此活跃?

答案可能藏在两个维度里。

第一是数据。 中国拥有全球最庞大的人口基数和最活跃的临床样本积累。从大型队列研究到肿瘤基因组项目,中国在单细胞数据的"原材料"上有得天独厚的优势。

第二是 AI 人才密度。 过去十年,中国的计算机科学和人工智能教育爆发式增长,培养了一大批既懂深度学习又愿意投身交叉学科的年轻研究者。单细胞大模型恰好处于 AI 和生物学的交叉点上——这是一个"两栖"人才最稀缺也最值钱的领域。

一位在欧洲从事单细胞研究的华裔学者在一次访谈中说过一句话:"在单细胞 AI 这个领域,如果看论文的第一作者名单,你会发现中国名字的比例高得不成比例。"

这不是偶然。


六、未竟之路

当然,挑战依然巨大。

目前所有单细胞大模型都有一个共同的软肋:批次效应(batch effect)。不同实验室、不同测序平台、不同实验条件下产生的数据,在统计分布上存在系统性偏差。一个在 A 平台上训练出来的模型,用到 B 平台的数据上时,性能往往大打折扣。如何让模型真正学会"跨平台泛化",是所有人都在攻克的技术难点。

另一个更大的问题是:生物学意义验证。模型可以在 benchmark 上拿到漂亮的分数,但它在真实生物学问题上的预测——比如它说"基因 X 是治疗某疾病的新靶点"——最终还是需要湿实验来验证。从"AI 说了算"到"实验室验证",这条路还很长。

但回顾过去五年,从 2019 年那位清华博士生手工标注细胞,到 2024 年 scGPT 被 Nature Methods 接收,中国团队在这条路上的速度令人印象深刻。

如果说单细胞大模型是在浩瀚的细胞宇宙中绘制星图,那中国团队已经为这幅星图标注了许多关键坐标。接下来的问题是:谁能第一个找到通往"通用细胞语法"的罗塞塔石碑?

这个答案,可能正在某个实验室的深夜屏幕上悄然浮现。


一句话总结:从算盘到算法,中国科学家正在用 AI 重新定义"读懂细胞"的方式——不是更努力地一个一个地看,而是教会机器看穿 37 万亿个细胞背后的共同语法。

Links

Tags