← Back to scModels Other

从"天书"到"宇宙":解码37万亿个细胞,AI正在完成人类基因组计划未竟的事业

从"天书"到"宇宙":解码37万亿个细胞,AI正在完成人类基因组计划未竟的事业
2026-05-16 ·

细胞图谱、人类基因组计划、单细胞基础模型

Overview

WeChat科普推文 第11期 · 2026-05-16
话题: 细胞图谱、人类基因组计划、单细胞基础模型

2003年4月14日,华盛顿。人类基因组计划(HGP)的总协调人弗朗西斯·柯林斯站在讲台上,身后的大屏幕投射出一行金色的字:"The Human Genome — Nature's Complete Genetic Blueprint for Building a Human Being." 历时13年、耗资30亿美元,横跨6个国家、20个研究机构的科学长征,终于画上了句号。全世界的报纸都用同一个比喻来描述这个时刻——人类"读懂了生命的说明书"。

然而,这场狂欢只持续了不到48小时。

闭门会议上,一位发育生物学家冷冷地抛出一个问题:"柯林斯博士,您给我这30亿个碱基的序列,我当然很激动。但您能告诉我——为什么同样的基因,在视网膜细胞里感知光线,在心肌细胞里驱动心跳,在胰腺细胞里分泌胰岛素吗?基因序列是固定的,可生命不是。您的说明书,缺了最关键的37万亿页。"

这句话像一个刺,扎进了后基因组时代的心脏。人类终于拥有了完整的"字母表"(A、T、C、G),却发现自己面对着一座用这个字母表写成的、37万亿册形态各异的"书"——每一册都是一个细胞。更令人绝望的是,这些"书"还彼此对话、相互影响,形成一部比《战争与和平》复杂万亿倍的"小说":一个人体。

这就是今天的单细胞大模型试图回答的那个原始问题。而故事,要从"细胞图谱"这个宏伟的概念开始讲起。


从 Bulk 到 Single Cell:一场分辨率革命

在很长一段时间里,生物学家研究基因表达的方式,叫做 bulk RNA-seq。它的原理很粗暴:取一块组织,把所有细胞打碎,提取RNA,测序,取平均值。这就像把一个城市所有人的话同时录下来,然后得出一个结论:"嗯,这个城市的人平均每分钟说了0.3次'吃饭'。"

平均数是最大的骗子。 一个肿瘤组织中,也许有5%的细胞是恶性的,另95%是免疫细胞、基质细胞、血管细胞——但 bulk RNA-seq 会把它们搅成一锅粥,让你完全看不出那5%的癌细胞在干什么。就好比你无法通过"全中国人民的平均存款"来理解一个外卖骑手的生活。

真正的突破来自2010年代初期。单细胞RNA测序(scRNA-seq) 技术的成熟,让科学家第一次可以一个一个地读取细胞的基因表达。这就像从"听全城噪音"进化到"给每个市民装一个窃听器"——你可以听到每个细胞在"说"什么基因,用多大的"音量",在什么"语境"下。

这场分辨率革命是颠覆性的。2016年,来自Broad研究所的Aviv Regev发起了人类细胞图谱(Human Cell Atlas)项目——如果HGP是"画出人类所有基因的地图",那HCA就是"画出人类所有细胞类型的地图"。这是一个堪比HGP的宏大计划:全球数千名科学家参与,目标是系统地鉴定人体中每一种细胞类型。到2024年,这个项目已经表征了超过5000万个细胞,发现了数千种此前未知的细胞亚型——比如在肺里发现了一种全新的离子细胞(ionocyte),它是囊性纤维化的关键角色,在之前几十年的研究中一直被埋没在平均值里。

但问题也接踵而至。


从地图到导航:为什么"画地图"不够了?

想象一下:你有一张精确到每一棵树的全北京地图。但如果你想知道"从这儿走到天安门,路上哪条街的空气质量最差",光有地图是不够的。你需要一个能理解动态变化的模型。

细胞图谱也是如此。它回答的是"有什么"——这里是T细胞,那里是巨噬细胞,旁边是上皮细胞。但它难以回答"为什么"和"如果":

  • 为什么某个突变会让健康细胞变成癌细胞?
  • 如果用一种新药处理,细胞会发生什么变化?
  • 胚胎发育中,一个万能干细胞是如何在正确的时间分化成正确的细胞类型的?

这些问题的共同特征是:它们涉及动态因果。细胞不是静止的点,而是一台持续运行的信息处理机器——它接收来自环境的信号,整合内部状态,然后在基因表达的"输出"上做出响应。要想真正"理解"细胞,你需要的不再是"地图",而是"语言模型"。

这就有了今天文章的主角:单细胞基础模型(single-cell foundation model)


为什么是"语言模型"?基因表达真的是一种"语言"吗?

争论这个问题的生物学家可以吵上三天三夜。但从AI的角度看,答案非常简单:因为基因表达数据的结构,和自然语言惊人地相似。

我们来看看:

  • 词汇(genes ≈ words):自然语言有约2万到20万个常用词汇,而人类基因组约有2万个蛋白编码基因——数量级完全吻合。
  • 上下文依赖性:同一个词在不同语境下含义不同。"苹果"可以是水果,也可以是科技公司。同样,TP53 这个基因,在某些细胞中是"停!修复DNA!"的信号,在另一些细胞中则是"算了,安排细胞自杀吧"的指令。基因的意义,由细胞环境决定。
  • 组合性:句子的意义取决于词的排列和组合,而不是单个词。细胞的状态也不是由单个基因决定的,而是由成千上万个基因的协同表达模式决定的。就像你不会说"因为这本书里有'悲伤'这词所以它是悲剧",你也不能说"因为细胞表达了MYC所以它是癌细胞"。
  • 长程依赖:一段文章的第一段可能影响你对最后一句话的理解。类似地,细胞的发育历史——它在胚胎第几周做出了哪个命运选择——决定了它今天表达什么基因。

所以,NLP领域那些强大的技术——Transformer、自注意力机制、掩码语言模型预训练——几乎可以"原样照搬"到单细胞数据上。你不是在训练AI读《纽约时报》,你是在训练AI读"细胞报"——每一行是一组基因表达值,每一篇"文章"就是一个细胞的完整分子状态。

这听起来像是一个概念的"强行套用",但结果证明:这个类比不仅是成立的,而且是出奇地有效。


scGPT 与 Geneformer:两个"细胞翻译官"

2023年到2024年,这个领域迎来了两篇里程碑式的工作。

第一个是来自多伦多大学Bo Wang团队的 scGPT。它的做法非常直观:把每个基因的表达量放进不同的"桶"里(高表达、中表达、低表达、不表达),就像把词汇放进不同的词性类别。然后,像BERT一样随机遮住一些基因,让模型根据上下文"猜"被遮住的是什么。这个"完形填空"游戏,让scGPT在3300万个细胞的语料上学会了"细胞语法"。预训练完成后,它可以在人体几乎任何组织中"理解"细胞的状态——就像你学会英语之后,可以去读物理课本也可以去看菜谱,因为底层的语法是相通的。

第二个是来自哈佛Broad研究所的 Geneformer。它的思路更聪明:不是给基因打分,而是给基因排序。每个细胞中表达量最高的基因排第一,第二高的排第二……模型的任务是预测排序中缺失的基因应该在什么位置。这种"排序学习"策略优雅地避开了批次效应——无论你用哪个实验室的测序仪,基因的相对排序总是比绝对表达值稳定得多。如果说scGPT是让AI"学会读",那Geneformer就是让AI"学会感受节奏"——它不关心具体的分数,只关心相对位置。

两者殊途同归——经过在数千万细胞上的预训练,这些模型学到的不是某个特定组织或物种的规律,而是一种跨语境、跨物种的通用细胞知识


泛化:AI学会了"跨物种翻译"

最令人震撼的结果出现在验证阶段。

scGPT团队做了一个实验:让人、小鼠、斑马鱼的细胞分别"写"下各自的基因表达,输入模型。模型把这些来自不同物种的细胞映射到一个共同的"语义空间"中。奇迹发生了——相同功能的细胞,不管来自哪个物种,都在空间里自动聚到了一起。 人的心肌细胞、小鼠的心肌细胞、斑马鱼的心肌细胞——在模型眼里,它们"说的内容"是相通的。

这有点像你学会了中文后,看日文虽然不认识假名,但汉字部分让你能猜出大致意思。因为心肌细胞需要收缩,收缩需要肌球蛋白和肌动蛋白——这个"核心逻辑"在5亿年的进化中几乎没有改变。单细胞大模型抓住的,正是这种跨物种守恒的分子语法——那些在进化中被"锁定"的表达模式,像语言的语序一样稳定。

更让人兴奋的是零样本学习:模型在预训练时从未见过某种疾病或药物处理的细胞,但当你把数据输入后,它可以仅仅通过"类比"就做出合理的预测。比如,模型从未"学"过新冠病毒如何影响肺细胞——但它见过足够多的"健康"和"受损"肺细胞,因此能够判断新冠感染的细胞"更像"哪一类已知状态。这就像一个读过一万本侦探小说的人,面对一个新案件时,虽然没读过这一本,但已经知道"凶手通常是谁"。


数据集的力量:scBaseCount与5亿细胞的策展

在这个领域,有一个常常被忽略但至关重要的工作:数据集的构建和策展

你或许注意到一个数字:scGPT训练用了3300万个细胞。这听起来不少,但相比互联网上数以万亿计的自然语言文档,简直是小巫见大巫。更麻烦的是,单细胞数据的"质量方差"极大——不同实验室的测序深度不同,标注质量参差不齐,甚至同一篇论文里的数据也可能存在隐藏的污染。

这就是 scBaseCount 等数据策展项目存在的意义。它的目标很简单:把全球公开的单细胞数据集——截至目前大约5亿个细胞——进行统一的清洗、标准化和整合。这就像把全世界的图书馆里散落的手稿、笔记、日记全部数字化,然后翻译成同一种语言,编上统一的索引。

一旦这个数据集构建完成,单细胞大模型的质量将迎来质的飞跃。毕竟,在AI的世界里,数据和算法之间的关系就像食材和厨艺——厨艺再好,食材不新鲜也不行。scBaseCount要做的,就是确保每一份"细胞食材"都是清洗干净的、标注正确的、可直接"下锅"的高质量原料。

到目前为止,scBaseCount已经完成了超过1亿个细胞的策展。按这个速度,5亿细胞的蓝图并非遥远的幻想——而一旦实现,单细胞大模型可能真正触及"人类细胞通用操作系统"的天花板。


虚拟细胞的曙光:单细胞大模型的终极想象

如果我们把视野拉远,单细胞大模型的终极目标是什么?

答案是 虚拟细胞(virtual cell)——一个能够模拟真实细胞在任意条件下反应的AI模型。你给它一个基因突变,它告诉你细胞会变成什么样;你给它一种候选药物,它预测细胞的转录组响应;你甚至可以让它模拟一个单细胞如何一步步分化成神经元,中间经历了哪些关键的"命运选择"节点。

这已经不是科幻。2024年12月,斯坦福大学和Chan Zuckerberg Initiative的联合团队在《Cell》杂志上发表了Virtual Cell Engine的概念框架。他们的核心理念是:把细胞的转录组学、表观组学、蛋白质组学等多模态数据"喂"给一个大模型,让它学习从基因型到表型的完整映射。一旦这个模型足够精确,药物筛选将不再需要成百上千次的湿实验——至少80%的候选分子可以在计算机里被"初见端倪"地淘汰。

这或许才是人类基因组计划当初的初衷。30亿美元,13年,20个国家的合作——不是为了在Excel表格里看到30亿个字母,而是为了理解这些字母如何编织成生命的奇迹。今天,我们又回到了这个起点。与20年前不同的地方在于:这一次,我们不只有字母表,还有37万亿个正在被AI逐个"聆听"的细胞。


写在最后

从2003年那个"仅有字母表"的尴尬时刻,到2026年AI已经能跨物种"理解"细胞——这条路走了23年。人类首先学会了测序,然后学会了"一个一个地"看细胞,最后学会了用AI去理解细胞之间的"对话"。这不是一条直线,而是一个不断升维的过程:从一维的基因序列,到高维的细胞状态空间,再到能在这个空间里"旅行"的语言模型。

如果把生命比作一首交响乐,基因组是乐谱,细胞是乐器,而单细胞大模型——它正在学会成为那个能听出所有声部的听觉系统。乐谱摆在那里已经20多年了,现在我们终于开始听见真正的音乐。


一句话总结:单细胞大模型正在把人类基因组计划那张"静止的字母表",翻译成37万亿个细胞共同演绎的动态故事。

Links

Tags