从"天书"到"宇宙"：解码37万亿个细胞，AI正在完成人类基因组计划未竟的事业

2026-05-16 ·

细胞图谱、人类基因组计划、单细胞基础模型

Overview

WeChat科普推文第11期 · 2026-05-16
话题: 细胞图谱、人类基因组计划、单细胞基础模型

2003年4月14日，华盛顿。人类基因组计划（HGP）的总协调人弗朗西斯·柯林斯站在讲台上，身后的大屏幕投射出一行金色的字："The Human Genome — Nature's Complete Genetic Blueprint for Building a Human Being." 历时13年、耗资30亿美元，横跨6个国家、20个研究机构的科学长征，终于画上了句号。全世界的报纸都用同一个比喻来描述这个时刻——人类"读懂了生命的说明书"。

然而，这场狂欢只持续了不到48小时。

闭门会议上，一位发育生物学家冷冷地抛出一个问题："柯林斯博士，您给我这30亿个碱基的序列，我当然很激动。但您能告诉我——为什么同样的基因，在视网膜细胞里感知光线，在心肌细胞里驱动心跳，在胰腺细胞里分泌胰岛素吗？基因序列是固定的，可生命不是。您的说明书，缺了最关键的37万亿页。"

这句话像一个刺，扎进了后基因组时代的心脏。人类终于拥有了完整的"字母表"（A、T、C、G），却发现自己面对着一座用这个字母表写成的、37万亿册形态各异的"书"——每一册都是一个细胞。更令人绝望的是，这些"书"还彼此对话、相互影响，形成一部比《战争与和平》复杂万亿倍的"小说"：一个人体。

这就是今天的单细胞大模型试图回答的那个原始问题。而故事，要从"细胞图谱"这个宏伟的概念开始讲起。

从 Bulk 到 Single Cell：一场分辨率革命

在很长一段时间里，生物学家研究基因表达的方式，叫做 bulk RNA-seq。它的原理很粗暴：取一块组织，把所有细胞打碎，提取RNA，测序，取平均值。这就像把一个城市所有人的话同时录下来，然后得出一个结论："嗯，这个城市的人平均每分钟说了0.3次'吃饭'。"

平均数是最大的骗子。 一个肿瘤组织中，也许有5%的细胞是恶性的，另95%是免疫细胞、基质细胞、血管细胞——但 bulk RNA-seq 会把它们搅成一锅粥，让你完全看不出那5%的癌细胞在干什么。就好比你无法通过"全中国人民的平均存款"来理解一个外卖骑手的生活。

真正的突破来自2010年代初期。单细胞RNA测序（scRNA-seq） 技术的成熟，让科学家第一次可以一个一个地读取细胞的基因表达。这就像从"听全城噪音"进化到"给每个市民装一个窃听器"——你可以听到每个细胞在"说"什么基因，用多大的"音量"，在什么"语境"下。

这场分辨率革命是颠覆性的。2016年，来自Broad研究所的Aviv Regev发起了人类细胞图谱（Human Cell Atlas）项目——如果HGP是"画出人类所有基因的地图"，那HCA就是"画出人类所有细胞类型的地图"。这是一个堪比HGP的宏大计划：全球数千名科学家参与，目标是系统地鉴定人体中每一种细胞类型。到2024年，这个项目已经表征了超过5000万个细胞，发现了数千种此前未知的细胞亚型——比如在肺里发现了一种全新的离子细胞（ionocyte），它是囊性纤维化的关键角色，在之前几十年的研究中一直被埋没在平均值里。

但问题也接踵而至。

从地图到导航：为什么"画地图"不够了？

想象一下：你有一张精确到每一棵树的全北京地图。但如果你想知道"从这儿走到天安门，路上哪条街的空气质量最差"，光有地图是不够的。你需要一个能理解动态变化的模型。

细胞图谱也是如此。它回答的是"有什么"——这里是T细胞，那里是巨噬细胞，旁边是上皮细胞。但它难以回答"为什么"和"如果"：

为什么某个突变会让健康细胞变成癌细胞？
如果用一种新药处理，细胞会发生什么变化？
胚胎发育中，一个万能干细胞是如何在正确的时间分化成正确的细胞类型的？

这些问题的共同特征是：它们涉及动态和因果。细胞不是静止的点，而是一台持续运行的信息处理机器——它接收来自环境的信号，整合内部状态，然后在基因表达的"输出"上做出响应。要想真正"理解"细胞，你需要的不再是"地图"，而是"语言模型"。

这就有了今天文章的主角：单细胞基础模型（single-cell foundation model）。

为什么是"语言模型"？基因表达真的是一种"语言"吗？

争论这个问题的生物学家可以吵上三天三夜。但从AI的角度看，答案非常简单：因为基因表达数据的结构，和自然语言惊人地相似。

我们来看看：

词汇（genes ≈ words）：自然语言有约2万到20万个常用词汇，而人类基因组约有2万个蛋白编码基因——数量级完全吻合。
上下文依赖性：同一个词在不同语境下含义不同。"苹果"可以是水果，也可以是科技公司。同样，TP53 这个基因，在某些细胞中是"停！修复DNA！"的信号，在另一些细胞中则是"算了，安排细胞自杀吧"的指令。基因的意义，由细胞环境决定。
组合性：句子的意义取决于词的排列和组合，而不是单个词。细胞的状态也不是由单个基因决定的，而是由成千上万个基因的协同表达模式决定的。就像你不会说"因为这本书里有'悲伤'这词所以它是悲剧"，你也不能说"因为细胞表达了MYC所以它是癌细胞"。
长程依赖：一段文章的第一段可能影响你对最后一句话的理解。类似地，细胞的发育历史——它在胚胎第几周做出了哪个命运选择——决定了它今天表达什么基因。

所以，NLP领域那些强大的技术——Transformer、自注意力机制、掩码语言模型预训练——几乎可以"原样照搬"到单细胞数据上。你不是在训练AI读《纽约时报》，你是在训练AI读"细胞报"——每一行是一组基因表达值，每一篇"文章"就是一个细胞的完整分子状态。

这听起来像是一个概念的"强行套用"，但结果证明：这个类比不仅是成立的，而且是出奇地有效。

scGPT 与 Geneformer：两个"细胞翻译官"

2023年到2024年，这个领域迎来了两篇里程碑式的工作。

第一个是来自多伦多大学Bo Wang团队的 scGPT。它的做法非常直观：把每个基因的表达量放进不同的"桶"里（高表达、中表达、低表达、不表达），就像把词汇放进不同的词性类别。然后，像BERT一样随机遮住一些基因，让模型根据上下文"猜"被遮住的是什么。这个"完形填空"游戏，让scGPT在3300万个细胞的语料上学会了"细胞语法"。预训练完成后，它可以在人体几乎任何组织中"理解"细胞的状态——就像你学会英语之后，可以去读物理课本也可以去看菜谱，因为底层的语法是相通的。

第二个是来自哈佛Broad研究所的 Geneformer。它的思路更聪明：不是给基因打分，而是给基因排序。每个细胞中表达量最高的基因排第一，第二高的排第二……模型的任务是预测排序中缺失的基因应该在什么位置。这种"排序学习"策略优雅地避开了批次效应——无论你用哪个实验室的测序仪，基因的相对排序总是比绝对表达值稳定得多。如果说scGPT是让AI"学会读"，那Geneformer就是让AI"学会感受节奏"——它不关心具体的分数，只关心相对位置。

两者殊途同归——经过在数千万细胞上的预训练，这些模型学到的不是某个特定组织或物种的规律，而是一种跨语境、跨物种的通用细胞知识。

泛化：AI学会了"跨物种翻译"

最令人震撼的结果出现在验证阶段。

scGPT团队做了一个实验：让人、小鼠、斑马鱼的细胞分别"写"下各自的基因表达，输入模型。模型把这些来自不同物种的细胞映射到一个共同的"语义空间"中。奇迹发生了——相同功能的细胞，不管来自哪个物种，都在空间里自动聚到了一起。 人的心肌细胞、小鼠的心肌细胞、斑马鱼的心肌细胞——在模型眼里，它们"说的内容"是相通的。

这有点像你学会了中文后，看日文虽然不认识假名，但汉字部分让你能猜出大致意思。因为心肌细胞需要收缩，收缩需要肌球蛋白和肌动蛋白——这个"核心逻辑"在5亿年的进化中几乎没有改变。单细胞大模型抓住的，正是这种跨物种守恒的分子语法——那些在进化中被"锁定"的表达模式，像语言的语序一样稳定。

更让人兴奋的是零样本学习：模型在预训练时从未见过某种疾病或药物处理的细胞，但当你把数据输入后，它可以仅仅通过"类比"就做出合理的预测。比如，模型从未"学"过新冠病毒如何影响肺细胞——但它见过足够多的"健康"和"受损"肺细胞，因此能够判断新冠感染的细胞"更像"哪一类已知状态。这就像一个读过一万本侦探小说的人，面对一个新案件时，虽然没读过这一本，但已经知道"凶手通常是谁"。

数据集的力量：scBaseCount与5亿细胞的策展

在这个领域，有一个常常被忽略但至关重要的工作：数据集的构建和策展。

你或许注意到一个数字：scGPT训练用了3300万个细胞。这听起来不少，但相比互联网上数以万亿计的自然语言文档，简直是小巫见大巫。更麻烦的是，单细胞数据的"质量方差"极大——不同实验室的测序深度不同，标注质量参差不齐，甚至同一篇论文里的数据也可能存在隐藏的污染。

这就是 scBaseCount 等数据策展项目存在的意义。它的目标很简单：把全球公开的单细胞数据集——截至目前大约5亿个细胞——进行统一的清洗、标准化和整合。这就像把全世界的图书馆里散落的手稿、笔记、日记全部数字化，然后翻译成同一种语言，编上统一的索引。

一旦这个数据集构建完成，单细胞大模型的质量将迎来质的飞跃。毕竟，在AI的世界里，数据和算法之间的关系就像食材和厨艺——厨艺再好，食材不新鲜也不行。scBaseCount要做的，就是确保每一份"细胞食材"都是清洗干净的、标注正确的、可直接"下锅"的高质量原料。

到目前为止，scBaseCount已经完成了超过1亿个细胞的策展。按这个速度，5亿细胞的蓝图并非遥远的幻想——而一旦实现，单细胞大模型可能真正触及"人类细胞通用操作系统"的天花板。

虚拟细胞的曙光：单细胞大模型的终极想象

如果我们把视野拉远，单细胞大模型的终极目标是什么？

答案是 虚拟细胞（virtual cell）——一个能够模拟真实细胞在任意条件下反应的AI模型。你给它一个基因突变，它告诉你细胞会变成什么样；你给它一种候选药物，它预测细胞的转录组响应；你甚至可以让它模拟一个单细胞如何一步步分化成神经元，中间经历了哪些关键的"命运选择"节点。

这已经不是科幻。2024年12月，斯坦福大学和Chan Zuckerberg Initiative的联合团队在《Cell》杂志上发表了Virtual Cell Engine的概念框架。他们的核心理念是：把细胞的转录组学、表观组学、蛋白质组学等多模态数据"喂"给一个大模型，让它学习从基因型到表型的完整映射。一旦这个模型足够精确，药物筛选将不再需要成百上千次的湿实验——至少80%的候选分子可以在计算机里被"初见端倪"地淘汰。

这或许才是人类基因组计划当初的初衷。30亿美元，13年，20个国家的合作——不是为了在Excel表格里看到30亿个字母，而是为了理解这些字母如何编织成生命的奇迹。今天，我们又回到了这个起点。与20年前不同的地方在于：这一次，我们不只有字母表，还有37万亿个正在被AI逐个"聆听"的细胞。

写在最后

从2003年那个"仅有字母表"的尴尬时刻，到2026年AI已经能跨物种"理解"细胞——这条路走了23年。人类首先学会了测序，然后学会了"一个一个地"看细胞，最后学会了用AI去理解细胞之间的"对话"。这不是一条直线，而是一个不断升维的过程：从一维的基因序列，到高维的细胞状态空间，再到能在这个空间里"旅行"的语言模型。

如果把生命比作一首交响乐，基因组是乐谱，细胞是乐器，而单细胞大模型——它正在学会成为那个能听出所有声部的听觉系统。乐谱摆在那里已经20多年了，现在我们终于开始听见真正的音乐。

一句话总结：单细胞大模型正在把人类基因组计划那张"静止的字母表"，翻译成37万亿个细胞共同演绎的动态故事。