跨越物种的"细胞语"：为什么单细胞大模型能同时读懂人、小鼠和斑马鱼？

2026-05-15 ·

跨物种泛化、跨组织泛化、进化保守性、通用细胞语法

Overview

WeChat科普推文第10期 · 2026-05-15
话题: 跨物种泛化、跨组织泛化、进化保守性、通用细胞语法

1994 年，瑞士巴塞尔大学的发育生物学家 Walter Gehring 做了一个"疯狂"的实验。他把小鼠眼睛里一个叫 Pax6 的基因，强行塞进了果蝇的腿和翅膀里。结果令人目瞪口呆：果蝇的腿上长出了完整的复眼——不是小鼠的眼睛，而是地地道道的果蝇复眼，有角膜、有色素细胞、有感光神经元，一切功能正常。

一个哺乳动物的基因，在昆虫体内照样能"指挥"眼睛的建造。而这两个物种的最近共同祖先，生活在约 6 亿年前。

这个实验揭示了一个深刻的生物学事实：生命的"语法"远比我们想象的更古老、更通用。 30 年后的今天，单细胞大模型正在用一个全新的方式，向同一个结论逼近——但这次，不是看 DNA 序列，而是看基因的表达模式。

一个令 AI 困惑又惊喜的发现

2023 年底，斯坦福大学的科研团队训练了一个叫 UCE（Universal Cell Embedding，通用细胞嵌入）的模型。他们用人和小鼠的单细胞数据训练它，然后拿了一个它从未见过的物种来测试——斑马鱼。

结果出人意料：模型不需要任何额外的训练，就能准确识别斑马鱼的心脏细胞、脑细胞、血液细胞。 它甚至能把斑马鱼的某种细胞，精准地映射到人和小鼠中功能相同的细胞类型上。

这就好比你只学过中文和英文，突然拿到一本日文书，翻开一看——你不仅能大致读懂，还能准确地给每个段落标注"这是议论文""这是抒情散文""这是药品说明书"。单细胞大模型对"细胞语言"的理解，已经达到了这种跨物种的"可迁移性"。

更令人惊讶的是，这种现象不仅跨物种存在，跨组织也同样成立。用人类血液细胞训练的模型，拿到从未见过的脑组织数据上，依然能识别出神经元、星形胶质细胞、少突胶质细胞——即便训练时连一个脑细胞都没见过。

细胞在说什么"通用语"？

要理解这件事，我们需要暂时放下"基因"这个熟悉的词，换一个视角。

想象一座城市。每个细胞是城市里的一间房子，基因是房间里的家具。你走进一间"肝细胞"的房间，会发现里面摆满了"解毒酶"沙发、"糖代谢"茶几和"白蛋白"书架。走进一间"神经元"的房间，摆的是"离子通道"床、"突触蛋白"餐桌和"神经递质"台灯。

传统生物学家研究细胞，就像一位室内设计师，关心这间房里某个特定家具的品牌和型号（某个基因是否突变、表达量高低）。但单细胞大模型的视角完全不同——它关心的是整个房间的布局逻辑：家具之间的相对位置、功能区的划分、动线的设计。

这种"布局逻辑"，就是基因与基因之间的共表达关系。而惊人的是，这种关系在进化中极其保守。

以细胞周期为例。无论是酵母菌在分裂，还是你皮肤里的干细胞在分裂，背后启动这一过程的"基因编队"几乎一模一样：CDK1、Cyclin B、PLK1 等基因必须在精确的时间点、以精确的次序依次激活。这套"编队程序"已经运行了超过十亿年。单细胞大模型在预训练阶段，本质上就是在学习成千上万套这种"基因编队程序"的编排规律。

Transformer 如何"看见"这种通用性？

这里就要聊到单细胞大模型的核心架构——Transformer。

你可以把 Transformer 的"自注意力机制"想象成一个高情商的宴会社交达人。在一个 200 人的宴会厅里，这位达人不断扫视全场，判断谁和谁在密切交谈、谁的情绪影响了谁、哪个小团体的讨论最热烈。他不需要认识每一个人，只需要观察交谈的"模式"。

对单细胞大模型来说，每个基因就是宴会厅里的一个客人，基因表达值就是他的"音量"。自注意力机制不断计算：在当前这个细胞（上下文）里，基因 A 和基因 B 的关系有多紧密？基因 C 的高表达是否"压制"了基因 D？这种关系模式，在不同的细胞类型中重复出现，在不同的物种中也惊人地相似。

当训练数据足够大——比如 scGPT 用了 3300 万个人类细胞——模型就能从中提炼出一种类似于"细胞表达语法"的东西。这套语法描述的不是单个基因的功能，而是基因之间关系的拓扑结构。而拓扑结构，恰恰是进化中最不容易被改写的部分。

就好比不同国家的城市长得完全不一样——巴黎的奥斯曼公寓 vs 京都的町屋——但它们都遵循"居住区靠近商业区""交通干线连接核心节点"这样的底层城市规划逻辑。单细胞大模型学的就是这种"城市规划逻辑"，而不是某栋房子的具体样式。

斑马鱼心脏给我们的启示

回到斑马鱼的例子。为什么一个没学过斑马鱼数据的模型，能认出斑马鱼的心肌细胞？

因为斑马鱼心肌细胞里那些基因的"编队方式"——MYH7 和 TNNT2 的协同高表达、NKX2-5 作为上游调控因子的位置、离子通道基因的特定组合——和人类心肌细胞如出一辙。这不是巧合，而是因为它们来自同一个祖先。5 亿年前，那个在寒武纪海洋里游动的原始脊索动物的"原始心肌细胞"，已经把这份"基因编队手册"写好了。此后的进化，只是在手册的边角做了批注，核心章节从未重写。

单细胞大模型抓住的，正是这本"手册"的核心章节。

这也是为什么，即便模型只在一个物种的一个组织上训练，它也能对另一个物种的另一个组织做出合理的推断。前提是那些核心的"基因程序"——细胞周期、应激反应、代谢途径、免疫信号——在进化中保持了一致。

这到底意味着什么？

首先，它为"通用细胞图谱"的构建提供了理论基础。人类细胞图谱（Human Cell Atlas）计划正在对数以千万计的人类细胞进行测序和分类。但如果每一个物种都要从零开始做一套细胞图谱，成本将是天文数字。单细胞大模型的跨物种泛化能力意味着：花大力气做好一个物种的"基础模型"，其他物种或许只需少量数据就能"迁移过去"。这有点像 GPS 导航系统——你不需要重新发射卫星，只需要更新本地地图包。

其次，它改变我们对"模式生物"的理解。小鼠之所以能作为人类疾病的模型，前提是它们的细胞调控逻辑与人类高度相似。单细胞大模型给这种"相似性"提供了一个可量化的框架。未来，我们甚至可以用模型来评估：斑马鱼和人类在某一种具体疾病（比如心肌病）中的细胞响应相似度有多高？如果相似度很低，斑马鱼也许不是一个好的研究模型。

第三，也是最有哲学意味的一点：单细胞大模型正在用数学的语言，重新确认一个古老的生物学直觉——生命的统一性远大于多样性。 达尔文在《物种起源》的结尾写道："……这个星球上曾经和正在存在的无数生命形式，都起源于同一种原始生命。" 单细胞大模型用高维向量空间中的几何距离，在 160 多年后为这句话提供了新的注脚。

局限与边界

当然，我们不能过度浪漫化这件事。目前单细胞大模型的跨物种泛化仍然有明显边界。进化距离越远的物种，迁移效果越差——从人到小鼠（约 7500 万年分化）效果很好，从人到果蝇（约 6 亿年分化）就大打折扣。那些在进化中快速分化的基因程序——比如免疫系统的某些组分、胎盘发育相关基因——模型也难以泛化。

此外，当下的模型主要还是学习"基因表达的相关性"，而不是"因果调控关系"。读懂了基因的编队方式，不等于读懂了谁是这支编队的指挥官。

但这些局限并不削弱这件事的核心意义。单细胞大模型向我们展示了一个激动人心的可能性：细胞运作的基本逻辑，可能比我们想象的更简洁、更统一。 而 AI，正在帮我们读懂这套"生命语法"的最简形式。

一句话总结：单细胞大模型之所以能跨物种、跨组织"读懂"细胞，是因为亿万年的进化在基因表达模式的底层留下了高度保守的"通用语法"——而 Transformer 的自注意力机制恰好擅长捕捉这种关系结构中不变的东西。