← Back to scModels Other

跨越物种的"细胞语":为什么单细胞大模型能同时读懂人、小鼠和斑马鱼?

跨越物种的"细胞语":为什么单细胞大模型能同时读懂人、小鼠和斑马鱼?
2026-05-15 ·

跨物种泛化、跨组织泛化、进化保守性、通用细胞语法

Overview

WeChat科普推文 第10期 · 2026-05-15
话题: 跨物种泛化、跨组织泛化、进化保守性、通用细胞语法

1994 年,瑞士巴塞尔大学的发育生物学家 Walter Gehring 做了一个"疯狂"的实验。他把小鼠眼睛里一个叫 Pax6 的基因,强行塞进了果蝇的腿和翅膀里。结果令人目瞪口呆:果蝇的腿上长出了完整的复眼——不是小鼠的眼睛,而是地地道道的果蝇复眼,有角膜、有色素细胞、有感光神经元,一切功能正常。

一个哺乳动物的基因,在昆虫体内照样能"指挥"眼睛的建造。而这两个物种的最近共同祖先,生活在约 6 亿年前。

这个实验揭示了一个深刻的生物学事实:生命的"语法"远比我们想象的更古老、更通用。 30 年后的今天,单细胞大模型正在用一个全新的方式,向同一个结论逼近——但这次,不是看 DNA 序列,而是看基因的表达模式。

一个令 AI 困惑又惊喜的发现

2023 年底,斯坦福大学的科研团队训练了一个叫 UCE(Universal Cell Embedding,通用细胞嵌入)的模型。他们用人和小鼠的单细胞数据训练它,然后拿了一个它从未见过的物种来测试——斑马鱼。

结果出人意料:模型不需要任何额外的训练,就能准确识别斑马鱼的心脏细胞、脑细胞、血液细胞。 它甚至能把斑马鱼的某种细胞,精准地映射到人和小鼠中功能相同的细胞类型上。

这就好比你只学过中文和英文,突然拿到一本日文书,翻开一看——你不仅能大致读懂,还能准确地给每个段落标注"这是议论文""这是抒情散文""这是药品说明书"。单细胞大模型对"细胞语言"的理解,已经达到了这种跨物种的"可迁移性"。

更令人惊讶的是,这种现象不仅跨物种存在,跨组织也同样成立。用人类血液细胞训练的模型,拿到从未见过的脑组织数据上,依然能识别出神经元、星形胶质细胞、少突胶质细胞——即便训练时连一个脑细胞都没见过。

细胞在说什么"通用语"?

要理解这件事,我们需要暂时放下"基因"这个熟悉的词,换一个视角。

想象一座城市。每个细胞是城市里的一间房子,基因是房间里的家具。你走进一间"肝细胞"的房间,会发现里面摆满了"解毒酶"沙发、"糖代谢"茶几和"白蛋白"书架。走进一间"神经元"的房间,摆的是"离子通道"床、"突触蛋白"餐桌和"神经递质"台灯。

传统生物学家研究细胞,就像一位室内设计师,关心这间房里某个特定家具的品牌和型号(某个基因是否突变、表达量高低)。但单细胞大模型的视角完全不同——它关心的是整个房间的布局逻辑:家具之间的相对位置、功能区的划分、动线的设计。

这种"布局逻辑",就是基因与基因之间的共表达关系。而惊人的是,这种关系在进化中极其保守

以细胞周期为例。无论是酵母菌在分裂,还是你皮肤里的干细胞在分裂,背后启动这一过程的"基因编队"几乎一模一样:CDK1Cyclin BPLK1 等基因必须在精确的时间点、以精确的次序依次激活。这套"编队程序"已经运行了超过十亿年。单细胞大模型在预训练阶段,本质上就是在学习成千上万套这种"基因编队程序"的编排规律。

Transformer 如何"看见"这种通用性?

这里就要聊到单细胞大模型的核心架构——Transformer。

你可以把 Transformer 的"自注意力机制"想象成一个高情商的宴会社交达人。在一个 200 人的宴会厅里,这位达人不断扫视全场,判断谁和谁在密切交谈、谁的情绪影响了谁、哪个小团体的讨论最热烈。他不需要认识每一个人,只需要观察交谈的"模式"。

对单细胞大模型来说,每个基因就是宴会厅里的一个客人,基因表达值就是他的"音量"。自注意力机制不断计算:在当前这个细胞(上下文)里,基因 A 和基因 B 的关系有多紧密?基因 C 的高表达是否"压制"了基因 D?这种关系模式,在不同的细胞类型中重复出现,在不同的物种中也惊人地相似。

当训练数据足够大——比如 scGPT 用了 3300 万个人类细胞——模型就能从中提炼出一种类似于"细胞表达语法"的东西。这套语法描述的不是单个基因的功能,而是基因之间关系的拓扑结构。而拓扑结构,恰恰是进化中最不容易被改写的部分。

就好比不同国家的城市长得完全不一样——巴黎的奥斯曼公寓 vs 京都的町屋——但它们都遵循"居住区靠近商业区""交通干线连接核心节点"这样的底层城市规划逻辑。单细胞大模型学的就是这种"城市规划逻辑",而不是某栋房子的具体样式。

斑马鱼心脏给我们的启示

回到斑马鱼的例子。为什么一个没学过斑马鱼数据的模型,能认出斑马鱼的心肌细胞?

因为斑马鱼心肌细胞里那些基因的"编队方式"——MYH7TNNT2 的协同高表达、NKX2-5 作为上游调控因子的位置、离子通道基因的特定组合——和人类心肌细胞如出一辙。这不是巧合,而是因为它们来自同一个祖先。5 亿年前,那个在寒武纪海洋里游动的原始脊索动物的"原始心肌细胞",已经把这份"基因编队手册"写好了。此后的进化,只是在手册的边角做了批注,核心章节从未重写。

单细胞大模型抓住的,正是这本"手册"的核心章节。

这也是为什么,即便模型只在一个物种的一个组织上训练,它也能对另一个物种的另一个组织做出合理的推断。前提是那些核心的"基因程序"——细胞周期、应激反应、代谢途径、免疫信号——在进化中保持了一致。

这到底意味着什么?

首先,它为"通用细胞图谱"的构建提供了理论基础。人类细胞图谱(Human Cell Atlas)计划正在对数以千万计的人类细胞进行测序和分类。但如果每一个物种都要从零开始做一套细胞图谱,成本将是天文数字。单细胞大模型的跨物种泛化能力意味着:花大力气做好一个物种的"基础模型",其他物种或许只需少量数据就能"迁移过去"。这有点像 GPS 导航系统——你不需要重新发射卫星,只需要更新本地地图包。

其次,它改变我们对"模式生物"的理解。小鼠之所以能作为人类疾病的模型,前提是它们的细胞调控逻辑与人类高度相似。单细胞大模型给这种"相似性"提供了一个可量化的框架。未来,我们甚至可以用模型来评估:斑马鱼和人类在某一种具体疾病(比如心肌病)中的细胞响应相似度有多高?如果相似度很低,斑马鱼也许不是一个好的研究模型。

第三,也是最有哲学意味的一点:单细胞大模型正在用数学的语言,重新确认一个古老的生物学直觉——生命的统一性远大于多样性。 达尔文在《物种起源》的结尾写道:"……这个星球上曾经和正在存在的无数生命形式,都起源于同一种原始生命。" 单细胞大模型用高维向量空间中的几何距离,在 160 多年后为这句话提供了新的注脚。

局限与边界

当然,我们不能过度浪漫化这件事。目前单细胞大模型的跨物种泛化仍然有明显边界。进化距离越远的物种,迁移效果越差——从人到小鼠(约 7500 万年分化)效果很好,从人到果蝇(约 6 亿年分化)就大打折扣。那些在进化中快速分化的基因程序——比如免疫系统的某些组分、胎盘发育相关基因——模型也难以泛化。

此外,当下的模型主要还是学习"基因表达的相关性",而不是"因果调控关系"。读懂了基因的编队方式,不等于读懂了谁是这支编队的指挥官。

但这些局限并不削弱这件事的核心意义。单细胞大模型向我们展示了一个激动人心的可能性:细胞运作的基本逻辑,可能比我们想象的更简洁、更统一。 而 AI,正在帮我们读懂这套"生命语法"的最简形式。


一句话总结:单细胞大模型之所以能跨物种、跨组织"读懂"细胞,是因为亿万年的进化在基因表达模式的底层留下了高度保守的"通用语法"——而 Transformer 的自注意力机制恰好擅长捕捉这种关系结构中不变的东西。

Links

Tags