← Back to scModels Other

达尔文画了一棵"树",AI 正在读懂树上的每一片叶子

达尔文画了一棵"树",AI 正在读懂树上的每一片叶子

单细胞大模型正在以单个细胞为精度重读进化——它自发学会跨物种识别同源细胞类型,让科学家首次能系统追溯六亿年细胞类型的起源、保守与创新。

Overview

达尔文画了一棵"树",AI 正在读懂树上的每一片叶子

  • 期数: 第55期
  • 日期: 2026-06-29
  • 话题: 单细胞大模型解码进化、跨物种细胞类型进化

1837年7月,28岁的查尔斯·达尔文在一本棕色皮革笔记本上,画下了一棵简陋的树。几根线条从主干逸出,有些分叉枯落,有些蓬勃生长。他在页角潦草地写了一个词:"I think。"

这棵"生命之树"是进化论史上最著名的涂鸦。它表达了一个石破天惊的洞察:所有生命共享同一祖先,物种之间的亲疏远近,就像树枝的分叉。但在接下来的将近两个世纪里,科学家们只能看见这棵树的"树干"和"粗枝"——他们比较的是器官、骨骼、形态,是宏观的解剖学。细胞呢?它们太小了。小到达尔文那代人根本不知道单个细胞之间能有多大差别。

而今天,一股新技术浪潮正在改写这个局面。单细胞大模型(single-cell foundation model)——一种在数千万乃至数十亿个细胞上训练的人工智能——正在让我们第一次看清达尔文那棵树上每一片"叶子"的纹理。我们正在以单个细胞为分辨率,重读进化。

一部达尔文不敢想象的"字典"

要理解这场革命的规模,不妨设想一位2020年的博士生,她的课题是"比较人类和小鼠大脑中中间神经元的基因表达差异"。她的实验流程大概是这样:

先用单细胞RNA测序获取人脑中间神经元的基因表达谱,跑一套标准生信流程——质控、降维、聚类、鉴定细胞亚型。再对小鼠大脑做完全相同的操作。最后,在两个独立分析的结果之间,依靠已知的"标记基因"(marker gene)来人工对齐——"人类的SST基因和老鼠的Sst基因,大概指向同一种细胞吧?"

问题是,这个"大概"里藏着太多不靠谱。同一个基因在六千万年的演化岔路口之后,功能可能已经悄悄变了;两个物种的同源细胞类型,可能使用了完全不同的标记基因组合;更别提单细胞数据的噪音和批次效应。

结果呢?我们只能比较那些"我们已经知道怎么比较"的细胞。对于未知的、新进化出来的或者高度特化的细胞类型,传统方法几乎是盲的。

单细胞大模型把这一切推倒重来。

让 AI 学会"细胞的世界语"

单细胞基础模型的核心操作,是把每一个细胞的基因表达谱转换成一个高维空间里的点——用术语说叫"嵌入向量"(embedding)。如果模型训练得足够好,相似功能的细胞会自发地在嵌入空间中聚在一起,不同"身份"的细胞则各自形成独立的星系。

真正让人心跳加速的事情发生在跨物种场景中。

2024年前后,多个研究团队几乎在同一时间发现了一个令人震惊的现象:当一个单细胞基础模型被充分预训练之后,它能自动地把不同物种的相同细胞类型映射到嵌入空间的同一个区域。你的皮层锥体神经元、小鼠的皮层锥体神经元、斑马鱼Telencephalon(大脑皮层等价结构)里的"类似神经元",在模型的"眼中"就是邻居。

不需要人类告诉它"这是神经元,那也是神经元"。它自己就"知道"。

在机器学习领域,这叫做"零样本跨物种泛化"(zero-shot cross-species generalization)。用一个更形象的比方:模型学会了细胞的一种"世界语"——一门跨越物种边界、让所有细胞都能互相"听懂"的通用语言。

这像什么?像一个人类语言学家同时学会中文、英文、日文、斯瓦希里语之后,恍然大悟:虽然"水"、"water"、"水(みず)"、"maji"发音不同、拼写各异,但它们指向的概念是同一个。单细胞大模型在"阅读"了数十亿个人类、小鼠、斑马鱼甚至果蝇的细胞之后,也形成了同样的领悟:神经元就是神经元,不管它长在谁的脑子里。

生命之树上那些"看不见的分叉"

这种能力不是花拳绣腿。它让演化生物学家第一次能够系统性地回答几个最根本的问题:

第一,细胞类型的起源。 多细胞动物的共同祖先活在六亿年前,它可能只有寥寥几种细胞类型。而今天的人类拥有超过四百种已鉴定的细胞类型。这个"从几个到几百个"的爆炸是怎么发生的?单细胞大模型可以通过比对不同物种的细胞嵌入,追溯细胞类型的分化历史——就像一层层剥开进化裹在细胞核上的"年轮"。一些研究已经揭示了惊人的细节:比如脊椎动物视网膜中的感光细胞(视杆和视锥)大约在五亿年前分化,而哺乳动物特有的新型视网膜神经节细胞(ipRGC),可能直到哺乳动物与爬行类分道扬镳之后才出现。

第二,保守与创新。 哪些细胞程序是生命操作系统里的"核心内核代码",数亿年几乎不改?哪些是"应用程序",只在特定谱系中独立演化?一项里程碑式的跨物种单细胞研究发现,神经元的核心基因调控程序在果蝇和人类之间惊人地保守——这意味着六亿年的时间几乎没有改动过这组"底层指令"。而免疫细胞的调控网络则如同快速迭代的"移动应用",每个物种似乎都开发了自己独特的免疫"方言"。

第三,人类独有的细胞类型。 究竟是什么让人类成为人类?回答这个问题,光有基因组序列远远不够——人类和黑猩猩的DNA相似度高达98.8%。真正的差异可能藏在细胞类型层面。单细胞大模型可以将"寻找人类独有细胞"这个任务自动化:只需扫描嵌入空间,看看是否存在只属于人类而与所有近亲都格格不入的"孤岛",就能定位进化上的创新。已经有初步证据表明,人类大脑皮层中某种罕见的中间神经元亚型在猩猩体内并不存在——这个发现如果被大规模验证,将是回答"人之为人"的一块关键拼图。

AI 在一本六亿年的手稿里逐字校勘

如果你把演化史想象成一本写了六亿年的手稿,那么传统的比较生物学只是在比较不同版本的"章节目录"。而单细胞大模型做的,是在逐字逐句地比较每一行的措辞——它甚至在意"笔迹"的细微差异。

更令人惊叹的是,单细胞大模型在这个过程中展现的"涌现能力"。并没有人明确告诉模型"你今天的任务是跨物种比较"。模型只是在混杂了多物种的海量单细胞数据上进行了自监督预训练,就像是让它读了足够多的"细胞语言"文本之后,它自行悟出了跨越物种的语法。

这让人想起2017年AlphaGo Zero的故事:人类没有教它任何围棋定式,它只靠自我对弈就重新发现了人类花了几千年积累的围棋智慧。单细胞大模型似乎在以类似的方式,自己"发现"了进化在单细胞尺度上留下的深层规律。

挑战与展望

当然,目前的跨物种单细胞模型远未臻完美。训练数据中人类样本占了绝大多数(人类是"被读得最多的那本书");不同物种之间缺乏统一的参考细胞图谱("翻译词典"还不全);低质量的单细胞数据可能导致虚假的嵌入对齐;更根本的是,我们仍然不完全理解"模型是怎么做到的"——它仍是某种程度上的黑箱。

但方向已经无比清晰。达尔文那棵粗粝的铅笔速写,在一个半世纪之后长成了进化生物学的参天学科。而单细胞大模型,正在为这棵学科之树注满生机盎然的细节——不仅是树干和枝杈的轮廓,而是每一片叶子的脉络、每一个细胞的进化签名。

这或许是1837年夏天,当达尔文在那本棕色笔记本上写下"I think"时,连他都不敢想象的画面。


一句话总结:单细胞大模型正在以单个细胞为精度、以嵌入空间为地图,让科学家第一次能够系统追溯六亿年来细胞类型的起源、保守与创新——达尔文的"生命之树"终于有了"树叶"的纹理。

Links