← Back to scModels Foundation Model

一个西班牙人画了70年细胞,AI用70小时就看懂了全部:单细胞大模型正在解码人类最复杂的器官

一个西班牙人画了70年细胞,AI用70小时就看懂了全部:单细胞大模型正在解码人类最复杂的器官
2026-06-11 ·

WeChat科普推文 第38期 · 2026-06-11

Overview

WeChat科普推文 第38期 · 2026-06-11
话题: 神经科学, 大脑细胞图谱, 单细胞大模型

1887年,西班牙巴塞罗那。

一位34岁的年轻医生把自己关在一间由厨房改造的实验室里。没有冰箱,没有电灯,只有一台老旧的蔡司显微镜和几瓶硝酸银溶液。他每天工作16个小时,把薄如蝉翼的脑组织切片放在目镜下,一笔一笔地把看到的东西画在纸上。

他叫圣地亚哥·拉蒙·卡哈尔(Santiago Ramón y Cajal)。此后的70年里,他画了三千多张"神经元素描"——这些手绘图纸今天看起来依然美得令人窒息:神经元像一棵棵精致的树,枝丫纵横交错,末端的突触如繁星点点。正是这些画,向人类第一次揭示了"神经系统不是一个连续的网络,而是由一个个独立的细胞——神经元——构成的"。这就是"神经元学说"的诞生,卡哈尔因此获得了1906年的诺贝尔奖。

卡哈尔的直觉是惊人的。他不仅画出了神经元,还注意到这些细胞形态各异、大小悬殊——有的像纺锤,有的像星芒,有的像金字塔,有的像吊灯。他猜测,大脑的功能多样性,可能就藏在细胞形态的多样性里。

但他不会想到,130年后,一群完全不画画的科学家——他们是计算机工程师和计算生物学家——将用一种他完全无法想象的方式,把这门"认细胞"的学问推向一个新的维度。

大脑:一座拥有3000种"职业"的城市

如果说人体是一本书,那大脑就是其中最晦涩的章节。一个成年人大脑中有约860亿个神经元,外加数量大致相当的胶质细胞。但真正令人头疼的不是数量,而是种类。

传统的组织学分类——像卡哈尔那样靠肉眼和染色剂——只能把神经细胞分成几十种。但当单细胞RNA测序(scRNA-seq)技术在2010年代成熟后,科学家把每一个细胞里的基因表达谱"读"了出来,才发现大脑的细胞图景远比想象的复杂:小鼠大脑皮层中被鉴定出130多种细胞类型;人类大脑中,仅皮层一个区域就有超过100种兴奋性神经元和数十种抑制性中间神经元。全脑范围内,细胞类型的数量可能逼近3000种。

换句话说,大脑不是一座由一两种"建筑材料"搭起来的大楼,而是一座拥有3000种不同"职业"的超级城市——有负责远距离通信的"长途司机"(投射神经元),有在地铁站维持秩序的"保安"(抑制性中间神经元),有打扫垃圾的"环卫工人"(小胶质细胞),有铺路架桥的"市政工程师"(少突胶质细胞),还有负责营养供给的"外卖骑手"(星形胶质细胞)。每一种细胞都有自己独特的基因表达"身份证"。

但难点来了:你怎么给这座3000万人口(小鼠大脑的细胞数)、3000种职业的城市做人口普查?

从"看图识字"到"语境理解":AI如何认细胞

传统生信分析的思路,类似于"看图识字"——把每一个细胞的基因表达谱和已知的细胞类型数据库做比对,"你家基因表达长这样,那你大概率是XXX细胞。"这方法在简单的组织里够用,但在大脑这种"超级城市"里就捉襟见肘了。且不说很多稀有细胞类型根本没有被收录进数据库;同样的细胞类型,在不同脑区、不同发育阶段、不同物种中的基因表达谱可能差别巨大。一个人类皮层第5层的锥体神经元,和一个小鼠皮层第5层的锥体神经元,它们的"基因表达方言"差别之大,让传统方法很难断定它们是"同一职业"。

这里就轮到单细胞基础模型(single-cell foundation model)登场了。

这类模型——比如scGPT、Geneformer、UCE等——采用了和ChatGPT相同的底层架构:Transformer。它们不是在"背答案",而是在"学语法"。训练时,模型读取数百万甚至数亿个来自不同组织、不同物种、不同实验条件的单细胞数据,不被告知"这是什么细胞",只被要求完成一个任务:根据一个细胞中部分基因的表达水平,预测其他基因的表达水平(就像"完形填空")。这个过程,就是"预训练"(pretraining)。

这个看起来简单的训练任务,实际上逼着模型学到了一个深层次的规律——基因和基因之间在不同细胞背景下的"协作关系网"。一个基因的表达不是孤立的:当基因A高表达时,基因B往往低表达;当基因C表达上升时,基因D、E、F通常会协同响应。这些模式在不同细胞类型、不同物种中反复出现,形成了某种跨语境、跨物种的"细胞语法"。一旦AI内化了这套语法,它就不再依赖"背答案"——哪怕面对一个从未出现在训练数据中的新细胞类型,它也能根据基因之间的"语法关系"推断出这个细胞的身份。

这就是"零样本学习"(zero-shot learning)的魅力:不是"我见过你所以认识你",而是"我理解细胞的底层逻辑,所以不管你长什么样我都能认出你。"

大脑细胞图谱的"ChatGPT时刻"

2023年底,《自然》杂志以封面文章的形式发表了"脑计划-细胞普查网络"(BRAIN Initiative Cell Census Network, BICCN)的系列论文。这个项目用单细胞组学技术系统地表征了人类、小鼠和狨猴大脑中的细胞类型,堪称"脑细胞图谱的1.0版本"。而单细胞基础模型正在做的,是把这些"地图"变成"GPS导航"。

一个典型的案例来自UCE(Universal Cell Embedding)模型。研究者用3600万个细胞训练了一个"通用细胞理解模型",然后让它去注释一个全新的数据集——成年果蝇的大脑。果蝇和人类最后的共同祖先生活在6亿年前。果蝇大脑的细胞类型在人类训练数据中从未出现过。但UCE模型在没有对果蝇数据做任何微调的情况下,准确地识别出了果蝇大脑中的神经元、胶质细胞等主要细胞类别,并正确地将它们映射到了跨物种的"细胞类型连续谱"上。

这就像一个只学过中文和英文的翻译,突然被要求翻译斯瓦希里语——不是因为他学过斯瓦希里语,而是因为他理解了语言本身的深层结构,知道不同语言之间一定存在某种"翻译规律"。

对于神经科学来说,这意味着一个前所未有的可能性:建立一个统一的"细胞语言坐标系",将人、小鼠、斑马鱼、果蝇甚至更远缘物种的脑细胞类型,映射到同一个空间中进行比较。这将从根本上改变我们对"大脑如何进化""神经精神疾病在细胞层面的根源是什么"等重大科学问题的研究范式。

从"看懂"到"改变":单细胞大模型在神经疾病中的应用

如果说基础研究是"读题",那临床应用就是"解题"。单细胞基础模型在神经疾病领域的应用才刚刚开始,但已经展现了令人期待的潜力。

以阿尔茨海默病为例。传统的RNA测序分析可以在患者脑组织中找"差异表达基因"——也就是对比患者和健康人,看哪些基因的表达变了。但这种方法只能看到"结果",看不到"过程":它是哪种细胞在变?是神经元先出问题,还是小胶质细胞的炎症反应先启动?基因A的表达变化,是因为它本身出了问题,还是因为调控它的基因B先崩溃了?

单细胞基础模型的优势在于:它不是在描述"这个细胞表达了多少个基因",而是在理解"这些基因之间的对话在说什么"。当模型读到阿尔茨海默病患者的小胶质细胞时,它会注意到,这些细胞中一组与吞噬功能相关的基因,其"表达协作模式"与健康大脑中的小胶质细胞截然不同——不是个别基因的表达出了问题,而是整个"基因互动网络"被重编程了。这个洞察,是传统差异表达分析做不到的。

更令人兴奋的是,最近的研究开始用单细胞基础模型做"虚拟扰动实验"——在计算空间里"敲掉"某个基因,预测整个细胞的转录组会如何响应。这相当于在不做动物实验、不养细胞的情况下,先在AI中"试错"几千次,找到最可能有效的靶点。虽然这种技术还在早期验证阶段,但如果成功,它将把神经退行性疾病药物研发的时间窗口缩短数年。

卡哈尔精神的新载体

卡哈尔晚年回忆自己的一生时写道:"只要大脑还是一个谜,只要神经系统的结构尚未被完全绘制,就需要有人像植物学家研究森林、像动物学家研究动物群那样,去观察、描述和分类神经系统的细胞。"

他用了一支笔和一台显微镜,花了70年。

今天,单细胞基础模型用GPU集群和Transformer架构,处理数十亿个细胞的数据。但本质上,它们在做的是同一件事——用卡哈尔的话说,"去观察、描述和分类神经系统的细胞"。

只不过,卡哈尔看到的是一棵树;而今天的AI,看到的是整片森林——以及森林里每一棵树和其他树之间,那无声而精密的对话。


一句话总结:单细胞基础模型用AI学会了细胞的"语法",将130年前卡哈尔手绘神经元的事业升级为全脑细胞图谱的"GPS导航系统",正在从根本上改变我们对大脑和神经疾病的理解方式。

Links