翻译细胞的"外语":单细胞大模型如何跨越模态的鸿沟
单细胞基础模型的新前沿:AI如何从一种组学数据推断另一种——用RNA预测染色质可及性和蛋白丰度,让"被杀死的细胞"在计算中继续活着。
Overview
翻译细胞的"外语":单细胞大模型如何跨越模态的鸿沟
- 期数: 第48期
- 日期: 2026-06-22
- 话题: 跨模态预测、跨组学翻译、单细胞基础模型的多层次整合
2018年的一个深夜,纽约基因组中心的一位博士后盯着屏幕上的两个散点图发愣。这两张图来自同一批外周血单个核细胞——图A是mRNA表达谱,图B是染色质可及性数据。理论上,它们应该是"同一个细胞"的两种快照,可当她试图把两张图叠在一起时,细胞们像商量好了一样,各去各的。
更糟糕的是:一批细胞测了RNA,另一批测了ATAC,没有一个是"同一颗细胞"。你手里有两本翻译不全的字典——一本英中,一本英法,但你永远拿不到同一页的中法对照。
"我们得到了数据,"她在实验记录里写下,"但我们失去了细胞。"
这个困境并非她一人独有。每一个做过单细胞多组学的实验员都明白:活细胞是有限的。裂解细胞提取RNA,它就死了;做ATAC需要转座酶插入开放染色质,它也死了;做蛋白质组更不用说。一个细胞只能"被杀死一次",所以理论上,你永远无法从同一颗细胞上同时获得转录组、表观组和蛋白质组。
除非——你让AI来猜。
一个细胞,三层语言
让我们先用一个比喻来理解"模态"。
想象你去观察一座城市。你可以选择三套不同的测量方案:方案A——统计每栋楼亮了几盏灯(基因表达);方案B——检查哪些房间的门是开着的(染色质可及性);方案C——清点每个房间实际住了多少人(蛋白质丰度)。
三套方案测量的是同一座城市,却揭示了完全不同的维度。更关键的是:你通常只能三选一。一旦你选了一套方案,其他两套就永远地"消失"在那个细胞身上。
这就是单细胞多组学的经典困境。过去十年,单细胞RNA测序(scRNA-seq)率先成熟,让我们能以单细胞分辨率读取出mRNA表达谱——相当于拿到了每个细胞"正在使用哪些基因"的清单。随后单细胞ATAC-seq(scATAC-seq)也出现了,告诉我们哪些基因组区域处于开放状态——相当于拿到了"哪些基因开关被打开了"。再后来,CITE-seq甚至能同时测量表面蛋白。
理论上,这三层数据是共轭的:开放的染色质→启动子→转录为mRNA→翻译为蛋白质。这个"中心法则"链条保证了它们之间存在可预测的关系。但在单细胞层面,技术噪声、随机爆发性转录、还有那该死的"一个细胞只能被杀死一次"原则,把这条链条变成了散落一地的拼图碎片。
这就是单细胞大模型的新战场:跨模态翻译。 简而言之,就是让AI学会"看一种数据,推测另一种数据"。当模型只用RNA表达谱作为输入,却能准确预测出同一个细胞的染色质可及性图谱,它就在完成一次"跨模态跳跃"。
从"多模态输入"到"跨模态预测"
这里有必要做一个关键区分。在之前的推文中,我们讨论过多模态单细胞大模型(如第9期)——那种模型同时吃进scRNA-seq和scATAC-seq数据,学习两者的联合表征。这是一种"富家子弟"的做法:需要实验人员在同一个细胞上同时采集两种数据(即多组学技术,如10x Multiome)。
但跨模态预测走的是另一条路:模型训练时见过大量配对数据,但推理时只需要一种数据,就能生成另一种数据的预测。就像一个翻译官,培训期间他读过大量中英对照的联合国文件,但现在你给他一份纯中文的发言稿,他能即时产出英文版——不需要同时看到中英对照。
这在技术上极具挑战,原因有三。
第一,模态不对称。 scRNA-seq通常测量约20,000个基因,而scATAC-seq测量的基因组区域往往有200,000-500,000个"峰"。输入空间和输出空间的维度迥异。你不能简单地把模型设计成"编码RNA → 解码RNA"的架构。
第二,模态间的关系不是线性翻译。 一个基因开放不代表它一定转录;一个转录本不一定被翻译;蛋白质丰度还受降解速率影响。这种多层次、非线性的调控关系,让简单的回归模型望洋兴叹。
第三,配对数据极度稀缺。 虽然有像10x Multiome这样的技术能同时从同一细胞获取RNA和ATAC,但这些数据相比纯RNA或纯ATAC数据集仍然是九牛一毛。模型必须在"见过少量配对"、"大量非配对单模态数据"的混合条件下学习——这是一种半监督甚至弱监督的设定。
模型们是如何"学会翻译"的?
那么,当AI面对这些挑战时,它想了哪些办法?让我们通过几个代表性工作,看看科学家们如何"教AI说多种细胞语言"。
scJoint:对齐两个"细胞空间"
2022年,斯坦福的团队在Nature Methods上发表了scJoint。他们的核心思想很有美感:既然配对数据少,那就在表示空间里让两种模态的细胞"对齐"。具体做法是:分别用各自模态的编码器把scRNA和scATAC数据映射到同一个潜在空间,然后通过对比损失——让真正来自"同类细胞"的跨模态配对靠近,随机配对远离。训练完后,面对一个纯RNA细胞,scJoint能在ATAC空间里找到最匹配的"数据印记"。
用比喻来说:scJoint相当于在深圳和香港之间修建了一座跨海大桥。桥的两端有不同"路面标准"(RNA的20,000维 vs ATAC的300,000维),但桥本身(共享的潜在空间)保证了双向通行。更妙的是,scJoint在跨物种场景也表现优异——小鼠的RNA总能找到人类的ATAC同类——说明这个"桥"连接的是细胞的本质身份,而非技术噪音。
scMoFormer:Transformer的多模态交响
如果说scJoint是"建桥",那scMoFormer(麻省理工与博德研究所,2024)就是"请了一位交响乐指挥"。它基于Transformer架构,专为多模态单细胞数据设计,但独特之处在于它的跨模态注意力机制:在预测ATAC信号时,RNA token们会作为"上下文"被动态地加权——某些基因(比如转录因子)的注意力权重会被自动调高,因为它们与染色质状态的关系更直接。
这让scMoFormer的输出不仅是一个预测值,更附带了一层"可解释性":当你追查模型为什么预测某段染色质是开放的,注意力权重能告诉你,它主要是因为看到了哪个转录因子的表达。
BABEL:翻译"蛋白质语言"
如果说RNA到ATAC是"不同语言翻译",那RNA到蛋白(CITE-seq中测到的表面蛋白)就是"跨介质翻译"——类似你听到一首歌的旋律(RNA),却要画出它的乐谱手稿(蛋白)。伯克利和UCSF团队开发的BABEL正是干这个的。其核心创新在于设计了一种特殊的损失函数,让模型在预测蛋白丰度时,同时保持与RNA表达谱的分布一致性——不是逐细胞地精确拟合(那会过拟合噪声),而是保持整体的统计特征。
这揭示了一个深刻的生物学洞察:RNA和蛋白的关系,在单细胞层面本质上是模糊的。RNA的爆发性转录意味着一个mRNA分子可能多了三倍,蛋白却纹丝不动。BABEL接受并模拟了这种模糊性,因此比那些追求"精确翻译"的模型更接近生物现实。
这有什么用?——"虚拟多组学"的革命
你可能会问:绕这么大一圈,这些跨模态预测到底能干嘛?直接测不就好了吗?
答案是:成本和可能性。
做一个10x Multiome实验(同时测RNA+ATAC),费用是纯RNA实验的2-3倍。做CITE-seq需要抗体panel,更烧钱,且抗原表位必须已知。而纯scRNA-seq测一个细胞只要几分钱。如果模型能从几毛钱的RNA数据里,推断出需要几块钱的ATAC和几十块钱的蛋白信息——你就把实验预算"乘以了十分之一"。
更关键的是:旧数据可以"重生"。世界上已经积累了上亿个纯scRNA-seq的细胞数据(来自人类细胞图谱、Tabula Sapiens等项目),它们没有对应的ATAC,也没有蛋白质组。跨模态模型意味着,你可以回到这些海量旧数据里,"补全"它们缺失的维度,让一维的数据爆炸为三维的洞察。
还有一个更远的前景:虚拟扰动实验。如果你想研究"敲除转录因子FOXP3会改变哪些染色质区域",传统做法是先敲基因,再做ATAC-seq——周期数月,花费数万。但如果跨模态模型足够好,你可以直接告诉它:"假设FOXP3不表达了,重算ATAC图谱"——因为模型已经学会了FOXP3表达量→染色质开放的映射关系。这相当于为湿实验提供了一张高精度导航地图,让实验人员有的放矢。
从中心法则到全模态:未完成的革命
最后一个问题:跨模态预测的终点在哪里?
目前最前沿的努力是全模态翻译——从RNA一次性预测ATAC、蛋白、DNA甲基化、甚至细胞空间位置。英国Sanger研究所的团队在2025年展示了一个原型系统,能用纯RNA数据重建出胚胎发育时的空间表达图谱——相当于从一份文字剧本里推断出整个舞台的灯光、走位和布景。
但这恰恰暴露了当前的最大瓶颈:验证。你说模型从RNA"预测"出了ATAC图谱,好坏怎么判断?如果你手上有真正的配对数据,自然可以算相关性。但那些最需要跨模态预测的场景——比如罕见细胞类型、病理状态下的组织、非模式生物——恰恰没有配对数据可用。你无法验证你"推测"出的染色质状态是对还是错。
这回到了2018年那位博士后最初的难题:它们不是同一个细胞。跨模态大模型给出了一个优雅的近似,但生物学最终需要的,是真正能同时测量一切的实验技术。在那一天到来之前,AI的翻译,是我们最好的备用方案。
一句话总结:单细胞大模型正在学会从一种实验数据"翻译"出另一种,让一个被杀死的细胞,在AI的想象中继续活着。