翻译细胞的"外语"：单细胞大模型如何跨越模态的鸿沟

单细胞基础模型的新前沿：AI如何从一种组学数据推断另一种——用RNA预测染色质可及性和蛋白丰度，让"被杀死的细胞"在计算中继续活着。

Overview

翻译细胞的"外语"：单细胞大模型如何跨越模态的鸿沟

期数: 第48期
日期: 2026-06-22
话题: 跨模态预测、跨组学翻译、单细胞基础模型的多层次整合

2018年的一个深夜，纽约基因组中心的一位博士后盯着屏幕上的两个散点图发愣。这两张图来自同一批外周血单个核细胞——图A是mRNA表达谱，图B是染色质可及性数据。理论上，它们应该是"同一个细胞"的两种快照，可当她试图把两张图叠在一起时，细胞们像商量好了一样，各去各的。

更糟糕的是：一批细胞测了RNA，另一批测了ATAC，没有一个是"同一颗细胞"。你手里有两本翻译不全的字典——一本英中，一本英法，但你永远拿不到同一页的中法对照。

"我们得到了数据,"她在实验记录里写下，"但我们失去了细胞。"

这个困境并非她一人独有。每一个做过单细胞多组学的实验员都明白：活细胞是有限的。裂解细胞提取RNA，它就死了；做ATAC需要转座酶插入开放染色质，它也死了；做蛋白质组更不用说。一个细胞只能"被杀死一次"，所以理论上，你永远无法从同一颗细胞上同时获得转录组、表观组和蛋白质组。

除非——你让AI来猜。

一个细胞，三层语言

让我们先用一个比喻来理解"模态"。

想象你去观察一座城市。你可以选择三套不同的测量方案：方案A——统计每栋楼亮了几盏灯（基因表达）；方案B——检查哪些房间的门是开着的（染色质可及性）；方案C——清点每个房间实际住了多少人（蛋白质丰度）。

三套方案测量的是同一座城市，却揭示了完全不同的维度。更关键的是：你通常只能三选一。一旦你选了一套方案，其他两套就永远地"消失"在那个细胞身上。

这就是单细胞多组学的经典困境。过去十年，单细胞RNA测序（scRNA-seq）率先成熟，让我们能以单细胞分辨率读取出mRNA表达谱——相当于拿到了每个细胞"正在使用哪些基因"的清单。随后单细胞ATAC-seq（scATAC-seq）也出现了，告诉我们哪些基因组区域处于开放状态——相当于拿到了"哪些基因开关被打开了"。再后来，CITE-seq甚至能同时测量表面蛋白。

理论上，这三层数据是共轭的：开放的染色质→启动子→转录为mRNA→翻译为蛋白质。这个"中心法则"链条保证了它们之间存在可预测的关系。但在单细胞层面，技术噪声、随机爆发性转录、还有那该死的"一个细胞只能被杀死一次"原则，把这条链条变成了散落一地的拼图碎片。

这就是单细胞大模型的新战场：跨模态翻译。 简而言之，就是让AI学会"看一种数据，推测另一种数据"。当模型只用RNA表达谱作为输入，却能准确预测出同一个细胞的染色质可及性图谱，它就在完成一次"跨模态跳跃"。

从"多模态输入"到"跨模态预测"

这里有必要做一个关键区分。在之前的推文中，我们讨论过多模态单细胞大模型（如第9期）——那种模型同时吃进scRNA-seq和scATAC-seq数据，学习两者的联合表征。这是一种"富家子弟"的做法：需要实验人员在同一个细胞上同时采集两种数据（即多组学技术，如10x Multiome）。

但跨模态预测走的是另一条路：模型训练时见过大量配对数据，但推理时只需要一种数据，就能生成另一种数据的预测。就像一个翻译官，培训期间他读过大量中英对照的联合国文件，但现在你给他一份纯中文的发言稿，他能即时产出英文版——不需要同时看到中英对照。

这在技术上极具挑战，原因有三。

第一，模态不对称。 scRNA-seq通常测量约20,000个基因，而scATAC-seq测量的基因组区域往往有200,000-500,000个"峰"。输入空间和输出空间的维度迥异。你不能简单地把模型设计成"编码RNA → 解码RNA"的架构。

第二，模态间的关系不是线性翻译。 一个基因开放不代表它一定转录；一个转录本不一定被翻译；蛋白质丰度还受降解速率影响。这种多层次、非线性的调控关系，让简单的回归模型望洋兴叹。

第三，配对数据极度稀缺。 虽然有像10x Multiome这样的技术能同时从同一细胞获取RNA和ATAC，但这些数据相比纯RNA或纯ATAC数据集仍然是九牛一毛。模型必须在"见过少量配对"、"大量非配对单模态数据"的混合条件下学习——这是一种半监督甚至弱监督的设定。

模型们是如何"学会翻译"的？

那么，当AI面对这些挑战时，它想了哪些办法？让我们通过几个代表性工作，看看科学家们如何"教AI说多种细胞语言"。

scJoint：对齐两个"细胞空间"

2022年，斯坦福的团队在Nature Methods上发表了scJoint。他们的核心思想很有美感：既然配对数据少，那就在表示空间里让两种模态的细胞"对齐"。具体做法是：分别用各自模态的编码器把scRNA和scATAC数据映射到同一个潜在空间，然后通过对比损失——让真正来自"同类细胞"的跨模态配对靠近，随机配对远离。训练完后，面对一个纯RNA细胞，scJoint能在ATAC空间里找到最匹配的"数据印记"。

用比喻来说：scJoint相当于在深圳和香港之间修建了一座跨海大桥。桥的两端有不同"路面标准"（RNA的20,000维 vs ATAC的300,000维），但桥本身（共享的潜在空间）保证了双向通行。更妙的是，scJoint在跨物种场景也表现优异——小鼠的RNA总能找到人类的ATAC同类——说明这个"桥"连接的是细胞的本质身份，而非技术噪音。

scMoFormer：Transformer的多模态交响

如果说scJoint是"建桥"，那scMoFormer（麻省理工与博德研究所，2024）就是"请了一位交响乐指挥"。它基于Transformer架构，专为多模态单细胞数据设计，但独特之处在于它的跨模态注意力机制：在预测ATAC信号时，RNA token们会作为"上下文"被动态地加权——某些基因（比如转录因子）的注意力权重会被自动调高，因为它们与染色质状态的关系更直接。

这让scMoFormer的输出不仅是一个预测值，更附带了一层"可解释性"：当你追查模型为什么预测某段染色质是开放的，注意力权重能告诉你，它主要是因为看到了哪个转录因子的表达。

BABEL：翻译"蛋白质语言"

如果说RNA到ATAC是"不同语言翻译"，那RNA到蛋白（CITE-seq中测到的表面蛋白）就是"跨介质翻译"——类似你听到一首歌的旋律（RNA），却要画出它的乐谱手稿（蛋白）。伯克利和UCSF团队开发的BABEL正是干这个的。其核心创新在于设计了一种特殊的损失函数，让模型在预测蛋白丰度时，同时保持与RNA表达谱的分布一致性——不是逐细胞地精确拟合（那会过拟合噪声），而是保持整体的统计特征。

这揭示了一个深刻的生物学洞察：RNA和蛋白的关系，在单细胞层面本质上是模糊的。RNA的爆发性转录意味着一个mRNA分子可能多了三倍，蛋白却纹丝不动。BABEL接受并模拟了这种模糊性，因此比那些追求"精确翻译"的模型更接近生物现实。

这有什么用？——"虚拟多组学"的革命

你可能会问：绕这么大一圈，这些跨模态预测到底能干嘛？直接测不就好了吗？

答案是：成本和可能性。

做一个10x Multiome实验（同时测RNA+ATAC），费用是纯RNA实验的2-3倍。做CITE-seq需要抗体panel，更烧钱，且抗原表位必须已知。而纯scRNA-seq测一个细胞只要几分钱。如果模型能从几毛钱的RNA数据里，推断出需要几块钱的ATAC和几十块钱的蛋白信息——你就把实验预算"乘以了十分之一"。

更关键的是：旧数据可以"重生"。世界上已经积累了上亿个纯scRNA-seq的细胞数据（来自人类细胞图谱、Tabula Sapiens等项目），它们没有对应的ATAC，也没有蛋白质组。跨模态模型意味着，你可以回到这些海量旧数据里，"补全"它们缺失的维度，让一维的数据爆炸为三维的洞察。

还有一个更远的前景：虚拟扰动实验。如果你想研究"敲除转录因子FOXP3会改变哪些染色质区域"，传统做法是先敲基因，再做ATAC-seq——周期数月，花费数万。但如果跨模态模型足够好，你可以直接告诉它："假设FOXP3不表达了，重算ATAC图谱"——因为模型已经学会了FOXP3表达量→染色质开放的映射关系。这相当于为湿实验提供了一张高精度导航地图，让实验人员有的放矢。

从中心法则到全模态：未完成的革命

最后一个问题：跨模态预测的终点在哪里？

目前最前沿的努力是全模态翻译——从RNA一次性预测ATAC、蛋白、DNA甲基化、甚至细胞空间位置。英国Sanger研究所的团队在2025年展示了一个原型系统，能用纯RNA数据重建出胚胎发育时的空间表达图谱——相当于从一份文字剧本里推断出整个舞台的灯光、走位和布景。

但这恰恰暴露了当前的最大瓶颈：验证。你说模型从RNA"预测"出了ATAC图谱，好坏怎么判断？如果你手上有真正的配对数据，自然可以算相关性。但那些最需要跨模态预测的场景——比如罕见细胞类型、病理状态下的组织、非模式生物——恰恰没有配对数据可用。你无法验证你"推测"出的染色质状态是对还是错。

这回到了2018年那位博士后最初的难题：它们不是同一个细胞。跨模态大模型给出了一个优雅的近似，但生物学最终需要的，是真正能同时测量一切的实验技术。在那一天到来之前，AI的翻译，是我们最好的备用方案。

一句话总结：单细胞大模型正在学会从一种实验数据"翻译"出另一种，让一个被杀死的细胞，在AI的想象中继续活着。

翻译细胞的"外语"：单细胞大模型如何跨越模态的鸿沟

Overview

翻译细胞的"外语"：单细胞大模型如何跨越模态的鸿沟

一个细胞，三层语言

从"多模态输入"到"跨模态预测"

模型们是如何"学会翻译"的？

这有什么用？——"虚拟多组学"的革命

从中心法则到全模态：未完成的革命

Links