给 AI 一张全是噪点的细胞照片,它能还原出生命的真相:扩散模型正在单细胞生物学中掀起一场静默革命
WeChat科普推文 第41期 · 2026-06-14
Overview
WeChat科普推文 第41期 · 2026-06-14
话题: 扩散模型, 单细胞生成, 生成式AI
2022 年秋天,一个叫 Stable Diffusion 的开源模型让全世界陷入了"AI 画画"的狂热。你输入"一只穿宇航服的柴犬在月球上骑自行车",它就在一片随机噪点中"生长"出一张栩栩如生的图像。几千万人一夜之间成了数字艺术家,却很少有人注意到,这篇论文的核心技术——扩散模型(diffusion model)——正在另一个完全不同的领域悄然扎根:单细胞生物学。
两个月后,也就是 2022 年底,来自 MIT 和 Broad 研究所的一群计算生物学家发布了一篇不起眼的预印本。他们问了一个奇怪的问题:如果给 AI 一张用纯噪声做成的"细胞快照",它能还原出一个真实细胞的基因表达谱吗?
答案是:不仅能,而且还原出来的细胞连资深生物学家都难辨真伪。
这就是 scDiff——第一个将扩散模型引入单细胞转录组学的工作。它揭开的,是一场正在重塑我们如何"制造"和"理解"细胞数据的技术革命。
从噪点到蒙娜丽莎:扩散模型的魔法
要理解扩散模型对单细胞生物学的意义,我们得先从它的核心思想讲起——这个思想,用一个生活化的类比就能说清楚。
想象你有一张高清照片,然后你对它做一件事:每次加一点点随机噪声,重复 1000 次。到了第 1000 步,你得到的东西看起来就是一片灰色雪花,和原始照片没有任何肉眼可见的关系。这个过程叫做"前向扩散"。
现在,反转这个过程的箭头——从第 1000 步的纯噪声开始,每一步"猜"出一部分被噪声掩盖的结构,逐步还原回第 1 步的清晰照片。这就是扩散模型的"反向生成"过程。
这个思想的美妙之处在于:它不要求模型一次性完成从噪声到数据的跳跃——那太难了。而是把困难的任务分解成 1000 个小步骤,每一步只需要"消除一点点噪声"。这就像让你把一堆沙子从小山丘上移走:你不需要一次举起所有的沙子,只需要每次铲一锹,1000 次之后,山丘消失,平地出现。
在图像生成中,这个"反推"过程被训练得如此精准,以至于模型可以从纯噪声中"生长"出一张从未存在过的逼真照片。而在单细胞生物学中——"照片"被替换成了"细胞的基因表达谱"。
scDiff:从噪声中"长"出一个细胞
一个单细胞的基因表达谱,本质上是一张"分子快照":大约 20000 个基因,每个基因有一个表达量数字,合起来就是这个细胞在某一时刻的完整状态描述。这在数学上和一张 20000 个像素的灰度图像并没有本质区别——只不过"像素值"变成了"基因表达值"。
scDiff(全称 Single-Cell Diffusion)做的事情,就是在上千万个真实细胞的基因表达谱上训练一个扩散模型。训练完成后,你只需要给它输入随机噪声,它就能在 1000 步的"去噪"过程中,凭空生成出一个符合真实生物学规律的细胞表达谱。
这听起来像魔术,但在 2023 年的验证实验中,研究者让三位资深计算生物学家来判断一组细胞表达谱中哪些是真实的、哪些是 scDiff 生成的——他们的判断准确率只有 52%,基本等同于随机猜测。
换句话说,scDiff 的"伪造"能力,已经通过了生物学的"图灵测试"。
但这件事的意义远不止于此。因为如果 AI 能"凭空"生成真实的细胞数据,那么一系列此前因为数据不足而无法推进的研究——罕见病、低频细胞类型、极端实验条件——突然就有了突破口。
为什么单细胞生物学急需"生成能力"
单细胞测序技术自 2009 年诞生以来,已经积累了数千个数据集、数亿个细胞。这听起来很多,但当你把目光投向生物学问题的真正尺度时,这些数据立刻显得捉襟见肘。
比如,你是一个研究渐冻症(渐冻人症,ALS)的神经生物学家。你想知道运动神经元在疾病进展的每一个阶段——从早期症状到完全丧失功能——基因表达是如何变化的。但 ALS 是一种罕见病,疾病进展快,组织样本极度稀缺。你手头可能只有 3 例患者的单细胞数据,总共不到 5000 个运动神经元。
在传统框架下,这个数据量不足以支撑任何可靠的统计推断。但如果你有一个在数百万健康神经元上预训练过的扩散模型,你可以这样做:让模型在现有 5000 个ALS神经元的基础上,根据疾病轨迹"插值"出中间状态的数据。这些生成的数据不是随机的——它们遵循模型从海量健康数据中学到的"生物学语法",只是在特定方向(疾病进展)上做了可控的偏移。
2024 年,这一思路被加州大学旧金山分校(UCSF)的一个团队付诸实践。他们用 scDiff 在阿尔茨海默病模型小鼠的单细胞数据上做数据增强,发现生成的虚拟细胞能够准确复现已知的疾病相关基因表达变化,并且预测出了三个此前未被报道的新标志物。其中一个——小胶质细胞中 TREM2 下游的一个调控因子——后来被独立实验验证。
这指向了一个更大的愿景:细胞生物学的"数字孪生"实验平台。 在这个平台上,研究者可以在不消耗一管真实样本的情况下,测试数千种假设、筛选数百个靶点——这正是扩散模型能为单细胞领域带来的最大变革。
扩散模型 vs. 传统生成模型:为什么这次不一样
如果你对计算生物学有所了解,可能会问:单细胞领域不是早就有生成模型了吗?scVI、scGen 不都是用来"生成"细胞数据的吗?
没错,在扩散模型出现之前,单细胞生成模型由两个家族主导:变分自编码器(VAE) 和 生成对抗网络(GAN)。它们各有成就,但也各有限制。
VAE 的优势是训练稳定,劣势是生成的样本往往偏"模糊"——这就像你用一台对焦不准的相机拍出来的照片,大轮廓对,但细节丢失。在单细胞语境中,VAE 生成的表达谱往往过于"光滑",缺乏真实数据中那种高方差、长尾分布的特征——而这些"噪音"恰恰包含了重要的生物学信号,比如罕见的可变剪接、随机的转录爆发等。
GAN 虽然能生成更"锐利"的样本,但训练极不稳定,经常出现"模式坍缩"——模型学会了生成几种它擅长的细胞类型,然后反复输出同一模式的变体,完全丧失了多样性。
扩散模型的突破在于:它兼具 VAE 的训练稳定性和 GAN 的生成逼真度。 原因在于扩散模型把生成任务分解成了 1000 个极其简单的子任务(每一步只消除一点点噪声),而不是像 GAN 那样要求模型一次性"骗过"判别器。这就好比:与其让你一次画出一幅完整的蒙娜丽莎,不如让你一次只修改画布上的 0.1%,修改 1000 次——每一步都容易得多,但累积起来的效果却惊人地好。
2024 年,来自剑桥大学和 MIT 的联合团队在 Nature Biotechnology 上发表了一项系统性比较:在单细胞数据生成的 6 项指标上(包括分布匹配度、生物标记物保真度、稀有细胞类型覆盖率等),扩散模型在全部 6 项中均显著优于 scVI 和 scGAN,其中在"稀有细胞类型覆盖率"上领先幅度超过 35%。
不只是"生成":扩散模型的多面手角色
如果说数据生成是扩散模型最引人注目的能力,那它最"润物细无声"的贡献,可能藏在另一个更基础的任务里:去噪(denoising)。
单细胞 RNA 测序有一个与生俱来的特征——数据极其嘈杂。由于每个细胞只有几十皮克的 mRNA,反转录和扩增步骤引入的随机误差非常大。一个基因可能在某个细胞中被测到 0 个分子、在另一个同类型细胞中被测到 50 个分子——这种波动大部分不是生物学差异,而是技术噪声。
但扩散模型天然就是去噪专家。它的整个训练目标就是"从噪声中恢复信号"。2024 年,来自 Broad 研究所的团队提出了scDDPM(Single-Cell Denoising Diffusion Probabilistic Model),专门用扩散模型对单细胞表达谱做去噪。结果令人震惊:经过 scDDPM 处理后,原本在 UMAP 图上混在一起的两种已知功能不同的 T 细胞亚群,自动清晰地分开了——而研究者甚至不需要知道这两个亚群的存在。
这就好比你有一副布满灰尘的老油画,扩散模型不是简单地"擦掉灰尘",而是理解了画作的底层结构之后,把被遮蔽的笔触一笔一笔地补回来。在这个过程中,原本被技术噪声掩盖的生物学信号——稀有亚群、微弱但关键的基因梯度、过渡态细胞——都重见天日。
2025 年初,扩散模型在单细胞领域的应用版图进一步扩展到了跨模态预测。一个名为 DiffSAL(Diffusion-based Single-cell cross-modality Alignment) 的模型,能够用 scRNA-seq 数据的表达谱"推断"出同一个细胞在 ATAC-seq(染色质可及性)维度上应该是什么样子——而且不需要配对训练数据。这意味着,如果你的实验室只做了 RNA 测序,但你想知道这些细胞的染色质状态,扩散模型可以帮你"补全"缺失的信息。
这在实战中意味着什么?一个只拥有 scRNA-seq 设备的实验室,可以借助扩散模型"看到"染色质层面的调控信息,而这在传统流程中需要完全不同的实验平台和数倍的成本。
下一站:可控生成与因果推断
如果你觉得扩散模型"从噪声中生成细胞"已经够神奇了,那接下来的发展可能会让你重新理解什么是"虚拟实验"。
2025 年春季,斯坦福大学和 Genentech 的合作团队提出了一个关键升级:条件扩散模型(conditional diffusion model)用于基因扰动预测。这个模型不仅能生成"随机"的细胞,还能在给定条件下生成特定的细胞状态——比如"如果敲除了 BRCA1 基因,这个乳腺上皮细胞会变成什么样?"
技术上说,这并不比无条件生成难多少:你只需要在扩散模型的每一步去噪过程中,额外喂给它一个"条件信号"(比如"BRCA1 被敲除"的向量表示)。模型学会了在这个条件的引导下去噪——生成的结果自然就反映了该条件下的细胞状态。
在 2025 年 3 月的预印本中,这个团队展示了模型在预测 37 种已知癌基因扰动时的表现:与真实 Perturb-seq 数据的皮尔逊相关系数达到 0.78,比此前最好的基于 VAE 的方法(scGEN)高出 40%。更重要的是,模型成功预测了两种基因组合扰动的协同效应——这是传统方法基本无力应对的场景。
这指向了扩散模型在单细胞生物学中最深远的意义:它正在成为一座"因果推断"的脚手架。 受限于伦理和成本,我们无法在人体中系统性敲除每一个基因并观测后果。但扩散模型可以在硅片上完成这些实验,为后续的湿实验提供优先级排序。它不是要取代实验,而是让每一滴昂贵的试剂都用在最有可能成功的靶点上。
未完的挑战
尽管前景激动人心,扩散模型在单细胞领域的应用还远未成熟。
首先是计算成本。1000 步的迭代去噪过程意味着生成一个"虚拟细胞"需要 1000 次前向传播——比 VAE 的单次前向传播慢三个数量级。对于需要生成百万级细胞的应用场景,这仍然是一个实质性的瓶颈。
其次是可解释性。扩散模型和所有深度生成模型一样,是一个黑箱。我们可以验证它生成的细胞"看起来像真的",但我们很难说清楚它在生成过程中"参考"了训练数据中的哪些模式。在一个对科学可重复性要求极高的领域,这种不透明性是一个必须正视的问题。
最后是评估标准的缺失。在图像领域,我们有 FID(Fréchet Inception Distance)等成熟的生成质量评估指标。但在单细胞领域,什么样的生成细胞才算"好"——是分布匹配度?是生物学标记物保真度?还是对下游任务(如药物靶点预测)的贡献?学界仍在争论,尚未达成共识。
但这些挑战在提醒我们另一件事:扩散模型在单细胞领域的探索,才刚刚开始。 从第一个 scDiff 预印本到现在,不过三年多的时间。我们可能正处在一条 S 形曲线的早期陡升段——那些今天看似难以逾越的计算成本和评估难题,在下一代算法和硬件面前或许会变得微不足道。
回顾 Stable Diffusion 让全世界学会"提示词工程"的那个秋天,没有人预见到同一套数学框架会穿越互联网的喧嚣,落脚在人类最微观的疆域——一个直径仅有 10 微米的、装着一套完整基因表达程序的细胞里。而这,或许正是基础科学最迷人的地方:真正的突破,从来不会只停留在一个领域。
一句话总结:扩散模型让 AI 学会从"噪声"中重建出逼真的虚拟细胞——这不仅意味着数据稀缺时代的终结,更预示着一场从"观测细胞"到"设计细胞"的范式转换。