← Back to scModels Foundation Model

会认细胞、会做实验、还会画电路图：一个 AI 的三重身份

2026-06-15 ·

WeChat科普推文第42期 · 2026-06-15

Overview

WeChat科普推文第42期 · 2026-06-15
话题: 多任务学习, 基因调控网络, 单细胞大模型

2019 年，一位单细胞生物信息学家的一天是这样度过的：早上跑 Seurat 做细胞聚类，下午换一套代码做差异表达分析，晚上再切到 SCENIC 做基因调控网络推断。三个任务，三套工具，三组参数，中间还要反复做数据格式转换。那时候的生信人，像一位需要不断换工具的修理工——钳子用完换扳手，扳手用完换螺丝刀，每个活计都得重新来一遍。

但细胞的生物学本质并不会因为你换了一个软件就发生改变——基因之间的调控关系、细胞的身份标签、基因扰动后的响应，这三件事其实是同一套分子逻辑的不同侧面。如果说基因调控网络是"电路图"，细胞类型注释是给电路板上每个元件贴标签，基因扰动预测就是在问"剪断这根导线后电路会怎样"。它们天然就应该被同一个大脑来处理。

这正是单细胞大模型多任务学习（multi-task learning）的核心洞见。

一个模型，三件事

要理解多任务学习，我们先做一个生活化的类比。

假设你要培养一位医生。传统的做法是什么？先花六年学基础医学，然后分科——心内科学一套、神经科学一套、影像科又学一套。每个专科有自己的教材、自己的老师、自己的考试。这就是传统生物信息学工具箱的模式：为每个任务单独训练一个模型。

但人类医学教育还有一种思路：先打一个足够宽广的通识基础，让同一个大脑同时掌握解剖、生理、病理、药理。然后你会发现，这位医生在读心电图时，脑中浮现的是心肌细胞的离子通道；在开药时，脑中浮现的是药物与受体的分子对接。不同任务之间，知识是共享的，理解是相互增强的。

单细胞大模型走的就是这条路。

以 scGPT 为例。在预训练阶段，这个模型读入了来自数百个数据集的数千万个细胞的基因表达谱。它做的唯一一件事，就是一个"完形填空"式的任务——遮住某些基因的表达值，让模型根据其他基因的表达值来猜被遮住的部分。听起来很简单？但正是在这个过程中，模型被迫学会了基因之间的依赖关系：TP53 高表达通常伴随着哪些基因的变化？CD4 和 CD8 在 T 细胞中有什么样的表达模式？不同组织之间，哪些基因的共表达关系是保守的？

当预训练完成后，这个模型就成了一块"万能底板"。你可以在它上面接不同的"插头"（下游微调头）来完成完全不同的任务：
- 接一个分类头 → 它能做细胞类型注释
- 接一个回归头 → 它能预测基因扰动后的表达变化
- 提取注意力矩阵 → 它能推断基因调控网络
- 接一个批次校正头 → 它能整合不同实验平台的数据

同一个"大脑"，同一套预训练获得的细胞知识，只是换了不同的输出方式，就能胜任截然不同的任务。在机器学习领域，这被称为"统一表征学习"——模型学到的不是某个具体任务的技巧，而是任务背后共享的深层结构。

为什么"一箭三雕"在生物学中行得通？

这件事在计算机视觉或自然语言处理中并不稀奇。GPT 可以同时做翻译、摘要、问答；一个预训练的 ResNet 可以同时做图像分类、目标检测、语义分割。但在单细胞生物学中，多任务学习之所以特别优雅，是因为生物学本身就具有统一性。

细胞类型注释、扰动预测、调控网络推断——这三件事本质上是同一组数学关系在不同方向上的投影。

细胞类型，本质上是一种"稳定的基因表达稳态"。T 细胞之所以是 T 细胞，不是因为它表达了一个"T 细胞基因"，而是因为一套特定的基因调控网络维持着 CD3、CD4、CD8 等基因在特定水平上的表达。换句话说，细胞类型就是调控网络的稳定状态。那么，"注释细胞类型"本质上就是在识别这个细胞目前处于哪一种稳态。

基因扰动，则是打破这种稳态。当你用 CRISPR 敲掉一个转录因子，相当于在一个精确调谐的电路中去掉了一个关键电阻。模型要预测的新表达状态，就是调控网络在新的约束条件下重新平衡后的结果。这需要在脑中"模拟"整个网络的动力学。

调控网络推断，是试图从稳态的观测数据中反推出网络的连接结构——相当于给你一个黑箱的输入输出数据，让你画出里面的电路图。

你会发现，这三件事都指向同一个核心：基因调控网络的结构与动力学。这就是为什么一个充分预训练的模型可以一箭三雕——它学到的，正是这个底层结构。

从"多任务"到"涌现"

更令人惊叹的是，多任务学习模型中出现了某种"1+1>2"的效应。

2024 年，一支来自 MIT 和 Broad 研究所的团队发现，当他们在 scGPT 上同时训练细胞类型注释和扰动预测时，两个任务各自的性能都比单独训练时更好。也就是说，教会模型"认细胞"让它更擅长"做实验"；教会模型"做实验"也让它更擅长"认细胞"。

这听起来反直觉——时间精力是有限的，同时学两样东西不应该互相干扰吗？但仔细一想就合理了。当模型学会"认出 T 细胞"时，它需要关注 CD4、CD8、CD3 等基因的表达模式；而当模型学习"敲除 FOXP3 会怎样"时，它又需要理解 FOXP3 与 CD4、CD25 等基因之间的调控关系。这两组知识不是竞争关系，而是互补关系——它们共同织成了一张更完整的基因调控网络。

这种现象在人工智能领域被称为任务之间的"正迁移"（positive transfer），在生物学家的语言里，它有一个更美的名字：涌现。

现实意义：告别碎片化的生信工具箱

对于每天和单细胞数据打交道的生物学家来说，多任务学习的意义是实实在在的。

过去，一个标准的单细胞分析流程（从 FASTQ 到生物学结论）需要调用 5～8 个不同的工具，每个工具输出不同格式的结果，研究者要在它们之间手动做"翻译"。这个过程不仅繁琐，还引入了大量的主观决策——选什么参数聚类？用什么阈值过滤？差异基因取前多少？——这些决策往往因工具而异，导致同样的数据在不同人手里得出不同的结论。

而一个统一的多任务基础模型，有望用一以贯之的"世界观"来同时完成所有这些分析。从细胞聚类到差异分析，从基因集富集到调控网络，所有结果都源自同一个底层表征，彼此自洽。这不仅是效率的提升，更是可重复性的巨大进步。

当然，今天的单细胞大模型离这种理想状态还有距离。模型在强项任务上（如细胞类型注释）表现惊艳，但在弱项任务上（如精细的剂量依赖型扰动预测）仍有可观的误差。但方向已经明确：细胞生物学需要的不是一个只会做一件事的"专才 AI"，而是一个真正理解细胞底层逻辑的"通才 AI"。

余思

回到 2019 年那位在 Seurat、SCENIC 和差异分析之间疲于切换的生信人。五年后，他或许只需打开一个模型接口，输入同一份数据，就能在同一个系统里完成全部分析。这不仅仅是工具的进步——这是我们对细胞认知方式的范式转移：从"为每个问题造一个工具"到"造一个理解细胞的通用大脑"。

而那个大脑一旦建成，它不仅能回答我们已经知道要问的问题，或许还会提出我们自己从未想到的问题。

一句话总结：单细胞大模型的多任务学习告诉我们，细胞类型、基因调控与扰动响应并不是三个独立的问题，而是同一枚硬币的三面——理解了这一层，AI 就离真正"理解细胞"又近了一步。