← Back to scModels Foundation Model

会认细胞、会做实验、还会画电路图:一个 AI 的三重身份

会认细胞、会做实验、还会画电路图:一个 AI 的三重身份
2026-06-15 ·

WeChat科普推文 第42期 · 2026-06-15

Overview

WeChat科普推文 第42期 · 2026-06-15
话题: 多任务学习, 基因调控网络, 单细胞大模型

2019 年,一位单细胞生物信息学家的一天是这样度过的:早上跑 Seurat 做细胞聚类,下午换一套代码做差异表达分析,晚上再切到 SCENIC 做基因调控网络推断。三个任务,三套工具,三组参数,中间还要反复做数据格式转换。那时候的生信人,像一位需要不断换工具的修理工——钳子用完换扳手,扳手用完换螺丝刀,每个活计都得重新来一遍。

但细胞的生物学本质并不会因为你换了一个软件就发生改变——基因之间的调控关系、细胞的身份标签、基因扰动后的响应,这三件事其实是同一套分子逻辑的不同侧面。如果说基因调控网络是"电路图",细胞类型注释是给电路板上每个元件贴标签,基因扰动预测就是在问"剪断这根导线后电路会怎样"。它们天然就应该被同一个大脑来处理。

这正是单细胞大模型多任务学习(multi-task learning)的核心洞见。


一个模型,三件事

要理解多任务学习,我们先做一个生活化的类比。

假设你要培养一位医生。传统的做法是什么?先花六年学基础医学,然后分科——心内科学一套、神经科学一套、影像科又学一套。每个专科有自己的教材、自己的老师、自己的考试。这就是传统生物信息学工具箱的模式:为每个任务单独训练一个模型。

但人类医学教育还有一种思路:先打一个足够宽广的通识基础,让同一个大脑同时掌握解剖、生理、病理、药理。然后你会发现,这位医生在读心电图时,脑中浮现的是心肌细胞的离子通道;在开药时,脑中浮现的是药物与受体的分子对接。不同任务之间,知识是共享的,理解是相互增强的。

单细胞大模型走的就是这条路。

以 scGPT 为例。在预训练阶段,这个模型读入了来自数百个数据集的数千万个细胞的基因表达谱。它做的唯一一件事,就是一个"完形填空"式的任务——遮住某些基因的表达值,让模型根据其他基因的表达值来猜被遮住的部分。听起来很简单?但正是在这个过程中,模型被迫学会了基因之间的依赖关系:TP53 高表达通常伴随着哪些基因的变化?CD4 和 CD8 在 T 细胞中有什么样的表达模式?不同组织之间,哪些基因的共表达关系是保守的?

当预训练完成后,这个模型就成了一块"万能底板"。你可以在它上面接不同的"插头"(下游微调头)来完成完全不同的任务:
- 接一个分类头 → 它能做细胞类型注释
- 接一个回归头 → 它能预测基因扰动后的表达变化
- 提取注意力矩阵 → 它能推断基因调控网络
- 接一个批次校正头 → 它能整合不同实验平台的数据

同一个"大脑",同一套预训练获得的细胞知识,只是换了不同的输出方式,就能胜任截然不同的任务。在机器学习领域,这被称为"统一表征学习"——模型学到的不是某个具体任务的技巧,而是任务背后共享的深层结构。


为什么"一箭三雕"在生物学中行得通?

这件事在计算机视觉或自然语言处理中并不稀奇。GPT 可以同时做翻译、摘要、问答;一个预训练的 ResNet 可以同时做图像分类、目标检测、语义分割。但在单细胞生物学中,多任务学习之所以特别优雅,是因为生物学本身就具有统一性。

细胞类型注释、扰动预测、调控网络推断——这三件事本质上是同一组数学关系在不同方向上的投影。

细胞类型,本质上是一种"稳定的基因表达稳态"。T 细胞之所以是 T 细胞,不是因为它表达了一个"T 细胞基因",而是因为一套特定的基因调控网络维持着 CD3、CD4、CD8 等基因在特定水平上的表达。换句话说,细胞类型就是调控网络的稳定状态。那么,"注释细胞类型"本质上就是在识别这个细胞目前处于哪一种稳态。

基因扰动,则是打破这种稳态。当你用 CRISPR 敲掉一个转录因子,相当于在一个精确调谐的电路中去掉了一个关键电阻。模型要预测的新表达状态,就是调控网络在新的约束条件下重新平衡后的结果。这需要在脑中"模拟"整个网络的动力学。

调控网络推断,是试图从稳态的观测数据中反推出网络的连接结构——相当于给你一个黑箱的输入输出数据,让你画出里面的电路图。

你会发现,这三件事都指向同一个核心:基因调控网络的结构与动力学。这就是为什么一个充分预训练的模型可以一箭三雕——它学到的,正是这个底层结构。


从"多任务"到"涌现"

更令人惊叹的是,多任务学习模型中出现了某种"1+1>2"的效应。

2024 年,一支来自 MIT 和 Broad 研究所的团队发现,当他们在 scGPT 上同时训练细胞类型注释和扰动预测时,两个任务各自的性能都比单独训练时更好。也就是说,教会模型"认细胞"让它更擅长"做实验";教会模型"做实验"也让它更擅长"认细胞"。

这听起来反直觉——时间精力是有限的,同时学两样东西不应该互相干扰吗?但仔细一想就合理了。当模型学会"认出 T 细胞"时,它需要关注 CD4、CD8、CD3 等基因的表达模式;而当模型学习"敲除 FOXP3 会怎样"时,它又需要理解 FOXP3 与 CD4、CD25 等基因之间的调控关系。这两组知识不是竞争关系,而是互补关系——它们共同织成了一张更完整的基因调控网络。

这种现象在人工智能领域被称为任务之间的"正迁移"(positive transfer),在生物学家的语言里,它有一个更美的名字:涌现


现实意义:告别碎片化的生信工具箱

对于每天和单细胞数据打交道的生物学家来说,多任务学习的意义是实实在在的。

过去,一个标准的单细胞分析流程(从 FASTQ 到生物学结论)需要调用 5~8 个不同的工具,每个工具输出不同格式的结果,研究者要在它们之间手动做"翻译"。这个过程不仅繁琐,还引入了大量的主观决策——选什么参数聚类?用什么阈值过滤?差异基因取前多少?——这些决策往往因工具而异,导致同样的数据在不同人手里得出不同的结论。

而一个统一的多任务基础模型,有望用一以贯之的"世界观"来同时完成所有这些分析。从细胞聚类到差异分析,从基因集富集到调控网络,所有结果都源自同一个底层表征,彼此自洽。这不仅是效率的提升,更是可重复性的巨大进步。

当然,今天的单细胞大模型离这种理想状态还有距离。模型在强项任务上(如细胞类型注释)表现惊艳,但在弱项任务上(如精细的剂量依赖型扰动预测)仍有可观的误差。但方向已经明确:细胞生物学需要的不是一个只会做一件事的"专才 AI",而是一个真正理解细胞底层逻辑的"通才 AI"。


余思

回到 2019 年那位在 Seurat、SCENIC 和差异分析之间疲于切换的生信人。五年后,他或许只需打开一个模型接口,输入同一份数据,就能在同一个系统里完成全部分析。这不仅仅是工具的进步——这是我们对细胞认知方式的范式转移:从"为每个问题造一个工具"到"造一个理解细胞的通用大脑"。

而那个大脑一旦建成,它不仅能回答我们已经知道要问的问题,或许还会提出我们自己从未想到的问题。


一句话总结:单细胞大模型的多任务学习告诉我们,细胞类型、基因调控与扰动响应并不是三个独立的问题,而是同一枚硬币的三面——理解了这一层,AI 就离真正"理解细胞"又近了一步。

Links