← Back to scModels Other

取代还是共生:单细胞大模型与传统生信分析的一场对话

取代还是共生:单细胞大模型与传统生信分析的一场对话
2026-05-21 ·

单细胞大模型vs传统生信分析、共生模式、生信人不可替代性

Overview

WeChat科普推文 第16期 · 2026-05-21
话题: 单细胞大模型vs传统生信分析、共生模式、生信人不可替代性

一、凌晨三点的实验室

2025年,杭州。凌晨三点,博士生小林盯着屏幕上缓慢滚动的进度条。他的单细胞RNA测序数据有12万个细胞,从质控、标准化、降维、聚类到细胞注释,Seurat pipeline已经跑了四个小时,而最关键的差异表达分析还没开始。这已经是他这个月第三次通宵了。

同一时刻,地球另一边的旧金山。斯坦福的博后Sarah在Slack上发了一条消息:"刚用scGPT对我们新测的15万细胞做了zero-shot注释,90秒完成,准确率92%。"有人回复:"Seurat is dead?"

Seurat真的死了吗?

五年前如果有人问单细胞数据分析用什么,几乎所有人都会说Seurat或Scanpy。这套由Rahul Satija实验室开发的R包,自2015年问世以来,已经成为单细胞领域的"标准答案"。但过去两年,随着scGPT、Geneformer、UCE(Universal Cell Embedding)、scFoundation等一系列单细胞大模型的涌现,一个刺耳的问题被不断提起:当AI模型在海量数据中学会了细胞的"语法",我们还需要一行一行写代码做传统分析吗?

这让我想起1997年,当IBM深蓝击败国际象棋冠军卡斯帕罗夫时,人们惊呼"国际象棋已死"。但二十多年后,国际象棋不仅没死,反而空前繁荣——AI成了最好的陪练和教练。单细胞生物信息学,也许正站在同样的十字路口。

二、大模型的"超能力"

要理解这场变革,我们得先看清单细胞大模型到底厉害在哪。

你可以把传统生信分析想象成"手工打造家具":每一个步骤——选高变基因、PCA降维、UMAP可视化、找marker基因——都需要你亲自动手,每一步的选择都会影响最终结果。一个经验丰富的生信分析师就像老木匠,凭经验和手感调到最优,而新手可能把桌子腿锯歪了都不知道。

单细胞大模型则更像是"宜家工厂"。它在上千万甚至上亿个细胞的基因表达数据上进行了预训练,学到了一个"通用细胞表示"——无论什么组织、什么物种、什么测序平台,它都能把细胞映射到一个有意义的向量空间中。然后,你只需要给出很少的指令(甚至零指令),它就能完成细胞注释、批次整合、基因扰动预测等任务。

最令人印象深刻的能力有三个:

零样本细胞注释。 传统方法需要你先找到每个细胞类型的marker基因,然后手动标注,整个过程耗时数小时到数天。而scGPT这类模型在预训练时"见过"数百种组织中的上千种细胞类型,当面对一个全新的数据集时,它不需要任何标注好的参考数据,就能直接告诉你每个细胞最可能是什么类型。这就像一个在世界各地旅行过的博物学家,看到一个不认识的生物,能根据相似特征判断它属于哪个类群。

跨批次"自动对齐"。 做过单细胞分析的人最头疼的就是批次效应——同一个组织在不同实验室、不同时间测出来的数据,经常会"形同陌路",就像同一个曲子被两个调音不准的乐队演奏。传统方法(Harmony、CCA)需要你手动指定需要整合的批次,选择超参数,来回调试。而大模型在预训练时已经学会了如何将来自不同条件、不同实验的细胞映射到同一个语义空间中,批次效应被自然而然地消解在其中。

基因扰动预测。 这是传统分析几乎做不到的事。如果我想知道"敲除TP53基因后,每个细胞类型里哪些基因会变化",传统方法需要做实验、测序、分析。而Geneformer通过在海量数据中学习基因之间的共表达关系,可以直接在in silico(计算机模拟)层面做出预测,为实验设计提供候选方向。

三、大模型做不到的事

但事情远没有那么简单。正如那句老话:"当你手里只有一把锤子,所有东西看起来都像钉子。"单细胞大模型也有它坚固的边界。

第一,统计推断的严谨性。 传统的差异表达分析建立在严格的统计框架之上——负二项分布建模、多重假设检验校正、对数折叠变化计算。每一个p值背后都有明确的假设和分布。而大模型给出的预测是基于"模式匹配",它不会告诉你"基因A在T细胞和B细胞之间的差异表达有多显著",只会告诉你"在这个上下文中,基因A的表达模式更像T细胞"。对于需要严格的统计证据来支撑生物学结论的场景——比如临床biomarker验证、药物靶点确认——传统方法仍然是不可替代的。

第二,超出预训练分布的新生物学。 大模型的本质是"经验主义"——它学到的知识无法超越它见过的数据。如果一个单细胞大模型从未在训练集中见过某种罕见的细胞状态(比如某种特定疾病中的过渡态细胞),那么它对这个状态的表征大概率是不准确的。而传统方法虽然慢,但它直接对数据建模,不存在"训练分布"的限制。发现真正的"新生物学",依然需要传统方法的"冷启动"。

第三,可解释性和透明度。 当你用Seurat找到一个差异表达基因时,你可以回溯每一步:原始UMI count → 标准化方法 → 统计检验 → p值。每一步都是透明可审计的。而当你问scGPT"这个细胞是什么类型",它给出的答案来自一个数十亿参数的黑色神经网络,即使是模型的开发者也很难说清楚它到底"看了"哪些特征做出的判断。在需要向监管机构、审稿人或临床团队解释分析逻辑时,这种"因为它说的"显然不够。

四、共生,而非取代

那么,真正的未来应该是什么样的?我的答案是:单细胞大模型和传统生信分析不是对手,而是搭档。

一个富有成效的工作流可能是这样的:

你得到一个全新的数据集。第一步,用大模型做快速勘探——90秒完成细胞注释,自动整合批次,给出初步的差异表达和基因扰动预测。这一步相当于"坐直升机俯瞰地形"——快速获得全局图景。

第二步,用传统方法做精耕细作——针对大模型发现的有趣pattern,用Seurat/Scanpy做严格的差异表达分析,计算统计显著性,验证marker基因在独立数据集中的一致性。这一步相当于"徒步考察关键区域"——用严谨的方法确认每一个发现。

第三步,把验证过的生物学知识反馈给大模型——通过微调或prompt engineering,让模型在这个特定生物学问题上更加精准。这形成了一个正向循环。

这种"模型勘探→传统验证→反馈增强"的模式,已经在一些前沿实验室中开始实践。博德研究所的Anna Greka团队在肾脏单细胞研究中,使用Geneformer预测可能的药物靶点,再用传统方法和实验验证,将靶点发现周期缩短了60%。

五、生信人的不可替代性

最后一个问题:如果大模型能自动完成这么多分析,生信人还值钱吗?

我的回答是:更值钱了。 但核心技能在转移。

十年前,一个好的生信分析师需要知道如何调PCA的参数、如何在UMAP上选分辨率。这些"手工活"确实正在被自动化。但新出现的、更有价值的能力是:

提出正确的问题。 大模型可以回答任何问题,但前提是你要知道该问什么。理解生物学的上下文,设计聪明的实验,从海量预测中辨别真正的信号——这些是AI无法替你做的。

判断答案的质量。 大模型永远自信,但不永远正确。知道什么时候该相信模型的预测,什么时候该怀疑——这种判断力来自对生物学和算法的双重理解。

搭建新的桥梁。 将大模型的embedding与传统统计检验连接起来,设计新的分析策略,把计算预测转化为生物学洞察——这是一种新的"计算生物学家"角色,既不同于传统的bench biologist,也不同于传统的bioinformatician。

这有点像GPS导航兴起后的出租车司机。初看起来,GPS让"认路"这项核心技能贬值了。但最好的司机并没有消失——他们把被GPS释放出来的脑力,用在了更好的客户服务、更优化的路线策略、更安全的驾驶判断上。生信人亦如是:把重复劳动交给模型,把创造力留给自己。


一句话总结:单细胞大模型不会取代传统生信分析,正如显微镜没有取代解剖刀——它只会让拿刀的科学家,看得更清楚。

Links

Tags