取代还是共生：单细胞大模型与传统生信分析的一场对话

2026-05-21 ·

单细胞大模型vs传统生信分析、共生模式、生信人不可替代性

Overview

WeChat科普推文第16期 · 2026-05-21
话题: 单细胞大模型vs传统生信分析、共生模式、生信人不可替代性

一、凌晨三点的实验室

2025年，杭州。凌晨三点，博士生小林盯着屏幕上缓慢滚动的进度条。他的单细胞RNA测序数据有12万个细胞，从质控、标准化、降维、聚类到细胞注释，Seurat pipeline已经跑了四个小时，而最关键的差异表达分析还没开始。这已经是他这个月第三次通宵了。

同一时刻，地球另一边的旧金山。斯坦福的博后Sarah在Slack上发了一条消息："刚用scGPT对我们新测的15万细胞做了zero-shot注释，90秒完成，准确率92%。"有人回复："Seurat is dead？"

Seurat真的死了吗？

五年前如果有人问单细胞数据分析用什么，几乎所有人都会说Seurat或Scanpy。这套由Rahul Satija实验室开发的R包，自2015年问世以来，已经成为单细胞领域的"标准答案"。但过去两年，随着scGPT、Geneformer、UCE（Universal Cell Embedding）、scFoundation等一系列单细胞大模型的涌现，一个刺耳的问题被不断提起：当AI模型在海量数据中学会了细胞的"语法"，我们还需要一行一行写代码做传统分析吗？

这让我想起1997年，当IBM深蓝击败国际象棋冠军卡斯帕罗夫时，人们惊呼"国际象棋已死"。但二十多年后，国际象棋不仅没死，反而空前繁荣——AI成了最好的陪练和教练。单细胞生物信息学，也许正站在同样的十字路口。

二、大模型的"超能力"

要理解这场变革，我们得先看清单细胞大模型到底厉害在哪。

你可以把传统生信分析想象成"手工打造家具"：每一个步骤——选高变基因、PCA降维、UMAP可视化、找marker基因——都需要你亲自动手，每一步的选择都会影响最终结果。一个经验丰富的生信分析师就像老木匠，凭经验和手感调到最优，而新手可能把桌子腿锯歪了都不知道。

单细胞大模型则更像是"宜家工厂"。它在上千万甚至上亿个细胞的基因表达数据上进行了预训练，学到了一个"通用细胞表示"——无论什么组织、什么物种、什么测序平台，它都能把细胞映射到一个有意义的向量空间中。然后，你只需要给出很少的指令（甚至零指令），它就能完成细胞注释、批次整合、基因扰动预测等任务。

最令人印象深刻的能力有三个：

零样本细胞注释。 传统方法需要你先找到每个细胞类型的marker基因，然后手动标注，整个过程耗时数小时到数天。而scGPT这类模型在预训练时"见过"数百种组织中的上千种细胞类型，当面对一个全新的数据集时，它不需要任何标注好的参考数据，就能直接告诉你每个细胞最可能是什么类型。这就像一个在世界各地旅行过的博物学家，看到一个不认识的生物，能根据相似特征判断它属于哪个类群。

跨批次"自动对齐"。 做过单细胞分析的人最头疼的就是批次效应——同一个组织在不同实验室、不同时间测出来的数据，经常会"形同陌路"，就像同一个曲子被两个调音不准的乐队演奏。传统方法（Harmony、CCA）需要你手动指定需要整合的批次，选择超参数，来回调试。而大模型在预训练时已经学会了如何将来自不同条件、不同实验的细胞映射到同一个语义空间中，批次效应被自然而然地消解在其中。

基因扰动预测。 这是传统分析几乎做不到的事。如果我想知道"敲除TP53基因后，每个细胞类型里哪些基因会变化"，传统方法需要做实验、测序、分析。而Geneformer通过在海量数据中学习基因之间的共表达关系，可以直接在in silico（计算机模拟）层面做出预测，为实验设计提供候选方向。

三、大模型做不到的事

但事情远没有那么简单。正如那句老话："当你手里只有一把锤子，所有东西看起来都像钉子。"单细胞大模型也有它坚固的边界。

第一，统计推断的严谨性。 传统的差异表达分析建立在严格的统计框架之上——负二项分布建模、多重假设检验校正、对数折叠变化计算。每一个p值背后都有明确的假设和分布。而大模型给出的预测是基于"模式匹配"，它不会告诉你"基因A在T细胞和B细胞之间的差异表达有多显著"，只会告诉你"在这个上下文中，基因A的表达模式更像T细胞"。对于需要严格的统计证据来支撑生物学结论的场景——比如临床biomarker验证、药物靶点确认——传统方法仍然是不可替代的。

第二，超出预训练分布的新生物学。 大模型的本质是"经验主义"——它学到的知识无法超越它见过的数据。如果一个单细胞大模型从未在训练集中见过某种罕见的细胞状态（比如某种特定疾病中的过渡态细胞），那么它对这个状态的表征大概率是不准确的。而传统方法虽然慢，但它直接对数据建模，不存在"训练分布"的限制。发现真正的"新生物学"，依然需要传统方法的"冷启动"。

第三，可解释性和透明度。 当你用Seurat找到一个差异表达基因时，你可以回溯每一步：原始UMI count → 标准化方法 → 统计检验 → p值。每一步都是透明可审计的。而当你问scGPT"这个细胞是什么类型"，它给出的答案来自一个数十亿参数的黑色神经网络，即使是模型的开发者也很难说清楚它到底"看了"哪些特征做出的判断。在需要向监管机构、审稿人或临床团队解释分析逻辑时，这种"因为它说的"显然不够。

四、共生，而非取代

那么，真正的未来应该是什么样的？我的答案是：单细胞大模型和传统生信分析不是对手，而是搭档。

一个富有成效的工作流可能是这样的：

你得到一个全新的数据集。第一步，用大模型做快速勘探——90秒完成细胞注释，自动整合批次，给出初步的差异表达和基因扰动预测。这一步相当于"坐直升机俯瞰地形"——快速获得全局图景。

第二步，用传统方法做精耕细作——针对大模型发现的有趣pattern，用Seurat/Scanpy做严格的差异表达分析，计算统计显著性，验证marker基因在独立数据集中的一致性。这一步相当于"徒步考察关键区域"——用严谨的方法确认每一个发现。

第三步，把验证过的生物学知识反馈给大模型——通过微调或prompt engineering，让模型在这个特定生物学问题上更加精准。这形成了一个正向循环。

这种"模型勘探→传统验证→反馈增强"的模式，已经在一些前沿实验室中开始实践。博德研究所的Anna Greka团队在肾脏单细胞研究中，使用Geneformer预测可能的药物靶点，再用传统方法和实验验证，将靶点发现周期缩短了60%。

五、生信人的不可替代性

最后一个问题：如果大模型能自动完成这么多分析，生信人还值钱吗？

我的回答是：更值钱了。 但核心技能在转移。

十年前，一个好的生信分析师需要知道如何调PCA的参数、如何在UMAP上选分辨率。这些"手工活"确实正在被自动化。但新出现的、更有价值的能力是：

提出正确的问题。 大模型可以回答任何问题，但前提是你要知道该问什么。理解生物学的上下文，设计聪明的实验，从海量预测中辨别真正的信号——这些是AI无法替你做的。

判断答案的质量。 大模型永远自信，但不永远正确。知道什么时候该相信模型的预测，什么时候该怀疑——这种判断力来自对生物学和算法的双重理解。

搭建新的桥梁。 将大模型的embedding与传统统计检验连接起来，设计新的分析策略，把计算预测转化为生物学洞察——这是一种新的"计算生物学家"角色，既不同于传统的bench biologist，也不同于传统的bioinformatician。

这有点像GPS导航兴起后的出租车司机。初看起来，GPS让"认路"这项核心技能贬值了。但最好的司机并没有消失——他们把被GPS释放出来的脑力，用在了更好的客户服务、更优化的路线策略、更安全的驾驶判断上。生信人亦如是：把重复劳动交给模型，把创造力留给自己。

一句话总结：单细胞大模型不会取代传统生信分析，正如显微镜没有取代解剖刀——它只会让拿刀的科学家，看得更清楚。