← Back to scModels Foundation Model

免疫系统的罗塞塔石碑：单细胞大模型如何破译人体最复杂的防御密码

2026-06-12 ·

WeChat科普推文第39期 · 2026-06-12

Overview

WeChat科普推文第39期 · 2026-06-12
话题: 免疫系统, 单细胞大模型, 免疫图谱

1884年，俄罗斯动物学家伊利亚·梅契尼科夫（Ilya Mechnikov）将一根玫瑰刺扎进海星幼虫体内，然后趴在显微镜前，屏息等待。几小时后，一群微小的细胞从四面八方涌来，将玫瑰刺团团围住。梅契尼科夫激动得跳了起来——他发现了"吞噬细胞"，免疫学的序幕由此拉开。

一百四十年后，免疫学迎来了自己的"显微镜革命"——但这次的"镜头"，是一群学会了读细胞的AI模型。

我们的免疫系统是自然界最精密的防御工程。数以百亿计的免疫细胞——T细胞、B细胞、NK细胞、巨噬细胞、树突状细胞——日夜巡逻，识别入侵者，发动精准打击，又在战斗结束后悄然退场。这个系统的复杂度令人窒息：光是T细胞受体（TCR）的理论多样性就超过10¹⁵种，比可观测宇宙中的恒星数量还要多几个数量级。

问题来了：我们如何理解这样一个天文数字般复杂的系统？

这就像让一个不懂中文的人去整理国家图书馆的全部藏书——不但要认出每本书是什么，还要理解书与书之间的关系、整座图书馆的运行逻辑。

过去几十年，免疫学家们用流式细胞术、单细胞测序等手段，像是在图书馆里一本一本地翻书。效率低、成本高，而且每次只能看到很少的细胞。更致命的是，很多免疫细胞（比如组织驻留记忆T细胞、罕见的调节性B细胞亚群）就像图书馆里尘封在角落里的珍本孤本——数量极少，极易被遗漏，却可能在疾病中扮演关键角色。

这就是单细胞大模型登场的地方。

一场"扫盲运动"：让AI认识所有免疫细胞

故事要从一个尴尬的事实说起。

2023年，一个研究团队用传统方法对肿瘤浸润免疫细胞进行分类，自信满满地交出了报告。但几个月后，单细胞大模型重新分析了同一批数据，结果令人震惊——传统方法漏掉了近30%的稀有免疫细胞亚群。这其中包括一群数量极少的"耗竭前体T细胞"，它们恰恰是免疫检查点抑制剂（PD-1/PD-L1抗体）起效的关键靶标。

为什么单细胞大模型能看见人类专家看不见的东西？

答案是规模。scGPT、Geneformer这样的单细胞基础模型，训练时"读"过数千万甚至上亿个细胞的数据。它们不是死记硬背——而是在海量数据中抽象出了"细胞的语言"，学会了基因表达模式的深层逻辑。当它们遇到一个从未见过的免疫细胞时，不是靠查表对照，而是靠理解这个细胞在"细胞语言宇宙"中的位置来推断它的身份。

打个比方：一个只读过三本小说的人，很难判断一本新书属于什么流派。但一个读过十万本书的人——即使从没读过这本新书——也能从行文节奏、词汇选择、叙事结构中瞬间判断出它的风格和类别。单细胞大模型就是那个"读过十万本书"的读者。

这种能力在免疫学中尤其珍贵。因为免疫细胞的状态极其丰富且动态：同一个T细胞，naïve（初始态）、activated（激活态）、exhausted（耗竭态）、memory（记忆态），基因表达谱完全不同。传统方法需要为每种状态单独设计标记基因面板，而单细胞大模型可以直接从全局表达模式中一次性识别出所有状态。

免疫系统的"恒河沙数"：TCR和BCR的终极密码

如果说免疫细胞的多样性是"多"，那么T细胞受体（TCR）和B细胞受体（BCR）的多样性就是"无穷"。

每个T细胞和B细胞表面都有一个独一无二的受体——就像一把只匹配一种钥匙的锁。当病原体入侵时，只有恰好携带"正确受体"的细胞才会被激活，迅速克隆扩增，发起免疫反击。这个"受体库"（repertoire）的潜在多样性是10¹⁵到10¹⁸级别——一个真正意义上的天文数字。

理解这个"受体库"是免疫学的圣杯，也是噩梦。因为传统的单细胞测序虽然可以同时捕获转录组和TCR/BCR序列，但分析工具却力不从心：它们要么只看基因表达，要么只看受体序列，很少有人能把两者真正整合起来——就像分别拿到了一个人的照片和简历，却无法把照片和简历对应到同一个人身上。

单细胞大模型正在改变这一切。

2024年，多个团队开始探索将TCR/BCR序列信息嵌入单细胞大模型的"语言空间"。原理并不复杂：如果把基因表达比作细胞的"日常说话内容"，那么TCR/BCR序列就是细胞的"身份证号"——它定义了细胞的唯一身份和使命。单细胞大模型可以同时"听懂"细胞的日常对话（转录组）和"查阅"它的身份证（受体序列），在同一个表征空间里建立起两者的关联。

这意味着什么？意味着我们第一次可以系统地回答：具有某种TCR序列的T细胞，在面对特定病原体时会表现出怎样的基因表达模式？在不同组织微环境中会发生什么功能转变？

这对于疫苗设计是革命性的。疫苗的目标是诱导出能产生"高质量抗体"的B细胞和能形成"持久记忆"的T细胞。但什么样的TCR/BCR序列意味着"高质量"？过去只能靠反复试错。现在，单细胞大模型可以在虚拟空间中预测不同受体序列对应的免疫应答质量，将疫苗研发从"盲人摸象"变成"精准制导"。

从"友军误伤"到"精准打击"：自身免疫病的新线索

自身免疫病——类风湿关节炎、系统性红斑狼疮、1型糖尿病、多发性硬化——本质上是免疫系统的"友军误伤"事件：本应攻击外来病原体的免疫细胞，不知为何将枪口对准了自身的健康组织。

这些疾病的共同难点在于异质性。同一个"类风湿关节炎"诊断标签下，不同的患者可能由完全不同的免疫细胞亚群驱动。有人是Th17细胞过度活跃，有人是调节性T细胞功能不足，有人则是B细胞的自身抗体作祟。一刀切的治疗方案（比如广谱免疫抑制剂）效果有限且副作用显著，因为你在压制"叛军"的同时也在削弱"正规军"。

单细胞大模型的零样本学习能力在这里大放异彩。

研究人员可以将患者的滑膜组织（类风湿关节炎的"犯罪现场"）单细胞数据输入模型，模型不需要针对这种疾病重新训练，就能自动识别出组织中所有免疫细胞的类型、状态和异常信号通路。更妙的是，模型可以在不同患者之间"对齐"——找出那些表面症状不同但底层细胞机制相同的患者亚群，为精准分型和靶向治疗提供依据。

打个形象的比方：这就像是给一座混乱的城市拍了一张超高分辨率的卫星照片。以前我们只能看到"这个区域发生了骚乱"；现在我们可以看到每条街道上每个角色的具体行为——谁是纵火者，谁是救火者，谁在一旁观望，谁在暗中煽风点火。

2024年，一项针对狼疮性肾炎的研究中，单细胞大模型从患者肾脏活检数据中识别出了此前未知的一群"促炎性成纤维细胞"，它们被证明是驱动肾脏纤维化的关键细胞类型——这正是传统分析方法完全遗漏的。

癌症免疫治疗的"水晶球"

癌症免疫治疗（尤其是CAR-T和免疫检查点抑制剂）是近十年肿瘤学最大的突破。但一个残酷的现实是：只有20%-40%的患者对这些治疗有响应。我们迫切需要一种方法来提前预测谁会受益、谁不会。

这就是单细胞大模型闪光的第三个战场。

想象一下：一位黑色素瘤患者接受PD-1抑制剂治疗。治疗前，医生取一小块肿瘤组织做单细胞测序，数据喂给单细胞大模型。模型不需要知道这位患者的最终结局——它只需要理解肿瘤微环境中所有细胞的"对话关系"：有多少CD8+ T细胞处于"战斗状态"？有多少调节性T细胞在"镇压"免疫反应？肿瘤细胞是否表达了免疫逃逸信号？巨噬细胞是"促炎型"（M1）还是"抑炎型"（M2）？

基于这些全局信息，模型可以输出一个"免疫响应潜力评分"，预测治疗成功的概率。

这听起来像是科幻，但已经接近现实。2025年初，一个结合了Geneformer和临床数据的回顾性研究显示，单细胞大模型预测免疫治疗响应的AUC（曲线下面积）达到了0.87——虽然还远不能用于临床决策，但已经比传统的PD-L1免疫组化评分（AUC约0.65）高出了一大截。

更重要的是，模型不仅给出分数，还能"解释"自己的判断——它指出了哪些细胞亚群和信号通路是预测的关键依据。这对于开发联合治疗策略（比如"PD-1抗体 + 某靶向药"）具有直接的指导价值。

结语：从梅契尼科夫的玫瑰刺到AI的"细胞之眼"

1892年，梅契尼科夫在巴黎发表了他的吞噬细胞理论，全场哗然。当时的医学界坚信免疫完全依赖于体液中的抗体，细胞只是被动的"清道夫"。梅契尼科夫的理论被视为异端，他本人也一度陷入抑郁。

时间证明了他的正确。他和体液免疫学派的领袖保罗·埃利希共享了1908年的诺贝尔生理学或医学奖——评委会巧妙地让两位"宿敌"同台领奖，象征着细胞免疫和体液免疫的最终和解。

今天的单细胞大模型，像极了当年梅契尼科夫的显微镜：它给了我们一种全新的"观看"方式，让我们看到免疫系统不是一堆分子的被动反应，而是一座由数百亿个智能细胞组成的、动态的、自组织的"细胞社会"。基因表达是它们"说话"的方式，受体序列是它们的"身份"，细胞间通讯是它们的"社会网络"。

而这个"细胞社会"的语言，单细胞大模型正在学会阅读。

一句话总结：单细胞大模型不是给免疫学打补丁的工具——它是一块"罗塞塔石碑"，让我们第一次拥有了同时阅读免疫细胞身份、状态和对话的完整语法。