在正常细胞「变坏」前一秒：单细胞大模型正在阅读癌变的第一段密码

单细胞基础模型如何在细胞发生癌变之前，从基因表达的细微漂移中捕捉恶性转化的最早信号。

Overview

在正常细胞"变坏"前一秒：单细胞大模型正在阅读癌变的第一段密码

期数: 第56期
日期: 2026-07-05
话题: 癌前状态、恶性转化、单细胞基础模型

1986年冬天，加州大学伯克利分校的分子生物学家 Peter Duesberg 在《科学》杂志上发表了一篇在当时看来近乎异端的论文。他的核心观点简单却令人不安：癌症并不是 DNA 突变的必然结果——至少，不是我们以为的那样。

Duesberg 观察到了一个奇怪的现象：很多人的组织里明明携带着"致癌突变"，却一辈子没有得癌症。健康的皮肤里能找到 TP53 突变，正常的食管上皮里有满身的 NOTCH1 变异。这些细胞拿着"犯罪工具"——致癌基因突变——却安分守己地做着好公民。

那问题就变成了：是什么让一个"携带突变"的正常细胞，最终跨过了那条不归线？

三十多年后，单细胞大模型正在为这个问题提供一个前所未有的答案。

一、"癌前"不是一种状态，而是一片"光谱"

传统肿瘤学有一个直觉上很舒服的二分法：细胞要么是正常的，要么是癌变的。中间可能有一个短暂的过渡期——"癌前病变"（pre-malignancy）——但大体上，这是一种非黑即白的叙事。

单细胞测序彻底打碎了这种想象。

2018年，Broad研究所的 Aviv Regev 团队在 Nature 上描绘了头颈癌前组织的单细胞图谱。他们的发现令人震撼：在病理学家眼中"看起来还正常"的组织里，单细胞层面已经上演着一场静悄悄的生态战争。一些细胞开始分泌异常的细胞因子，一些细胞关闭了凋亡程序，还有一些细胞——关键的少数——同时激活了增殖通路和组织侵袭程序。但这些"叛变前夜"的细胞，在外观上和正常邻居毫无区别。

打个比方：这就像在同一栋写字楼里，绝大多数白领还在朝九晚五地工作，有几个已经在偷偷下载敏感数据、联系竞争对手、准备好了离职信。从监控摄像头（病理切片）来看，所有人都在工位上正常上班。但如果你能"窃听"每个人的邮件和聊天记录——也就是基因表达——就会立刻发现那几个人已经处于"叛变前夜"。

问题是：你不可能同时窃听37万亿个细胞。

单细胞大模型的出现，第一次让这种"全城窃听"成为可能。

二、为什么是大模型？——"好细胞"的共同语法

这里的关键洞察来自一个看似简单的逻辑：如果你能精确地描述"正常"是什么样子，那么任何偏离正常的行为——哪怕极其微小——都会自动暴露出来。

这其实就是单细胞基础模型的预训练哲学。scGPT、Geneformer、scFoundation 等模型，在海量健康组织的单细胞数据上学习到一个高维的"正常细胞嵌入空间"（normal embedding space）。想象这个空间是一张巨大的城市地图，每一种健康的细胞类型都在地图上有自己的"合法地址"：肝细胞住在肝区3号街，T细胞住在免疫区7号街，神经元住在脑区15号街。

当一个细胞开始癌前转化时，它并不会瞬间"跳"到癌区——这个过程是渐进的。基因表达的漂移就像它慢慢收拾行李，搬离了"健康社区"，走向了"灰色地带"。在传统的二维 t-SNE 或 UMAP 图上，这种微小的漂移常常淹没在噪音里。但在单细胞大模型的高维嵌入空间中，细胞的"搬家轨迹"清晰可见——模型对"一个正常的肝细胞应该有什么样的基因表达模式"有着精细的理解，任何偏离都会被标记为异常。

2023年，斯坦福大学的研究者利用 Geneformer 分析了胰腺癌前病变的单细胞数据。他们发现了一个惊人的模式：在病理诊断为"低级别上皮内瘤变"（PanIN-1）的细胞中，模型就已经检测到了一小群细胞的嵌入向量正在"漂移"——它们正在失去腺泡细胞的正常基因表达程序，同时异常激活了胚胎发育时期的基因网络。这些细胞，在显微镜下不过是"轻度异型"，但它们的分子"内心"已经写好了叛变剧本。

三、"犯罪计划书"——当大模型学会阅读细胞命运的草稿

如果单细胞大模型只是做"异常检测"，那它和传统的统计方法没什么本质区别。真正让这个领域兴奋的，是大模型在癌前状态中发现的另一层信息——有研究者称之为"细胞命运的草稿"（cell fate draft）。

这个比喻是这样的：正常的基因表达就像一篇流畅的散文，每个基因在句子中扮演着固定的语法角色。癌变则是一篇被篡改的文字——可能有词语被替换，有句子被删除，有段落被整个重排。但癌前状态呢？它是一篇"草稿"——大部分文字还是正常的，但页边空白处写着潦草的修改笔记，某些段落的语气开始微妙地偏离，某些句子出现了不自然的重复。

单细胞大模型之所以能读到这些"草稿笔记"，是因为它们训练时学到了基因与基因之间的"语法关系"（gene-gene attention patterns）。以一个具体的例子来说明：在正常的肠上皮细胞中，WNT 信号通路和 BMP 信号通路之间存在一种精密的相互抑制平衡——就像交响乐中弦乐和管乐声部的对话。当癌前转化启动时，这种"对话"开始失调。模型不需要看到明显的 WNT 过度激活——它只需要探测到 WNT-BMP 之间的注意力权重发生了微弱但一致的变化，就能预感到这个细胞"正在动笔修改自己的命运草稿"。

2024年，MD Anderson 癌症中心的一个团队利用预训练的单细胞 Transformer 模型，在 Barrett 食管（一种癌前状态）的单细胞数据中，成功识别出了一个仅占 0.3% 的细胞亚群。这群细胞的嵌入向量偏离了"正常食管上皮"的地址，但又没有落入"食管腺癌"的坐标——它们漂浮在一个过渡性的灰色空间里。研究者随后在这群细胞中发现了多个已知的癌前生物标志物的共表达，验证了模型的"预告"是准确的。

四、"预防"的科学基础：从观察走向干预

这个故事最激动人心的部分，不是简单的"早发现"——虽然那也很重要——而是单细胞大模型提供了一种理解"癌前转化动力学"的全新框架。

传统的癌症预防策略主要是"移除"——切除可疑的息肉、烧灼 Barrett 食管病灶、甚至预防性切除 BRCA 突变携带者的乳腺。这些策略有效，但本质上是"物理删除"而非"生化修复"。

单细胞大模型提供了一种替代视角：如果我们能在细胞的"叛变草稿"阶段，就识别出驱动转化的关键分子事件——比如某个特定转录因子的异常激活，或某条信号通路的失调——那么理论上，我们可以设计"分子校正"干预，在细胞提交最终草稿之前让它回到正轨。

这听起来像科幻，但已经在发生。2025年，一项结合 Geneformer 的 in silico 扰动预测功能的研究，在结直肠癌前类器官模型中筛选出了一组候选"校正靶点"——研究者用模型预测"如果要让这群癌前细胞回到正常状态，应该抑制哪些基因"，然后在实验中验证了其中两个靶点确实逆转了细胞的异常表型。

五、未竟之路

当然，这条路远没有走完。最大的挑战在于"假阳性"——不是所有在分子层面出现"漂移"的细胞都会真的癌变。人体的免疫监视、组织微环境的物理约束、细胞竞争（cell competition）机制，构成了多道"蓄意叛变但不允许成功"的防线。很多细胞写了一辈子"叛变草稿"，却从未真正提交——它们被周围环境压制住了。

区分"会癌变的漂移"与"无害的漂移"，是单细胞大模型在癌前预测中必须跨越的下一个台阶。这要求模型不仅学习"正常细胞的样子"，还要学习"癌变成功的历史案例"——或许还需要整合空间信息、免疫微环境信息，甚至时序数据。

但方向已经清晰了。就像 Duesberg 在1986年提出的那个问题——为什么有些人带着致癌突变却不得癌症——正在从哲学思辨变成可量化、可预测、可干预的科学命题。

而单细胞大模型，正在成为回答这个命题的最有力的工具。

一句话总结：单细胞大模型正在把"预防癌症"从模糊的健康口号，变成一项可以精确到单个细胞、单个基因的分子工程。