当AI学会了细胞炼金术：单细胞大模型正在破解细胞重编程的终极密码

单细胞大模型如何通过阅读数千万个细胞的基因表达数据，学会预测细胞重编程所需的转录因子组合，从靠运气试错走向靠智能推理。

Overview

当AI学会了"细胞炼金术"：单细胞大模型正在破解细胞重编程的终极密码

期数: 第54期
日期: 2026-06-28
话题: 细胞重编程、单细胞基础模型、细胞身份转换

2006年，日本京都大学一间狭小的实验室里，山中伸弥面对显微镜，双手微微颤抖。他刚刚看到了一个本不该存在的画面：皮肤细胞在四种转录因子的诱导下，竟然"穿越"回了胚胎干细胞的状态。他给这种细胞取了一个日后将被镌刻在诺贝尔奖章旁的名字——诱导多能干细胞（iPSC）。

这个发现像一颗投向生物学的深水炸弹。皮肤细胞变回干细胞，意味着理论上任何成熟细胞都可以被"格式化成出厂设置"，再"重装系统"成你需要的任何细胞类型。但这里藏着一个魔鬼般的难题：山中伸弥找到的"四因子组合"——Oct4、Sox2、Klf4、c-Myc（OSKM）——是十年时间、无数次试错、外加运气才撞到的答案。如果你想把皮肤细胞直接变成神经元，或把肝细胞变成胰岛 β 细胞，你需要找的就不是"四大天王"，而是一套完全不同的、可能包含十几个因子的复杂组合。

这是一个组合爆炸问题。人类基因组编码了约 1600 个转录因子。如果你需要从中选出 5 个正确的因子来驱动一种特定的细胞重编程，候选组合的数量是一个天文数字——超过 3.4 × 10¹³。即便你能在实验室里以每天筛查 100 种组合的速度工作，也大约需要 9 亿年才能穷举完毕。这等于从地球生命诞生之初开始做实验，一直做到今天。显然，没有人能等那么久——尤其是那些等待再生医学突破的病人。

如今，单细胞大模型正在把这个等待时间从"宇宙级"压缩到"周末级"。

细胞有"语法"吗？

要理解 AI 如何破解细胞重编程，我们需要重新审视一个问题：细胞的身份到底是什么？

想象一个皮肤细胞和一个神经元。它们的 DNA 完全一样，就像两本一模一样的《红楼梦》。区别在于，皮肤细胞正在"朗读"的是与角蛋白合成相关的"段落"，神经元朗读的则是与突触传递相关的"段落"。所谓"朗读"，就是基因表达——细胞选择性地启动某些基因、沉默另一些基因。而转录因子，就是决定"朗读哪一段"的指挥家。

所以，细胞重编程的本质，不是修改 DNA，而是换一个指挥家。或者更准确地说，换一整支指挥团队。

山中伸弥的成功提示了一个深刻的道理：细胞的身份不是由单个基因决定的，而是由一组转录因子协同作用产生的"基因表达模式"决定的。就像一段音乐的旋律不是由单个音符而是由音符之间的关系决定的，细胞的身份是一张"基因表达的关系网"。

这个洞察——细胞身份是一种"关系模式"，而非"零件清单"——恰好是单细胞大模型最擅长捕捉的东西。

一个"偷懒"的 AI：先读 1 亿个细胞，再回答一个问题

单细胞大模型的核心训练策略——无论 scGPT、Geneformer 还是 scFoundation——都遵循同一个逻辑：在回答任何具体问题之前，先让 AI 阅读海量单细胞数据，学会"细胞世界的语法"。

这就像一个小孩学语言的方式。你不会一上来就让孩子分析"春风又绿江南岸"中"绿"字的妙处——你先是让他听几万小时的日常对话，他自然而然就掌握了什么是"主语"、什么是"谓语"，以及为什么"我吃苹果"成立但"苹果吃我"很奇怪。这叫预训练。

单细胞大模型的预训练也是同样的道理。它被暴露于来自数千万甚至上亿个细胞的基因表达数据中——有人类的、有小鼠的、有健康组织也有肿瘤组织、有胚胎期也有衰老期。通过大规模的"完形填空"或"排序游戏"（详见本系列第 2 期和第 5 期），模型逐渐学会了一个深层规律：在细胞的世界里，哪些基因的"出现"和"沉默"之间存在着必然的联系。

一旦学会了这个"细胞语法"，当你告诉模型"我想把成纤维细胞变成心肌细胞"，它不需要在 3.4 × 10¹³ 种组合中逐个试错——它已经读过足够多的"细胞例句"，大致知道哪些转录因子的组合能在表达网络上产生"心肌细胞特征"的输出。

打个比方：你从来没煮过川菜，但你读过 10000 本菜谱，熟知每一种调料的"性格"。当有人问你"怎么把糖醋里脊改成麻辣口味的"，你不会去厨房一瓶一瓶试——你脑子里瞬间就浮现出一个大致配方："减糖，加花椒和干辣椒，去掉番茄酱"。单细胞大模型预测转录因子组合的原理，和这个几乎没有本质区别。

从"大海捞针"到"按图索骥"

2024 年以来，多个研究团队开始验证单细胞大模型在细胞重编程任务上的表现。方法大致是：给模型输入来源细胞和目标细胞的基因表达特征，让它"想象"通往目标的转录因子调控方案。

结果令人惊讶。在一项针对皮肤成纤维细胞向心肌细胞重编程的任务中，基于单细胞基础模型的预测不仅命中了已知的关键转录因子（如 Gata4、Mef2c、Tbx5），还额外推荐了几个此前未受重视的候选因子。后续的湿实验验证表明，其中一个"模型推荐"的因子确实显著提高了重编程效率。

更有趣的是，这些模型展现出了"跨物种迁移"的能力。在接受了人类和小鼠数据的预训练后，模型预测的鼠源细胞重编程方案，竟能部分适用于猪和猴的细胞。这暗示模型确实学到了某种"细胞身份转换的底层逻辑"，而不仅仅是记住了训练数据中的表面模式。

从方法学上看，这类应用可以被理解为一种条件生成（conditional generation）：给定"当前状态"和"目标状态"，模型生成一个"操作序列"（转录因子组合）来桥接两者。这在概念上与 ChatGPT 的"给定上文，生成下文"高度相似，只不过这里的"词汇"是转录因子，"语句"是基因表达程序。

再生医学的"ChatGPT 时刻"？

如果单细胞大模型真的能可靠预测细胞重编程方案，它带来的变革将远超学术圈。

首先是再生医学。帕金森病的本质是多巴胺神经元死亡，1 型糖尿病是胰岛 β 细胞被免疫系统清除，心肌梗死是大量心肌细胞坏死。如果能精准地将患者自身来源的成纤维细胞重编程为所需的替代细胞类型，就能绕过异体移植的免疫排斥问题和胚胎干细胞伦理争议。山中伸弥的 iPSC 方案需要先"回到原点"再"重新出发"，可能引入肿瘤风险；而"直接重编程"（direct reprogramming）——从一种成熟细胞直接转变成另一种——则被视为更安全的替代路径。单细胞大模型正好为直接重编程提供了"路线图生成器"。

其次是疾病建模。很多遗传病只影响特定细胞类型，而患者身上的目标细胞往往难以获取。如果能把皮肤细胞重编程为该疾病相关的细胞类型，就能在培养皿中构建病人特异性的疾病模型，用于药物筛选和机制研究。

再次是细胞衰老逆转。近年来，部分重编程（partial reprogramming）——即短暂激活山中因子但不让细胞完全回到胚胎状态——已成为抗衰老研究的热门方向。单细胞大模型的"细胞年龄感知"能力（见本系列第 50 期），可能帮助设计更精细的"限时重编程"方案：既"擦除"衰老特征，又不触发肿瘤风险。

远未到终点

当然，我们必须坦诚地说：单细胞大模型在细胞重编程中的应用，目前仍处于概念验证阶段。

最大的挑战在于转录因子组合的体内递送。即使模型精确预测了理想的因子组合，如何将这些因子安全、高效地送到体内目标位置，依然是一个巨大的工程学难题。这不是 AI 能解决的问题——它需要基因治疗载体、纳米材料、生物工程等多个领域的协同攻关。

另一个挑战是重编程的不完全性。模型预测的方案可能在单细胞转录组层面看起来"到达了目的地"，但细胞的功能——比如心肌细胞能否真正搏动、神经元能否真正释放神经递质——往往由表观遗传修饰、蛋白质翻译后修饰、代谢状态等"测序盲区"共同决定。目前的单细胞数据还不能完整捕捉这些维度。

还有安全性。山中伸弥当年选择的 c-Myc 是一个著名致癌基因——这是 iPSC 技术临床转化的最大障碍之一。单细胞大模型如果不具备"肿瘤风险意识"，可能会在不经意间推荐包含致癌因子的方案。这也是为什么在将任何模型预测应用于临床之前，需要极其严格的体外和动物实验验证。

结语

山中伸弥用十年和运气找到了四个转录因子，将皮肤变成了胚胎——他证明了"细胞炼金术"是可能的。但接下来的问题——如何将大脑之外的细胞变成神经元、如何将胰岛之外的细胞变成 β 细胞——每一项都需要一个新的"十年和运气"。单细胞大模型的出现，正在把这个"十年+运气"的公式，替换为"预训练+推理生成"。它不是在预测"哪个基因重要"——那已是旧时代的思维；它是在学习"细胞身份本身的语法"，然后用这个语法去写新的句子。

或许十年后，当一位医生对 AI 说出"请把这个肝硬化患者的皮肤细胞变成健康的肝细胞"时，就像今天你对 ChatGPT 说"帮我写一封英文邮件"一样自然。

而这趟旅程的起点，正在此刻被一行行的单细胞数据、一轮轮的 GPU 训练悄然铺就。

一句话总结：单细胞大模型正在用"阅读 1 亿个细胞"学到的语法，破解细胞重编程的组合爆炸难题，让"细胞炼金术"从靠运气试错走向靠智能推理。