细胞真的在"说话"吗？——关于基因表达的语言隐喻，一场持续六十年的科学思辨

2026-05-25 ·

基因表达作为细胞语言、科学隐喻的边界

Overview

WeChat科普推文第20期 · 2026-05-25
话题: 基因表达作为细胞语言、科学隐喻的边界

1961年8月，莫斯科。

第五届国际生物化学大会正在举行。一个名不见经传的美国年轻人——马歇尔·尼伦伯格（Marshall Nirenberg）——站上了讲台。他的报告只有短短十分钟，听众稀稀拉拉，但他说出的话却像一颗炸弹：他破译了遗传密码的第一个"单词"——UUU（三个连续的尿嘧啶核苷酸）对应的是苯丙氨酸。

这是人类第一次证明，DNA的四种碱基（A、T、C、G）可以像字母一样组合成"词"，而这些"词"对应着组成蛋白质的氨基酸。从此，"遗传密码"、"基因语言"、"生命的天书"——这些隐喻如潮水般涌入生物学。

六十年后，人工智能学家把数千万个单细胞的基因表达数据喂给Transformer模型，然后问它："这个细胞是什么类型？"模型回答对了。研究者们兴奋地宣布：AI学会了"细胞的语言"。

但一个根本性的问题始终悬而未决：基因表达，真的是一种"语言"吗？

一、一个隐喻的诞生：从莫尔斯电码到三联体密码

要理解这个隐喻为什么如此诱人，我们需要回到分子生物学的黎明。

1953年，沃森和克里克发现了DNA双螺旋结构。紧接着，物理学家伽莫夫（George Gamow，大爆炸理论的提出者）跨界给克里克写了一封信，提出了一个大胆的假设：DNA序列本质上是一种编码系统，就像莫尔斯电码用点划组合来编码字母一样，DNA用碱基组合来编码氨基酸。

伽莫夫的直觉惊人地准确。1961到1966年间，尼伦伯格、科拉纳（Khorana）等人完全破译了遗传密码表——64个三联体密码子对应20种氨基酸和3个终止信号。生物学从此有了一套"词典"。

"遗传密码"这个隐喻太成功了，以至于我们几乎忘了它只是一个隐喻。DNA不是莫尔斯电码，细胞核也不是电报局。但这个类比如此高效，以至于它塑造了整个分子生物学的话语体系：我们"转录"DNA为RNA，"翻译"RNA为蛋白质，基因中有"启动子"和"终止子"，突变被称作"错义"或"无义"。

语言学的影子无处不在。

二、从"基因词典"到"细胞文学"：单细胞时代的隐喻升级

如果说分子生物学解决的是"细胞有哪些词"的问题，那么单细胞测序技术解决的则是"细胞如何用这些词造句"的问题。

一个人类细胞大约表达10,000到15,000个基因。不同的细胞类型——神经元、肝细胞、T细胞——表达的是截然不同的基因组合。就像《红楼梦》和《三体》用的大多是同一本中文字典里的字，但组合方式天差地别。

于是，生物信息学家开始把每个细胞的基因表达谱看作一个"句子"：高表达的基因是句子的主干，低表达或不表达的基因是沉默的留白。2022年前后，当Transformer架构在自然语言处理（NLP）中取得惊人成功后，一群科学家——包括多伦多大学的Bo Wang团队、哈佛的Christina Theodoris团队——几乎同时意识到：如果把每个细胞当作一个"句子"、每个基因当作一个"词"、基因表达量当作"词频"，那么训练ChatGPT的那一套方法，是不是可以直接用来训练"细胞GPT"？

结果令人震惊。scGPT、Geneformer、scBERT——这些单细胞基础模型不仅能准确识别细胞类型，还能预测基因扰动的效果、整合不同实验室的批次数据、甚至发现新的细胞亚群。

一场科学与隐喻的共振开始了。

三、隐喻的张力：基因表达到底哪里不像语言？

但如果我们较真一点，基因表达和人类语言之间的差异几乎和相似之处一样多。

第一，基因表达是连续的，语言是离散的。 一个基因不是"说"或"不说"，而是以一定的强度在表达——这个强度可以从0到数十万个转录本。你无法在汉语中找到对应的现象：你不能把一个"爱"字说得30%重、70%轻。语言的离散性是乔姆斯基语言学的基本假设之一，但基因表达完全不符合。

第二，基因表达没有明确的语法。 在自然语言中，"猫追老鼠"和"老鼠追猫"因为词序不同而意义截然不同。但在基因表达中，基因之间没有"顺序"的概念——细胞不按某种语法排列基因，它们被同时转录。scGPT等模型之所以需要"基因分桶"（gene binning），正是为了强行给基因赋予一种"顺序"，好让Transformer的注意力机制有东西可以"读"。

第三，"词义"是上下文无关的吗？ 在语言中，"苹果"这个词不管出现在哪句话里，它的所指都大致相同。但一个基因（比如TP53）的功能，取决于它在什么细胞类型中表达、与哪些基因共表达、处于什么信号通路中。基因的"语义"是高度上下文依赖的。

第四，细胞不会"说谎"，也不会"写诗"。 语言的核心特征之一是可以用有限的符号组合生成无限的新意义——包括虚构、谎言、比喻、反讽。但细胞的基因表达似乎只有一个目的：维持生存和执行功能。它没有"修辞"，只有"信号"。

四、AI 正在重新定义"细胞语言"的含义

有趣的是，单细胞大模型的成功本身，正在反过来修改我们对"语言"隐喻的理解。

当一个在数千万个细胞上预训练的Transformer模型，能够"零样本"地识别它从未见过的新细胞类型时，这意味着什么？从工程角度看，这说明基因表达数据中确实存在某种可迁移的结构——一种超越具体实验、具体物种、具体组织的"深层语法"。

2023年，Theodoris等人在Nature发表的研究表明：Geneformer在3000万个人类细胞上预训练后，竟然能够对小鼠、斑马鱼甚至果蝇的心脏细胞做出有意义的表征——尽管它在预训练时从未见过这些物种的数据。这种跨物种的泛化能力暗示，演化在基因表达的调控逻辑上留下了某种高度保守的"印记"——你可以叫它"细胞通用语"。

更极端的是2024年出现的Cell2Sentence方法。这个来自微软研究院和华盛顿大学的团队，直接把基因表达数据转换成了自然语言句子（如"Gene A is highly expressed; Gene B is moderately expressed ..."），然后喂给GPT-2和GPT-3。结果，这些从未在生物学数据上训练过的纯语言模型，竟然也能做细胞类型分类。

这引发了一个更深层的问题：是基因表达像语言，还是语言模型从基因表达数据中"发现"了某种类似语言的结构——而这种结构恰好可以用Transformer的注意力机制来捕捉？

五、一个更诚实的答案：它不是语言，但我们可以"当作"语言来理解

也许我们不该问"基因表达是语言吗"，而该问："把基因表达当作语言来建模，能帮我们发现什么？"

科学史上，隐喻从来不是真理的校验标准，而是发现的工具。麦克斯韦用"流体的涡旋"来想象电磁场，法拉第用"力线"来可视化磁力——这些隐喻严格来说都是"错"的，但没有它们，现代物理学可能无法诞生。

同样，"细胞语言"这个隐喻的力量不在于它的字面正确性，而在于它打开了一个全新的研究范式：将自然语言处理的全部武器库——Transformer、注意力机制、预训练-微调范式、上下文学习——搬到单细胞生物学中来。

而当这些武器真的在细胞数据上奏效时，它们反过来也在告诉我们一些关于生命本身的深层事实：基因表达不是随机的噪音。演化在亿万年的试错中，将一套高度结构化的调控逻辑编码在了基因组里。这套逻辑或许不是语言学家定义的"语言"，但它具有足够的规律性、层次性和组合性，使得一个基于语言模型架构训练出来的AI可以"理解"它。

所以，或许我们可以这样回答：基因表达不是语言，但它是"语言可理解的"。 这个微妙的区别，正是单细胞大模型时代最有价值的思想贡献之一。

六、隐喻的尽头，是新的科学

2025年初，DeepMind发布了AlphaFold3，将单细胞转录组数据与蛋白质结构预测打通。几乎同一时间，SATURN模型将蛋白质语言模型与单细胞表达数据融合，实现了颠覆性的跨物种细胞整合。单细胞大模型正在从"读语言"走向"读生命"。

而这一切的起点，是尼伦伯格在莫斯科那个只有十分钟的报告，是伽莫夫写给克里克的那封看似荒诞的信，是"遗传密码"这个简单而大胆的隐喻。

科学的迷人之处正在于此：我们用一个不完美的比喻来理解世界，然后用这个理解造出了真正能"读懂"世界的机器——而那些机器又反过来告诉我们，当初的比喻哪里需要修正。

最后，留给你一个开放的问题：如果有一天，一个AI能根据基因表达谱写出一个细胞完整的"生命传记"——它的来历、它的邻居、它的命运——我们还能说它只是在"处理数据"吗？还是说，它真的在"阅读"？

一句话总结：基因表达不是语言学意义上的"语言"，但它蕴含着足够深层和规律的调控结构，使得用语言模型来"阅读"细胞不仅可行，而且在重塑我们对"细胞语言"隐喻的认知本身。