Overview
WeChat科普推文 第20期 · 2026-05-25
话题: 基因表达作为细胞语言、科学隐喻的边界
1961年8月,莫斯科。
第五届国际生物化学大会正在举行。一个名不见经传的美国年轻人——马歇尔·尼伦伯格(Marshall Nirenberg)——站上了讲台。他的报告只有短短十分钟,听众稀稀拉拉,但他说出的话却像一颗炸弹:他破译了遗传密码的第一个"单词"——UUU(三个连续的尿嘧啶核苷酸)对应的是苯丙氨酸。
这是人类第一次证明,DNA的四种碱基(A、T、C、G)可以像字母一样组合成"词",而这些"词"对应着组成蛋白质的氨基酸。从此,"遗传密码"、"基因语言"、"生命的天书"——这些隐喻如潮水般涌入生物学。
六十年后,人工智能学家把数千万个单细胞的基因表达数据喂给Transformer模型,然后问它:"这个细胞是什么类型?"模型回答对了。研究者们兴奋地宣布:AI学会了"细胞的语言"。
但一个根本性的问题始终悬而未决:基因表达,真的是一种"语言"吗?
一、一个隐喻的诞生:从莫尔斯电码到三联体密码
要理解这个隐喻为什么如此诱人,我们需要回到分子生物学的黎明。
1953年,沃森和克里克发现了DNA双螺旋结构。紧接着,物理学家伽莫夫(George Gamow,大爆炸理论的提出者)跨界给克里克写了一封信,提出了一个大胆的假设:DNA序列本质上是一种编码系统,就像莫尔斯电码用点划组合来编码字母一样,DNA用碱基组合来编码氨基酸。
伽莫夫的直觉惊人地准确。1961到1966年间,尼伦伯格、科拉纳(Khorana)等人完全破译了遗传密码表——64个三联体密码子对应20种氨基酸和3个终止信号。生物学从此有了一套"词典"。
"遗传密码"这个隐喻太成功了,以至于我们几乎忘了它只是一个隐喻。DNA不是莫尔斯电码,细胞核也不是电报局。但这个类比如此高效,以至于它塑造了整个分子生物学的话语体系:我们"转录"DNA为RNA,"翻译"RNA为蛋白质,基因中有"启动子"和"终止子",突变被称作"错义"或"无义"。
语言学的影子无处不在。
二、从"基因词典"到"细胞文学":单细胞时代的隐喻升级
如果说分子生物学解决的是"细胞有哪些词"的问题,那么单细胞测序技术解决的则是"细胞如何用这些词造句"的问题。
一个人类细胞大约表达10,000到15,000个基因。不同的细胞类型——神经元、肝细胞、T细胞——表达的是截然不同的基因组合。就像《红楼梦》和《三体》用的大多是同一本中文字典里的字,但组合方式天差地别。
于是,生物信息学家开始把每个细胞的基因表达谱看作一个"句子":高表达的基因是句子的主干,低表达或不表达的基因是沉默的留白。2022年前后,当Transformer架构在自然语言处理(NLP)中取得惊人成功后,一群科学家——包括多伦多大学的Bo Wang团队、哈佛的Christina Theodoris团队——几乎同时意识到:如果把每个细胞当作一个"句子"、每个基因当作一个"词"、基因表达量当作"词频",那么训练ChatGPT的那一套方法,是不是可以直接用来训练"细胞GPT"?
结果令人震惊。scGPT、Geneformer、scBERT——这些单细胞基础模型不仅能准确识别细胞类型,还能预测基因扰动的效果、整合不同实验室的批次数据、甚至发现新的细胞亚群。
一场科学与隐喻的共振开始了。
三、隐喻的张力:基因表达到底哪里不像语言?
但如果我们较真一点,基因表达和人类语言之间的差异几乎和相似之处一样多。
第一,基因表达是连续的,语言是离散的。 一个基因不是"说"或"不说",而是以一定的强度在表达——这个强度可以从0到数十万个转录本。你无法在汉语中找到对应的现象:你不能把一个"爱"字说得30%重、70%轻。语言的离散性是乔姆斯基语言学的基本假设之一,但基因表达完全不符合。
第二,基因表达没有明确的语法。 在自然语言中,"猫追老鼠"和"老鼠追猫"因为词序不同而意义截然不同。但在基因表达中,基因之间没有"顺序"的概念——细胞不按某种语法排列基因,它们被同时转录。scGPT等模型之所以需要"基因分桶"(gene binning),正是为了强行给基因赋予一种"顺序",好让Transformer的注意力机制有东西可以"读"。
第三,"词义"是上下文无关的吗? 在语言中,"苹果"这个词不管出现在哪句话里,它的所指都大致相同。但一个基因(比如TP53)的功能,取决于它在什么细胞类型中表达、与哪些基因共表达、处于什么信号通路中。基因的"语义"是高度上下文依赖的。
第四,细胞不会"说谎",也不会"写诗"。 语言的核心特征之一是可以用有限的符号组合生成无限的新意义——包括虚构、谎言、比喻、反讽。但细胞的基因表达似乎只有一个目的:维持生存和执行功能。它没有"修辞",只有"信号"。
四、AI 正在重新定义"细胞语言"的含义
有趣的是,单细胞大模型的成功本身,正在反过来修改我们对"语言"隐喻的理解。
当一个在数千万个细胞上预训练的Transformer模型,能够"零样本"地识别它从未见过的新细胞类型时,这意味着什么?从工程角度看,这说明基因表达数据中确实存在某种可迁移的结构——一种超越具体实验、具体物种、具体组织的"深层语法"。
2023年,Theodoris等人在Nature发表的研究表明:Geneformer在3000万个人类细胞上预训练后,竟然能够对小鼠、斑马鱼甚至果蝇的心脏细胞做出有意义的表征——尽管它在预训练时从未见过这些物种的数据。这种跨物种的泛化能力暗示,演化在基因表达的调控逻辑上留下了某种高度保守的"印记"——你可以叫它"细胞通用语"。
更极端的是2024年出现的Cell2Sentence方法。这个来自微软研究院和华盛顿大学的团队,直接把基因表达数据转换成了自然语言句子(如"Gene A is highly expressed; Gene B is moderately expressed ..."),然后喂给GPT-2和GPT-3。结果,这些从未在生物学数据上训练过的纯语言模型,竟然也能做细胞类型分类。
这引发了一个更深层的问题:是基因表达像语言,还是语言模型从基因表达数据中"发现"了某种类似语言的结构——而这种结构恰好可以用Transformer的注意力机制来捕捉?
五、一个更诚实的答案:它不是语言,但我们可以"当作"语言来理解
也许我们不该问"基因表达是语言吗",而该问:"把基因表达当作语言来建模,能帮我们发现什么?"
科学史上,隐喻从来不是真理的校验标准,而是发现的工具。麦克斯韦用"流体的涡旋"来想象电磁场,法拉第用"力线"来可视化磁力——这些隐喻严格来说都是"错"的,但没有它们,现代物理学可能无法诞生。
同样,"细胞语言"这个隐喻的力量不在于它的字面正确性,而在于它打开了一个全新的研究范式:将自然语言处理的全部武器库——Transformer、注意力机制、预训练-微调范式、上下文学习——搬到单细胞生物学中来。
而当这些武器真的在细胞数据上奏效时,它们反过来也在告诉我们一些关于生命本身的深层事实:基因表达不是随机的噪音。演化在亿万年的试错中,将一套高度结构化的调控逻辑编码在了基因组里。这套逻辑或许不是语言学家定义的"语言",但它具有足够的规律性、层次性和组合性,使得一个基于语言模型架构训练出来的AI可以"理解"它。
所以,或许我们可以这样回答:基因表达不是语言,但它是"语言可理解的"。 这个微妙的区别,正是单细胞大模型时代最有价值的思想贡献之一。
六、隐喻的尽头,是新的科学
2025年初,DeepMind发布了AlphaFold3,将单细胞转录组数据与蛋白质结构预测打通。几乎同一时间,SATURN模型将蛋白质语言模型与单细胞表达数据融合,实现了颠覆性的跨物种细胞整合。单细胞大模型正在从"读语言"走向"读生命"。
而这一切的起点,是尼伦伯格在莫斯科那个只有十分钟的报告,是伽莫夫写给克里克的那封看似荒诞的信,是"遗传密码"这个简单而大胆的隐喻。
科学的迷人之处正在于此:我们用一个不完美的比喻来理解世界,然后用这个理解造出了真正能"读懂"世界的机器——而那些机器又反过来告诉我们,当初的比喻哪里需要修正。
最后,留给你一个开放的问题:如果有一天,一个AI能根据基因表达谱写出一个细胞完整的"生命传记"——它的来历、它的邻居、它的命运——我们还能说它只是在"处理数据"吗?还是说,它真的在"阅读"?
一句话总结:基因表达不是语言学意义上的"语言",但它蕴含着足够深层和规律的调控结构,使得用语言模型来"阅读"细胞不仅可行,而且在重塑我们对"细胞语言"隐喻的认知本身。