← Back to scModels Foundation Model

ExPecto

ExPecto
Jian Zhou, Chandra L. Theesfeld, Kevin Yao, Kathleen M. Chen, Aaron K. Wong, Olga G. Troyanskaya · 2018-07-16 · Nature Genetics

仅凭DNA序列ab initio预测任意变异在218种组织中的表达效应——深度学习重新定义了从序列到疾病风险的计算边界

Overview

📄 第35期 | ExPecto:如何仅凭DNA序列,预知一个突变会不会让你生病?

不需要做实验,不需要看表达数据,ExPecto仅靠一段DNA序列,就能预测任意突变在218种人体组织中会对基因表达产生什么影响——它重新定义了"从序列到疾病风险"的计算边界。

🔬 为什么这篇文章重要?

GWAS(全基因组关联分析)已经找到了成千上万个与疾病相关的遗传位点,但这里有一个几乎令人绝望的事实:超过90%的显著位点落在非编码区,你不知道它们到底影响了哪个基因、在哪个组织里起作用、是通过什么机制致病的。过去,想从GWAS的"嫌疑名单"里揪出真正的"凶手变异",需要一轮又一轮的湿实验筛选——耗时、烧钱、还经常扑空。

2018年,普林斯顿大学Olga Troyanskaya团队在Nature Genetics上发表了ExPecto,给出了一个大胆的回答:只要给我DNA序列,我就能算出来。不需要染色质免疫沉淀、不需要RNA-seq、不需要任何实验数据作为输入——ab initio,纯粹从序列出发。这篇文章发表6年来被引用了652次,访问量近5万,成为计算基因组学领域的一块基石。

🧠 核心创新:ExPecto的两步架构是怎么工作的?

ExPecto的核心是一个精巧的两步走策略:先用深度学习"读懂"DNA序列上的染色质调控信息,再用梯度提升树把这些信息翻译成组织特异性的表达效应。

第一步:卷积神经网络(CNN)——从ATCG到染色质图谱

ExPecto的第一步是一个基于卷积神经网络的序列模型。输入是一段2000bp的启动子区域DNA序列,模型通过多层卷积和池化操作,自动学习序列motif、转录因子结合位点等调控特征。输出不是基因表达值,而是一套"染色质效应预测"——包括组蛋白修饰、转录因子结合、DNase I hypersensitivity等表观基因组特征。

这一步的巧妙之处在于:CNN在ENCODE和Roadmap Epigenomics的海量数据上预训练过,已经内化了"DNA序列→染色质状态"的映射规律。你给它一段从未见过的序列,它能推断出这段DNA在细胞核里处于什么染色质环境——是开放的常染色质还是紧闭的异染色质。

第二步:XGBoost空间模型——从染色质到组织特异性表达

CNN输出的染色质特征只是"中间语言"。如何把这些特征翻译成"这个突变在肝脏里会下调基因表达3倍"这样的具体预测?ExPecto用了第二步:一个基于XGBoost的梯度提升树模型。

这个模型不仅使用CNN输出的染色质特征,还考虑了突变位点相对于转录起始位点(TSS)的空间位置——上游2000bp范围内的不同位置对表达的影响权重不同。这一"空间感知"设计让ExPecto能够捕捉启动子区域的精细调控逻辑。

更重要的是,ExPecto为每种组织/细胞类型分别训练了一个XGBoost模型。论文覆盖了218种人类组织和细胞类型——从脂肪组织到脑区,从免疫细胞到肝细胞。同一个突变,在肝脏里可能毫无影响,在T细胞里却可能显著改变基因表达。这种组织特异性的差异预测,正是ExPecto区别于以往方法的关键。

对比:ExPecto vs 传统方法

维度 传统eQTL分析 ExPecto
输入需求 大规模基因型+表达数据 仅DNA序列
覆盖变异类型 主要是常见变异 常见+罕见+从未观察到的变异
组织特异性 受限于已有样本组织 218种组织/细胞类型
实验验证成本 无法预筛选,逐个验证 计算机预筛选,大幅减少验证量
新突变预测 无法预测 可预测任意新突变

📊 关键实验结果

表达效应预测精度

ExPecto在GTEx项目的eQTL数据上进行了系统验证。对于常见调控变异,ExPecto的组织特异性表达预测与实际eQTL效应高度一致。更重要的是,ExPecto能预测低频和罕见变异——这些在传统eQTL映射中因统计power不足而无法被发现的变异。

GWAS因果变异优先级排序

团队将ExPecto应用于所有公开GWAS数据,对疾病/性状相关位点中的候选变异进行了系统优先级排序。他们从中筛选出最可能的因果变异,并对四种免疫相关疾病(克罗恩病、白塞病等)的预测结果进行了实验验证——用荧光素酶报告实验(luciferase assay)直接测量了变异对基因表达的实际影响,证实了ExPecto预测的准确性。

140+百万突变的计算机饱和诱变

ExPecto的真正威力在于其可扩展性。团队对人类所有RNA聚合酶II转录基因的启动子区域进行了计算机饱和诱变(in silico saturation mutagenesis)——系统性地模拟了超过1.4亿个启动子近端突变,并预测了每个突变在218种组织中的表达效应。这个规模是任何湿实验方法都无法企及的。

进化约束分析

通过分析这1.4亿突变的预测效应分布,研究者还推断出基因表达的进化约束方向——哪些基因的表达水平受到严格的进化限制(偏离即致病),哪些基因的表达具有较大的容忍度。这使得ExPecto不仅能预测单个变异的功能效应,还能从进化视角解读人类基因组中"哪些突变更可能是致病的"。

⚠️ 局限与展望

ExPecto虽然强大,但其预测范围目前局限于启动子近端区域(TSS上游2000bp以内)。对于远端增强子突变、结构变异、以及涉及染色质三维构象的长程调控效应,ExPecto力有不逮。另外,模型训练依赖的参考基因组是hg19,对非欧洲人群的泛化能力有待进一步验证。

在2018年之后的6年里,基于DNA语言模型(如Enformer、Borzoi)和更大规模表观基因组数据的新方法已经显著扩展了从序列预测表达的边界。但ExPecto作为"ab initio序列→组织特异性表达效应"这一范式的开创者,其两阶段架构(深度序列模型+空间感知回归)的设计思想至今仍影响着后续工作。

如果你只关心一个突变在某个组织里是否影响基因表达,ExPecto给出的答案可能是最直接、最经济的。

📎 论文信息

  • 📄 论文: Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk
  • 🔗 链接: https://doi.org/10.1038/s41588-018-0160-6
  • 💻 代码: https://github.com/FunctionLab/ExPecto
  • 👥 团队: Jian Zhou (一作) et al. | Princeton University / Flatiron Institute, Simons Foundation
  • 📰 期刊: Nature Genetics, Volume 50, Pages 1171–1179 (2018)
  • 📊 影响力: 652 Citations | 49k Accesses | 211 Altmetric

本文由单细胞大模型论文解读系列自动生成,第35期。

Publication

Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk

Links

📄 Read Paper 💻 GitHub

Specifications

  • ArchitectureCNN + XGBoost (two-stage spatially-aware model)
  • Modalitygenomics