
基因组调控变异(尤其是非编码变异)对基因表达、染色质状态和剪接过程具有深远影响,但其功能解析长期面临巨大挑战。Google DeepMind 团队提出了统一的深度学习模型 AlphaGenome,能够以 1 Mb DNA 序列 为输入,在单碱基分辨率下同时预测多种功能基因组信号,包括基因表达、转录起始、染色质可及性、组蛋白修饰、转录因子结合、染色质空间互作以及复杂剪接模式等。在涵盖 26 项变异效应预测基准任务的评测中,AlphaGenome 在 25 项任务上达到或超过现有最优模型。该模型能够跨模态整合预测结果,准确复现临床相关调控变异的分子机制,并为大规模基因组变异解析提供了高效工具。

超过 98% 的人类遗传变异位于非编码区域,其功能往往通过调控基因表达、影响染色质构象或改变剪接结构发挥作用。然而,这类变异涉及多层次分子调控过程,单一实验或单一预测模型难以全面刻画。
现有深度学习序列模型普遍存在两大限制:
输入长度与分辨率的权衡
模态覆盖不足
研究人员旨在构建一个能够同时覆盖长程调控、多模态信号与单碱基精度的统一模型框架。
方法
AlphaGenome 采用 U-Net 风格架构结合 Transformer 模块:
模型包含:
训练流程分为两阶段:
该策略在保证预测精度的同时,大幅提升变异效应计算效率。

图1:模型架构与整体评测结果。
结果
整体性能概览
AlphaGenome 在:
涵盖模态包括:
高精度功能轨迹预测
模型在未见过的基因组区域上:
不仅能捕捉总体表达水平,还能反映部分细胞类型特异性差异。

图2:基因组轨迹预测实例与定量性能。
剪接变异效应预测显著领先
AlphaGenome 同时预测:
并构建统一剪接变异评分体系,在以下任务中表现最佳:
模型还能通过系统突变分析识别关键剪接调控序列模式。

图3:剪接相关变异预测与对比分析。
基因表达调控变异预测能力提升
在 GTEx eQTL 数据上:
即使对远端调控变异(>35 kb)仍保持较好性能。
此外,模型还能用于:

图4:eQTL 与表达调控预测结果。
染色质可及性与转录因子结合变异
AlphaGenome 在:
上均优于现有方法,且能通过突变扫描揭示调控元件序列基础,如关键结合基序的产生或破坏。

图5:染色质与转录因子调控变异预测。
跨模态综合变异机制解析
研究人员以 T-ALL 白血病相关 TAL1 调控变异为例:
多模态信号整合显著提高致病调控变异的富集识别能力。

图6:跨模态变异效应解释案例。
模型设计因素系统分析
消融实验表明:

图7:分辨率、序列长度与多模态训练影响分析。
讨论
AlphaGenome 首次在单一框架内实现:
其优势体现在:
研究结果表明,调控变异往往同时影响多个分子层级,仅依赖单一信号难以准确解析其真实功能后果。AlphaGenome 的多模态整合策略为复杂疾病相关变异研究提供了全新工具。
未来,该模型有望:
整理 | 王建民
参考资料
Avsec, Ž., Latysheva, N., Cheng, J. et al. Advancing regulatory variant effect prediction with AlphaGenome. Nature 649, 1206–1218 (2026).
https://doi.org/10.1038/s41586-025-10014-0