首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nature | DeepMind推出AlphaGenome: AI解锁基因组“暗物质”,引领调控变异效应预测新高度

Nature | DeepMind推出AlphaGenome: AI解锁基因组“暗物质”,引领调控变异效应预测新高度

作者头像
DrugOne
发布2026-02-03 17:23:55
发布2026-02-03 17:23:55
410
举报
文章被收录于专栏:DrugOneDrugOne

基因组调控变异(尤其是非编码变异)对基因表达、染色质状态和剪接过程具有深远影响,但其功能解析长期面临巨大挑战。Google DeepMind 团队提出了统一的深度学习模型 AlphaGenome,能够以 1 Mb DNA 序列 为输入,在单碱基分辨率下同时预测多种功能基因组信号,包括基因表达、转录起始、染色质可及性、组蛋白修饰、转录因子结合、染色质空间互作以及复杂剪接模式等。在涵盖 26 项变异效应预测基准任务的评测中,AlphaGenome 在 25 项任务上达到或超过现有最优模型。该模型能够跨模态整合预测结果,准确复现临床相关调控变异的分子机制,并为大规模基因组变异解析提供了高效工具。

超过 98% 的人类遗传变异位于非编码区域,其功能往往通过调控基因表达、影响染色质构象或改变剪接结构发挥作用。然而,这类变异涉及多层次分子调控过程,单一实验或单一预测模型难以全面刻画。

现有深度学习序列模型普遍存在两大限制:

输入长度与分辨率的权衡

  • 高分辨率模型只能处理短序列(如 10 kb),难以捕捉远端调控元件;
  • 长序列模型则通常牺牲碱基级精度。

模态覆盖不足

  • 多数模型专注于单一任务(如剪接、染色质可及性或接触图);
  • 综合模型虽具多模态能力,但在部分关键任务上性能不及专用模型。

研究人员旨在构建一个能够同时覆盖长程调控、多模态信号与单碱基精度的统一模型框架。

方法

AlphaGenome 采用 U-Net 风格架构结合 Transformer 模块:

  • 输入:1 Mb DNA 序列(人类或小鼠)
  • 输出:一维基因组轨迹(单碱基或128 bp分辨率);二维染色质接触图(2 kb分辨率)

模型包含:

  • 卷积层:捕捉局部序列特征
  • Transformer:建模远程调控依赖(如增强子–启动子互作)

训练流程分为两阶段

  • 预训练阶段:基于真实实验数据进行交叉验证训练;
  • 蒸馏阶段:将多个模型集成结果压缩为单一高效学生模型。

该策略在保证预测精度的同时,大幅提升变异效应计算效率。

图1:模型架构与整体评测结果。

结果

整体性能概览

AlphaGenome 在:

  • 基因组轨迹预测任务:22/24 项达到最优表现;
  • 变异效应预测任务:25/26 项优于现有模型。

涵盖模态包括:

  • RNA-seq 表达
  • 剪接位点、剪接连接、剪接使用率
  • DNase、ATAC-seq
  • 组蛋白修饰
  • 转录因子结合
  • 染色质空间接触图

高精度功能轨迹预测

模型在未见过的基因组区域上:

  • 准确复现 RNA-seq 覆盖信号
  • 精细预测剪接结构
  • 重构染色质可及性与调控元件分布

不仅能捕捉总体表达水平,还能反映部分细胞类型特异性差异。

图2:基因组轨迹预测实例与定量性能。

剪接变异效应预测显著领先

AlphaGenome 同时预测:

  • 剪接位点概率
  • 剪接位点竞争使用情况
  • 具体剪接连接强度

并构建统一剪接变异评分体系,在以下任务中表现最佳:

  • 精细定位 sQTL
  • 预测剪接异常个体变异
  • ClinVar 致病剪接变异分类

模型还能通过系统突变分析识别关键剪接调控序列模式。

图3:剪接相关变异预测与对比分析。

基因表达调控变异预测能力提升

在 GTEx eQTL 数据上:

  • 更准确预测变异对表达强度的影响幅度;
  • 更高效判断表达上调或下调方向。

即使对远端调控变异(>35 kb)仍保持较好性能。

此外,模型还能用于:

  • 增强子–基因配对预测;
  • 可变加尾(APA)调控变异解析。

图4:eQTL 与表达调控预测结果。

染色质可及性与转录因子结合变异

AlphaGenome 在:

  • DNase/ATAC QTL
  • 转录因子结合QTL

上均优于现有方法,且能通过突变扫描揭示调控元件序列基础,如关键结合基序的产生或破坏。

图5:染色质与转录因子调控变异预测。

跨模态综合变异机制解析

研究人员以 T-ALL 白血病相关 TAL1 调控变异为例:

  • 展示模型同时捕捉
  • 染色质开放变化
  • 组蛋白修饰增强
  • 基因表达异常

多模态信号整合显著提高致病调控变异的富集识别能力。

图6:跨模态变异效应解释案例。

模型设计因素系统分析

消融实验表明:

  • 单碱基分辨率显著优于粗粒度预测;
  • 长序列输入对远程调控至关重要;
  • 模态联合训练带来全面性能提升;
  • 蒸馏机制提高稳定性与预测效率。

图7:分辨率、序列长度与多模态训练影响分析。

讨论

AlphaGenome 首次在单一框架内实现:

  • 长程序列上下文(1 Mb)
  • 单碱基级精度
  • 多模态功能基因组预测

其优势体现在:

  • 更全面的调控机制刻画
  • 更高精度的变异功能预测
  • 更高效的大规模应用能力

研究结果表明,调控变异往往同时影响多个分子层级,仅依赖单一信号难以准确解析其真实功能后果。AlphaGenome 的多模态整合策略为复杂疾病相关变异研究提供了全新工具。

未来,该模型有望:

  • 支持更精准的非编码致病变异筛选;
  • 加速GWAS信号机制解析;
  • 推动个体化基因组医学发展。

整理 | 王建民

参考资料

Avsec, Ž., Latysheva, N., Cheng, J. et al. Advancing regulatory variant effect prediction with AlphaGenome. Nature 649, 1206–1218 (2026).

https://doi.org/10.1038/s41586-025-10014-0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-01,如有侵权请联系 [email protected] 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 [email protected] 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档