GEARS以及与基础模型结合

article/2025/7/19 17:21:19

理解基因扰动的反应是众多生物医学应用的核心。然而,可能的多基因扰动组合数量呈指数级增长,严重限制了实验探究的范围。在此,图增强基因激活与抑制模拟器(GEARS),将深度学习与基因-基因关系知识图谱相结合,利用扰动筛选的单细胞RNA测序数据,预测单细胞对单基因和多基因扰动的转录反应。GEARS能够预测从未经实验扰动的基因组合的扰动结果。GEARS可以预测多基因扰动的表型差异效应,从而指导扰动实验的设计。

Predicting transcriptional outcomes of novel multigene perturbations with GEARS,Nature Biotechnology,2023

目录

  • 背景概述
  • GEARS框架
  • 预测新的生物学表型
  • scFoundation+GEARS
  • 补充内容:化学扰动和基因扰动(参考UniPERT)

背景概述

细胞对基因扰动的转录反应揭示了细胞功能的基本机制。转录反应可描述多种功能,从基因调控机制如何维持细胞特性到调节基因表达如何逆转疾病表型。这对生物医学研究具有重要意义,尤其是在开发个性化疗法方面。例如,通过基因扰动研究验证药物靶点可提高临床试验成功的可能性。此外,识别协同基因对可增强联合治疗的效果。已知复杂的细胞表型由少数基因之间的遗传相互作用产生,因此识别此类相互作用可促进精准细胞工程的发展。尽管近年来的技术进步使科学家能够更快速地通过实验获取扰动结果,但由于潜在多基因组合的数量呈指数级增长,预测扰动效应的计算方法对于缩小实验规模至关重要。

然而,现有的预测扰动结果的计算方法自身存在局限性。预测单基因扰动结果的主流方法依赖于以基因调控网络的形式推断基因之间的转录关系。这种方法的局限性在于,要么难以从基因表达数据集中准确推断网络,要么从公共数据库中获取的网络不完整。此外,使用此类网络构建的现有预测模型通过线性组合单个扰动的效应进行预测,这使得它们无法预测多基因扰动的非加性效应(如协同作用)。最近的研究利用在大规模扰动筛选数据上训练的深度神经网络,跳过网络推断步骤,将遗传关系直接映射到潜在空间以预测扰动结果(比如scGen)。然而,这些方法仍要求组合中的每个基因在预测组合扰动效应之前必须经过实验扰动(来自已知细胞类型的对照和刺激数据)。

fig-scgen

  • scGen:在给定对照组和刺激组中一组已观察到的细胞类型的情况下,我们旨在通过训练一个能够学习训练集中细胞响应的模型,来预测新细胞类型A(蓝色)的扰动反应。在scGen模型中,该模型为变分自动编码器(VAE),其预测通过在自动编码器的潜在空间中进行向量运算获得。具体而言,我们使用编码器网络将基因表达测量值投影到潜在空间,并获得向量δ,该向量表示训练集中受扰动细胞与未受扰动细胞在潜在空间中的差异。利用向量δ,对A类型的未受扰动细胞在潜在空间中进行线性外推,然后通过解码器网络将潜在空间中的线性预测映射到基因表达空间中的高度非线性预测。

fig-scgen-data

  • scGen的动机:我们可以直接看umap,发现从对照组到刺激组(左),在每个细胞类型(右)中,给人一种非线性的对称感。我们可以用神经网络学习这个关系,从而在新细胞类型上推断扰动后的响应。

scButterfly的扰动和scGen一样,也是在已知细胞类型对照数据和刺激数据上训练,然后预测新细胞类型的扰动响应,并且都是单基因扰动

图增强基因激活与抑制模拟器(GEARS),这是一种将深度学习与基因-基因关系知识图谱相结合的计算方法,用于模拟基因扰动的效应。生物知识的融入使GEARS能够预测单基因或基因组合扰动的结果,即使这些基因或组合此前没有实验扰动数据。在预测来自七个不同数据集的单基因和双基因扰动结果时,GEARS的表现均优于现有方法。此外,GEARS能够检测五种不同的基因相互作用亚型,并通过预测训练中未见过的表型,将预测能力泛化到扰动空间的新区域。因此,GEARS可直接影响未来扰动实验的设计。

GEARS框架

GEARS是一种基于深度学习的模型,可预测组合扰动一个或多个基因(扰动集)后的基因表达结果。给定未受扰动的单细胞基因表达数据以及所应用的扰动集(图1a),其输出为扰动后细胞的转录状态。
fig1a

  • 图1a:给定未受扰动的基因表达(绿色)和施加的扰动(红色),预测基因表达结果(紫色)。每个方框对应一个独立基因,箭头表示表达变化。

GEARS提出了一种新方法,即使用不同的多维嵌入(用于表示有意义概念的任意数字向量;图1b)来表征每个基因及其扰动。在训练过程中,每个基因的嵌入会被调整以表征该基因的关键特征。将表征拆分为两个多维组件,使GEARS能够更充分地捕捉基因特异性的扰动响应异质性。每个基因的嵌入会依次与扰动集中每个基因的扰动嵌入相结合,最终用于预测该基因的扰动后状态。这一预测以一个单一的“跨基因”嵌入向量为条件,该向量捕捉了每个细胞的全转录组信息。

GEARS具有独特的能力,能够预测涉及一个或多个缺乏实验扰动数据基因的扰动集结果。为此,GEARS在学习基因嵌入时采用基因共表达知识图谱整合基因-基因关系先验知识,并在学习基因扰动嵌入时使用基因本体论(GO)衍生的知识图谱。这一方法基于两个生物学直觉:(i)具有相似表达模式的基因可能对外部扰动产生相似响应;(ii)参与相似通路的基因在扰动后可能影响相似基因的表达(图1b)。根据目标基因集的不同,其他知识图谱(如大型上下文特异性网络)可能更适用。GEARS通过图神经网络(GNN)架构将这种基于图的归纳偏置转化为实际功能。
fig1b

  • 图1b:GEARS模型架构(i)对于未扰动状态下的每个基因,GEARS初始化一个基因嵌入向量(绿色)和一个基因扰动嵌入向量(红色)(ii)。这些嵌入向量被指定为基因关系图和扰动关系图中的节点特征(iii)。图神经网络(GNN)用于融合每个图中相邻节点的信息。每个生成的基因嵌入会与扰动集中每个扰动的扰动嵌入相加(iv)。输出通过跨基因层在所有基因间进行组合,并输入特定基因的输出层(v)。最终结果为扰动后的基因表达;MLP为多层感知机。

预测新的生物学表型

fig4

  • 图a:一组基因的所有成对组合扰动结果的预测流程。
  • 图b:用于训练 GEARS 的 102 个单基因扰动和 128 个双基因扰动的扰动后基因表达低维表示。随机选择部分进行了标记。
  • 图c:GEARS 对实验中观察到的 102 个单基因的所有 5,151 (一共(102*102-102)/2个) 个成对组合的扰动后基因表达进行预测。预测的扰动后表型(非黑色符号)通常与实验观察到的表型(黑色符号)不同。颜色表示使用标记基因表达标注的 Leiden 簇。

图4b和图4c中的UMAP图基于Norman等人数据集中102个单基因扰动的所有成对组合的GEARS预测扰动后基因表达谱生成。该数据集中共有105个单基因扰动,本图使用了人类物种基因本体数据库中存在的102个基因的扰动数据。图4c展示了包含所有5151种可能的双基因扰动以及102种单基因扰动的完整UMAP扰动后结果。图4b仅使用Norman中用于训练GEARS的扰动(102种单基因扰动和128种双基因扰动)的GEARS预测扰动后基因表达谱绘制。因此,图4b是图4c数据的子集。

聚类使用scanpy中默认参数的Leiden聚类(分辨率=1)进行。图4b和4c中显示的簇使用Norman中的表型标签进行标注。如果任何单个簇或簇组包含Norman等人标注为表现出特定表型的扰动,则整个簇或簇组在图4b或4c中被标注为显示该特定表型。这些图中所有其他簇未赋予表型标签。

每个散点代表一个基因表达谱(比如经过指定扰动的一组细胞的平均表达量)。

scFoundation+GEARS

将基因符号列表统一为19,264个,并在每个数据集上构建了基因共表达网络。参照原始GEARS研究的设计方案:对于单基因扰动实验,随机选取75%的扰动样本作为训练数据;对于双基因扰动实验,训练集仅包含两个基因均属于已知基因集(0/2未见过)的75%组合,其余所有含未知基因的组合(1/2和2/2未见过)均保留作为测试集。随后,通过设置训练周期为15轮、批处理量为30来训练GEARS基线模型。

通过移除scFoundation最后一层MLP,从解码器提取基因上下文嵌入作为共表达网络的节点特征。训练过程中固定scFoundation参数不动,仅对下游GEARS模型进行训练,并采用梯度累积策略以保证与基线模型保持一致的等效批处理规模。

scfoundation+gears

  • 在每个数据集中生成共表达网络,用大模型输出的gene token作为网络节点embedding,结合扰动embedding预测转录结果。

与scGPT的不同之处:scGPT没有使用GEARS,是类似scGen的方式。其次,scGPT在每个输入基因的位置附加了一个二元条件标记,用以表明该基因是否受到了扰动。scGPT使用一个对照细胞作为输入,将受扰动的细胞作为目标。这是通过将每个受扰动的细胞与一个未受扰动的对照细胞随机配对来构建输入 - 目标对实现的。因此,该模型学会了基于对照基因的表达情况和扰动标记来预测扰动后的响应。

CellFM的做法与scFoundation一样。

补充内容:化学扰动和基因扰动(参考UniPERT)

下面补充介绍化学扰动和基因扰动的典型架构(参考UniPERT:https://www.biorxiv.org/content/10.1101/2025.02.02.635055v1)

基因扰动:
unipert-1

  • GEARS-based:GEARS衍生的遗传扰动结果预测框架示意图。给定未扰动的基因表达谱(左下角,即对照组),其中每个基因通过基于基因共表达网络的图神经网络(GNN)进行编码。遗传扰动因子的嵌入表示(左上角)可通过以下方式获得:
    1.整合基因本体论(Gene Ontology)先验知识与GNN(如原始GEARS模型)
    2.从可扩展的预训练/预定义蛋白质序列表征方法中提取,包括:
    • ii) PseAAC(伪氨基酸组成)
    • iii) ESM(进化-scale模型)
    • iv) OntoProtein(基于本体的蛋白质表征)
    • v) 本文提出的UniPert模型
  • 单一或多个扰动因子的嵌入(绿色)随后被添加到每个基因的嵌入(灰色)中,生成扰动后的基因嵌入(紫色)。这些嵌入向量依次通过融合层和基因特异性解码器,最终转换为预测的扰动后基因表达值。

化学扰动:
unipert-2

  • CPA-based:CPA衍生的化学扰动结果预测框架示意图。未扰动谱(左下角)向量被投影到低维潜在空间,而化学扰动因子(左上角),即小分子,使用传统分子指纹特征进行数字化,如i) chemCPA模型,或通过先进表示方法编码,如ii) Uni-Mol、iii) KPGT和iv) UniPert。随后,扰动因子嵌入(黄色)与其他协变量嵌入被添加到潜在对照嵌入(灰色)中,解码后生成预测的扰动后基因谱向量(紫色)。

http://www.hkcw.cn/article/OSEemHFVhw.shtml

相关文章

【C++】入门基础知识(1.5w字详解)

本篇博客给大家带来的是一些C基础知识! 🐟🐟文章专栏:C 🚀🚀若有问题评论区下讨论,我会及时回答 ❤❤欢迎大家点赞、收藏、分享! 今日思想:微事不通,粗事不能…

[SWPUCTF 2023 秋季新生赛]Classical Cipher203分古典密码Base家族栅栏密码

下载附件解压得到txt文件 得到信息 U2FsdGVkX19aQNEomnRqmmLlI9qJkzr0pFMeMBF99ZDKTF3CojpkTzHxLcu/ZNCYeeAV3/NEoHhpP5QUCK5AcHJlZBMGdKDYwko5sAATQ 用在线网站进行解密 解密得到 TGhmYlMlXXNwX2BTb3NoQWcye1VweSRfcXEGdmBheDx0I1BkMXdfXG0ldzdbGBy 栅栏密码用在线网站进行…

Unity 中实现首尾无限循环的 ListView

之前已经实现过: Unity 中实现可复用的 ListView-CSDN博客文章浏览阅读5.6k次,点赞2次,收藏27次。源码已放入我的 github,地址:Unity-ListView前言实现一个列表组件,表现方面最核心的部分就是重写布局&…

【提升工作效率的小工具】截图软件Snipaste

1.F1截图,F3钉在桌面上 2.小技巧 纯文本复制后,F3钉在桌面上,鼠标右键,点击复制纯文本,可以直接再次复制 shift鼠标双击截图,可以缩略显示不占位置,重复操作就是展开截图。 隐藏/显示所有贴图…

极刻云搜2.0-强大的蓝奏搜索引擎以及智能网址导航

【🎉 重磅发布】极刻云搜 2.0 正式上线! 🚀 核心升级: ✨ 界面全面焕新: 视觉更美观,操作更流畅,体验显著提升。 🔍 搜索能力升级: 在原有站内搜索(覆盖全站…

无人机视角海上漂浮物检测与人员救援检测数据集VOC+YOLO格式2903张6类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2903 标注数量(xml文件个数):2903 标注数量(txt文件个数):2903 …

cocosCreator 1.8 升级到 2.4

现在负责的一个运营中的商业项目,使用的是 cocosCreator1.8,之前没有做好设计,所以东西都是直接加载在内存中的,到了现在性能问题逐渐暴露出来,讨论之后想进行引擎升级,升级到cocosCreator 2.4。 官方的升…

【递归、搜索与回溯算法】综合练习(二)

📝前言说明: 本专栏主要记录本人递归,搜索与回溯算法的学习以及LeetCode刷题记录,按专题划分每题主要记录:(1)本人解法 本人屎山代码;(2)优质解法 优质代码…

65.AI流式回答后再次修改同一界面的消息不在同一对话中bug

问题背景 在实现AI对话应用的流式响应功能后,我发现一个关键问题:当用户对AI的回答进行修改或重新生成时,有时会导致新的回答不在原对话上下文中,而是创建了一个新的独立对话。这种bug会严重影响用户体验和对话的连贯性。 问题现…

YOLOv8目标检测实战-(TensorRT原生API搭建网络和使用Parser搭建网络)

文章目录 一、原理篇1)Trt基础知识2)Trt plugin3)int8量化算法和原理4)cuda编程5)onnx基础知识6)yolov8网络架构6.1 yolov5网络架构图6.2 yolov8s网络架构 二、TensorRT原生API搭建网络1)window…

【IC】ASIC 设计流程:什么是 ASIC 设计?

什么是 ASIC? ASIC(专用集成电路)是一种经过精心设计的专用集成电路,用于在电子系统中执行特定功能或功能集。与微波炉或电视盒等日常电子设备中的通用微处理器不同,ASIC 是为特定应用量身定制的,可提供无…

TKdownloader V5.5 抖音批量下载工具

目前能找到的仅存的免费抖音批量下载软件,有win版和mac版。 但是软件的运行需要一点点电脑知识,不太复杂,按着说明一步一步走,也能正常安装使用。 项目功能 下载抖音无水印视频/图集 下载抖音无水印实况/动图 下载最高画质视频文件…

Rust 编程实现猜数字游戏

文章目录 编程实现猜数字游戏游戏规则创建新项目默认代码处理用户输入代码解析 生成随机数添加依赖生成逻辑 比较猜测值与目标值类型转换 循环与错误处理优化添加循环优雅处理非法输入​ 最终完整代码核心概念总结 编程实现猜数字游戏 我们使用cargo和rust实现一个经典编程练习…

苏州SAP代理公司排名:工业园区企业推荐的服务商

目录 一、SAP实施商选择标准体系 1、行业经验维度 2、实施方法论维度 3、资质认证维度 4、团队实力维度 二、SAP苏州实施商工博科技 1、SAP双重认证,高等院校支持 2、以SAP ERP为核心,助力企业数字化转型 三、苏州使用SAP的企业 苏州是中国工业…

2505软考高项第一、二批真题终极汇总

第一批2025.05综合题(75道选择题) 1、2025 年中央一号文件对进一步深化农村改革的各项任务作出全面部署。“推进农业科技力量协同攻关”的相关措施不包括()。 A.强化农业科研资源力量统筹,培育农业科技领军企业 B.发挥农业科研平台作用&…

微深节能 堆取料机动作综合检测系统 格雷母线

精准定位,高效运行——微深节能格雷母线堆取料机动作综合检测系统 在现代工业自动化领域,精准的位置检测是保障设备高效运行的关键。武汉市微深节能科技有限公司推出的格雷母线高精度位移测量系统,凭借其卓越的性能和可靠性,成为…

Android Native 之 adbd进程分析

目录 1、adbd守护进程 2、adbd权限降级 3、adbd命令解析 1)adb shell 2)adb root 3)adb reboot 4、案例 1)案例之实现不需要执行adb root命令自动具有root权限 2)案例之实现不需要RSA认证直接能够使用adb she…

wireshark分析国标rtp ps流

1.将抓到的tcp或者udp视频流使用decode as 转为rtp包 2.电话->RTP->RTP播放器 选择Export 里面的Payload 就可以导出原始PS流

next.js 如何做中英文切换(详解)

最近开发的项目涉及到了 react, 因为之前没用过 next.js, 发现文档比较乱,所以也是花了点时间,这里做个记录。 前提依赖:App 文件夹路由 {"next": "14.2.22","react-i18next": "^15.5.1","i1…

SpringAI系列4: Tool Calling 工具调用 【感觉这版本有bug】

前言:在最近发布的 Spring AI 1.0.0.M6 版本中,其中一个重大变化是 Function Calling 被废弃,被 Tool Calling 取代。Tool Calling工具调用(也称为函数调用)是AI应用中的常见模式,允许模型通过一组API或工具…