一台笔记本实现基因表达敲除?!scTenifoldKnk 单细胞基因模拟敲除教程

article/2025/8/18 19:16:22

生信碱移

单细胞基因模拟敲除

scTenifoldKnk 是一种基于单细胞RNA测序数据进行虚拟基因敲除分析的方法,能够用于预测特定基因在某一细胞群体中敲低后的整体基因表达谱变化,也可以扩展到多细胞群体的敲除分析。

基因扰动实验是研究特定基因功能作用的强大方法。常用的方案一般是使用基因改造动物进行的基因敲除(KO)或CRISPR基因扰动。在KO实验中,研究人员一般通过对比KO和野生型WT实验动物的表型或者多组学差异来推断目标基因的功能。

传统的基因敲除实验通常需要大量的实验和动物资源。最近发展的技术,如Perturb-seq,结合了CRISPR扰动和单细胞RNA测序(scRNA-seq)来进行遗传筛选,使得研究人员能够在大量细胞中研究基因功能。

图片

▲ CRISPR-based Perturb-seq原理。该方法可以在成千上万个细胞中同时引入不同的基因扰动,结合单细胞测序系统性地推断基因功能与调控网络。首先,研究者构建包含多种sgRNA(导向RNA)的多重化文库,每种sgRNA针对一个目标基因,通过设计合成并载入特定表达载体,使其在后续实验中可同时对多个基因实施扰动。图中左侧的不同颜色箭头表示不同的sgRNA,每条sgRNA都由特定启动子驱动表达。随后,这一文库被转导入目标细胞群体中,使得每个细胞携带一种或少数几种sgRNA,形成包含多种扰动的细胞混合群。图中彩色的细胞即表示携带不同扰动的异质细胞。接着,利用单细胞RNA测序平台如10x Genomics将单个细胞封装至微液滴中,捕获其转录的mRNA以及所表达的sgRNA标记序列,并进行文库构建与测序。根据前面的描述我们不难知道,由于细胞中的sgRNA与mRNA一起被检测,通过识别每个细胞的sgRNA就可以得知每个细胞的扰动身份(到底是哪些sgRNA转染进入该细胞)。在数据处理中,将每个细胞的基因表达与其对应的sgRNA进行映射,构建出扰动-表达对应关系,从而生成带有基因扰动注释的单细胞转录组数据,进一步的可以研究特定基因功能的变化。DOI: 10.1038/s41587-020-0470-y。

尽管如此,创建大规模的CRISPR文库仍然是一个主要的技术挑战。先前其实已经有了多种工具用于在单细胞水平模拟基因敲除扰动,包括有监督型的工具比如GEARS、scGen、CPA,以及无监督的工具比如scTenifoldKnk、CellOracle、GenKI。前者基于已有的扰动数据集进行监督训练,而后者则基于一些无监督神经网络或者网络建模进行无监督推断。

图片

▲ scGen原理(有监督模拟敲除方法)。给定一组在对照组和刺激条件下观察到的细胞类型,scGen的目标是通过训练一个能够学习并泛化训练集中细胞响应模式的模型,来预测新细胞类型 A(蓝色)的扰动反应。在scGen中,该模型采用变分自编码器架构,其预测结果通过自编码器潜在空间中的向量运算获得。具体而言,scGen利用编码器网络将基因表达数据投影至潜在空间,并获取一个代表训练集中扰动与未扰动细胞间潜在空间差异的向量δ。基于δ,scGen对类型A的未扰动细胞在潜在空间进行线性外推。随后,解码器网络将这些潜在空间的线性预测进行重构推演出更新的基因表达。DOI:10.1038/s41592-019-0494-8。

图片

▲GenKI原理( 无监督模拟敲除方法)。GenKI利用任意假定的野生型单细胞RNA测序数据,结合图变分自编码器对基因调控网络进行建模,以实现模拟基因敲除效应的预测分析。首先,GenKI从WT数据中构建调控网络,并使用VGAE学习其潜在空间表示,获得WT条件下的潜在分布参数。随后,保留训练好的编码器,将目标基因从网络中“剪除”以构建虚拟KO网络,并利用相同表达矩阵提取KO状态下的潜在空间表示。通过计算WT与KO潜在表示之间的KL散度,量化基因敲除所带来的系统性扰动,进而通过统计检验识别受影响的KO响应基因,并进行功能注释和通路富集分析。DOI:10.1038/s41592-019-0494-8。

图片

▲ scTenifoldKnk原理( 无监督模拟敲除方法)。scTenifoldKnk 也是一种基于单细胞RNA测序数据进行模拟基因敲除分析的方法,其流程包括三大模块:网络构建、虚拟敲除与流形对齐。首先,从野生型样本的表达矩阵中通过细胞子采样(每次采样生成的矩阵都会进行下方分析)、主成分回归和张量分解构建去噪后的基因调控网络(scGRN,多次采样生成多个子网络);随后,将该网络复制并将目标KO基因对应的调控边设置为零,生成模拟敲除网络;最后,利用流形对齐方法将原始网络与模拟KO网络嵌入到潜在空间中,通过计算基因在两个网络中的表示差异,识别出对敲除敏感的差异调控基因,并据此推断目标基因的潜在功能。DOI:10.1016/j.patter.2022.100434。

考虑到大部分铁子使用的是R语言编辑环境,所以今天小编给大家介绍这些工具中使用R语言的scTenifoldKnk工具,其于2022年发表于Cell子刊 Patterns [IF: 6.7],可以算得上是最早的单细胞无监督基因敲除方法了。这个方法目前有37条被引,其中不含一些大子刊,所以也是值得学习一手的。

图片

scTenifoldKnk的github如下,感兴趣的铁子可以进一步了解:

  • https://github.com/cailab-tamu/scTenifoldKnk

01.安装R包

使用以下代码安装R包:

devtools::install_github("cailab-tamu/scTenifoldKnk")

02.模拟基因敲除

① 相关R包导入:

library(dplyr)
library(Seurat)
library(scTenifoldKnk)
library(ggplot2)
library(ggrepel)  # 用于防止标签重叠

② 准备输入数据,这里小编使用一个标准的seurat对象af来提取count矩阵作为输入:

# 查看af对象
af
#An object of class Seurat 
#39128 features across 1091 samples within 2 assays 
#Active assay: SCT (18305 features, 3000 variable features)
# 1 other assay present: RNA
# 2 dimensional reductions calculated: pca, umap# 提取count矩阵作为输入
countMatrix <- GetAssayData(af, slot = "counts")

③ 执行敲除分析(推荐用高变基因做,不然内存时间双重爆炸):

result <- scTenifoldKnk(countMatrix = countMatrix, gKO = 'GAB1', #需要敲除的基因qc = TRUE,#是否进行QCqc_mtThreshold = 0.1,#mt阈值qc_minLSize = 1000,#文库阈值(细胞测到的基因总数)nc_nNet = 10, #子网络数量nc_nCells = 500, #每个网络中随机抽取的细胞数nc_nComp = 3 #PCA 的主成分数量)

scTenifoldKnk的参数可以查看小编代码中的注释。简单来讲,参数gKO用于指定敲除的基因;qc开头的系列参数能够选择是否对矩阵进行质控以及相应指标;nc开头的参数对应网络的构建,分别包括子网络的数量、使用的PC数量、随机抽取的细胞数量,数值越大运行时间越长但是结果可能会更稳定(具体意义常见上面方法描述)。

④ 结果的可视化,首先来看看排名前20的基因:

top_genes <- head(result$diffRegulation[order(-result$diffRegulation$FC), ], 20)
ggplot(top_genes, aes(x=reorder(gene, FC), y=FC)) +geom_bar(stat='identity', fill='steelblue') +coord_flip() +labs(title="Top 20 Differentially Regulated Genes",x="Gene", y="FC") +theme_minimal()

图片

需要注意的是,result$diffRegulation是差异调控分析的结果表,其中展示了在虚拟基因敲除前后,每个基因的发生的潜在变化。每一行对应一个基因,包括以下信息:

  • distance:该基因在两种条件下(WT与模拟KO)位置的欧氏距离,能够反映其调控变化的幅度;

  • Z:经过Box-Cox变换后计算的标准化Z分数;

  • FC:相对于预期的变化幅度,代表基因变化的倍数;

  • 两个统计显著值:分别是由卡方分布计算的显著性p值(p.value)和经过FDR校正后的调整p值(p.adj)。

当然,也可以同时绘制Z-score与P值的结果:

df <- result$diffRegulation
df$log_pval <- -log10(df$p.adj)
label_genes <- subset(df, abs(Z) > 2 & p.adj < 0.01)
ggplot(df, aes(x=Z, y=log_pval)) +geom_point(alpha=0.5) +geom_hline(yintercept=-log10(0.05), linetype="dashed", color="red") +geom_vline(xintercept=c(2), linetype="dashed", color="blue") +geom_text_repel(data=label_genes, aes(label=gene),size=3, max.overlaps=50) +labs(title="Z vs -log10(p-value)",x="Z-score", y="-log10(p-value)") +theme_classic()

图片

运行时间还是比较长的

可以做一些初步的验证分析


http://www.hkcw.cn/article/NiiIldDGhq.shtml

相关文章

高架疑车道减少致车辆高坠人员伤亡 死者家属称正商量赔偿

据澎湃新闻报道,有网友反映,5月19日,其侄儿驾车经过广东东莞环莞快速路虎门段,由于四车道变三车道,车辆从高架冲出路面后高坠,车内人员出现伤亡。5月29日,极目新闻记者致电东莞市应急管理局询问事故处置情况,接线人员表示,公安机关在负责处理此事。虎门交警工作人员也…

76岁男子长期吸烟被确诊为肺癌晚期 放射性粒子植入治疗成功实施

5月29日,上海交通大学医学院附属第九人民医院呼吸与危重症医学科戈霞晖主任医师团队成功为一名76岁的小细胞肺癌晚期患者实施了放射性碘125粒子植入治疗,实现了肿瘤的“定点爆破”。这种植入术能够持续释放低剂量γ射线,最大程度破坏肿瘤组织,并有效保护周围正常组织。这名…

成都27岁女子在家门口被害 凶手父亲抱怨因此事有家难回

女儿被杀已属最大不幸,还要承受凶手父亲的抱怨,这让人情何以堪?成都27岁女子王某雅在家门口被杀,凶手的父亲竟称:“就这事害我们有家不能回,花钱在外面住宾馆。”被害的王某雅,海归硕士,喜欢跳舞,平时在家线上办公。她是人们口中“别人家的孩子”,是母亲王女士的骄傲…

1.什么是node.js、npm、vue

一、Node.js 是什么&#xff1f; &#x1f63a; 定义&#xff1a; Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行时环境&#xff0c;让你可以在浏览器之外运行 JavaScript 代码&#xff0c;主要用于服务端开发。 &#x1f63a;从计算机底层说&#xff1a;什么是“运…

续肉不停!广东潮汕菜市场的猪脚饭要蹲着吃

广东潮汕菜市场的猪脚饭要蹲着吃,在广东潮汕地区,猪脚分为两大门派,一派是隆江,一派为东里,与隆江猪脚一整只卤制不同,东里猪脚要对半分开,切断骨头,是为了让骨髓融入卤汁,令猪脚更易入味。经过炖煮的猪脚和肉,吸足了卤汁,皮胶肉烂,油光水滑,酥香软糯得入口即化,…

库存翻番,赠送股东!五芳斋粽子,卖不动了?BUG:股东申领热情高

五芳斋近日宣布向股东赠送粽子礼盒,引发广泛关注。根据公告,截至4月28日交易结束,在中国证券登记结算有限责任公司上海分公司登记在册的持有公司股份1000股(含)以上的股东,每位可以申领“丰年五芳”粽子礼盒一盒,申领时间为2025年5月28日至6月8日。然而,市场对此反应冷…

男子杀害摊主潜逃27年落网 乡音暴露身份密码

27年前,21岁的外省小伙阿亮在当地与一猪肉摊摊主发生口角,一时冲动持刀将其杀害后隐姓埋名潜逃。当时的技术条件有限,警方追凶工作一度陷入瓶颈。27年后,阿亮辗转逃至扬州仪征。仪征警方凭借一句乡音破解了他的“身份密码”,成功将其抓获归案,这起尘封多年的命案积案终于…

郑大一附院世界最大的医院原院长阚全程被查

“宇宙第一大医院”郑大一附院原院长阚全程被查,医疗圈人称其“阚十亿”。责任编辑:zx0002

为什么现在的富二代更卷?

提到「富二代」,很多人都觉得他们是只知道吃喝玩乐的纨绔子弟,但是很多时候,有些富二代并不像我们想象当中的无忧无虑,现在另一种「卷王富二代」变得越来越多。富二代和穷二代,差的不仅仅是「富」和「穷」,而是平台、资源、心态等等很多方面的差距,之前网上比较流行的一…

小伙拍下800斤杨贵妃同款荔枝 浪漫与话题齐飞

小伙拍下800斤杨贵妃同款荔枝。最近,山东潍坊一位90后小伙拍下800斤杨贵妃同款荔枝的事儿,在网上引发了不小的关注。这一操作给平淡的生活带来了波澜,让人好奇背后的故事。在古代,杨贵妃一句“一骑红尘妃子笑,无人知是荔枝来”,让荔枝成了浪漫与宠爱的代名词。如今,这位…

Flutter实现不规则瀑布流布局拖拽重排序

因为业务&#xff0c;所以需要用flutter去实现一种不规则图形的瀑布流&#xff0c;但是同时需要支持拖拽并重新排序。效果类似如下。 查询过现有的插件&#xff0c;要么是仅支持同样大小的组件进行排序&#xff0c;要么就是动画效果不是很满意&#xff0c;有点死板&#xff0c;…

设置变体控制两个apk, 一个是有密码,一个是没有密码!

// ✅ 定义变体维度 flavorDimensions "default"// ✅ 定义产品变体 productFlavors {create("noPassword") {dimension "default"buildConfigField("boolean", "HAS_DEFAULT_PASSWORD", "false")buildConfigFi…

Leetcode 2921. 价格递增的最大利润三元组 II

1.题目基本信息 1.1.题目描述 给定长度为 n 的数组 prices 和 profits &#xff08;下标从 0 开始&#xff09;。一个商店有 n 个商品&#xff0c;第 i 个商品的价格为 prices[i]&#xff0c;利润为 profits[i]。 需要选择三个商品&#xff0c;满足以下条件&#xff1a; pr…

电视剧《长安的荔枝》定档6月7日 雷佳音岳云鹏携手破局

古装传奇剧《长安的荔枝》由曹盾、高翔执导,马伯庸担任故事顾问,雷佳音和岳云鹏领衔主演,将于6月7日19:30在CCTV-8黄金强档播出,并在腾讯视频全网独播。此外,那尔那茜、安沺、吕凉、公磊、冯嘉怡、芦芳生、郭涛、韩童生、窦骁、张天爱、尹昉、明道等演员也将出演。该剧改编…

欧阳娜娜体验小鹏MONA M03 智能驾驶新标杆

5月28日晚,小鹏汽车在北京举办了MONA潮玩派对暨M03 Max新车上市发布会。会上,小鹏MONA M03升级亮相,并推出了四款全新版型,全球首发了人机共驾功能,官方指导价在11.98万至13.98万元之间。小鹏汽车董事长兼CEO何小鹏与车主欧阳娜娜现场互动,详细介绍了M03 Max的高阶智能辅…

女子托运行李丢失金手链 嫌疑人被拘 警方介入调查

杨女士乘坐春秋航空班机从西安回宁波时丢失了一条黄金手链。5月30日凌晨,她透露西安咸阳国际机场警方已抓获嫌疑人,她将前往西安协助警方办案。5月25日,杨女士乘坐春秋航空公司班机从西安返回宁波,到家后发现装在托运行李箱中的一条黄金手链丢失,而包装盒及箱子中的其他物…

燃气气瓶将迎“码上管理”阶段 国家标准护航安全

市场监管总局(国家标准委)发布了《燃气气瓶和燃气瓶阀溯源二维码应用技术规范》国家标准,该标准对民用燃气气瓶和瓶阀的质量信息追溯提出了全面要求,并将于2025年6月1日起实施。这项标准旨在解决当前燃气安全运行中存在的一些隐患,与《气瓶安全技术规程》相结合,提出了更…

DeepSeek: 我又强了!究竟是如何做到的呢?

DeepSeek:我又强了。你是否也曾梦想过工作效率翻倍,一天的工作五分钟搞定?DeepSeek升级后,用户纷纷感叹:“接入DeepSeek后,我又强了!”这款智能工具究竟是如何做到的呢?DeepSeek自上线以来,就凭借其强大的AI文档处理能力迅速走红网络。它不仅能帮助用户一键审核文档,…

保安谋划1个月偷走1亿元玉石 现实版《疯狂的石头》上演

新疆乌鲁木齐发生了一起现实版的《疯狂的石头》盗窃案。5月23日凌晨,某大厦玉石展厅内共计67块玉石被盗,受害人估价约1个亿。警方在现场勘查时发现门锁完好,但23楼窗户玻璃被砸,外侧有使用绳索的痕迹,27层平台也发现了绳索等物品及攀爬痕迹。调查揭示,这起案件的幕后黑手…

【Linux】揭秘Linux进程优先级与调度机制

8.进程优先级以及进程调度切换 文章目录 8.进程优先级以及进程调度切换一、进程优先级介绍查看进程的优先级PRI and NI查看进程优先级的命令 二、进程切换1. CPU 执行程序的过程2. 什么是上下文、为什么要保存、保存到哪3. 上下文保存和恢复的完整流程4. 多进程如何交替运行&am…