Sentieon项目文章 | 社区努力识别和纠正蛋白质基因组研究中标签错误的样本

article/2025/8/29 3:56:42

关键词:多组学;蛋白质;错误标记;


引言

在日常生活中,会经常遇到物品与标签错误的问题,比如超市商品标价错误、图书馆书籍分类错误等。都会造成一些后果。在生物医学研究领域中,蛋白质样本标记错误同样是一个普遍存在的问题。特别是在现代高通量组学研究中,由于实验流程复杂、样本数量庞大,标记错误的情况更为常见。这些错误不仅会浪费昂贵的实验资源,更可能导致研究结论的错误,影响后续的临床决策。

以下的文章,主要为大家介绍一个样本错误标记自动检测与纠正工具COSMO,以及它在多组学研究中的应用价值。


文献介绍

  • 标题(英文):A community effort to identify and correct mislabeled samples in proteogenomic studies
  • 标题(中文):社区努力识别和纠正蛋白质基因组研究中标签错误的样本
  • 发表期刊:Patterns
  • 作者单位:西奈山伊坎医学院、Sentieon 公司等
  • 发表年份:2021
  • 文章地址:https://doi.org/10.1016/j.patter.2021.100245

图1 文献介绍

随着TCGA和CPTAC等大型项目推动多组学研究的深入开展,数据量和复杂度显著提升,但人为错误导致的样本标记问题也随之凸显。虽然在遗传和基因组数据方面已有多种检测方法,但这些方法难以直接应用于特性不同的蛋白质组数据。

为解决这一问题,precisionFDA和NCI-CPTAC发起了"多组学样本错误标记纠正挑战赛",旨在开发自动化工具来检测和纠正蛋白质基因组数据集中的错误标记。

本次挑战赛基于181个结直肠癌肿瘤样本的RNA测序、蛋白质组学和临床数据展开。通过随机抽样创建训练和测试数据集,并在数据集中故意引入错误标记,用于测试参与者的检测和纠正能力。

挑战赛分为两个子挑战:第一个子挑战要求参与者基于临床和蛋白质组数据检测不匹配样本;第二个子挑战增加RNA-seq数据,要求参与者检测问题样本、识别错误数据类型并进行纠正。


测序流程

来自15个国家的52个团队参与比赛。结果显示,处理蛋白质组数据的缺失值时,使用0替换的策略表现最佳。在模型构建方面,子挑战1表现较好的团队都结合了逻辑回归(LR)、随机森林(RF)和KNN等方法。

子挑战2的结果证明,多组学数据整合能提供更准确的错误检测。前三名团队均采用基于Pearson或Spearman的相关性分析进行数据匹配,并使用热图可视化辅助标签纠正。其中,来自隆德大学、莱特州立大学和Sentieon公司的团队表现最佳。

图2 挑战赛结果总结

(A) 全球参与者情况显示对挑战问题的高度关注。

(B) 对子挑战1中52个独特提交者的149份提交作品进行性能评估。对每份提交作品评估了具有95%置信区间的F1分数,并对独特提交者取平均值。

(C) 子挑战2的评估。共评估了31个独特提交者的57份提交作品的平均F1分数。观察到两个子挑战的提交性能都呈现广泛分布。即使在同一团队内,性能也有很大差异,表明标准化方法的重要性。 (D和E) 团队在子挑战1中的表现与缺失数据插补方法(C)和特征选择方法(D)之间的关联。使用平均百分位排名作为度量标准。

(F) 使用50个结肠癌模拟数据集(具有固定类型和错误数量)评估子挑战2中前三名方法的稳健性。P值使用双侧配对Student's t检验计算。

挑战赛结束后,表现最佳的三个团队进行后续合作。通过对原始50个训练/测试数据集的评估,莱特州立大学和Sentieon公司展现出优异的表现,平均F1分数为0.9,明显优于基线方法的0.68。而隆德大学团队由于难以将人工检查转化为自动流程,整体表现相对较弱。

为模拟真实场景,研究人员基于结肠数据创建了50个具有不同错误标记率和模式的新数据集。只有莱特州立大学的方法成功适应,F1分数为0.92。通过整合莱特州立大学和Sentieon公司的方法,检测和纠正错误的准确性得到进一步提升。

图3 COSMO及其在独立测试数据集上的表现

(A) 通过从结肠癌数据集生成具有不同类型和数量的样本标记错误的模拟数据集来模拟样本错误标记的真实情况。

(B) 不同临床属性预测来源的性能。P值使用双侧配对Student's t检验计算。

(C) COSMO检测和纠正临床或组学数据中错误标记样本的整体示意图。

(D) 使用CPTAC肾癌数据集生成具有不同类型和数量的样本标记错误的模拟数据集来模拟样本错误标记的真实情况。

(E) COSMO在(D)中50个模拟数据集上的性能。

基于这些发现,研究团队开发了自动化工具COSMO,结合了莱特州立大学的整体流程和Sentieon公司的临床属性预测算法,COSMO在肾癌研究数据集的验证中展现出极高的准确性,F1分数中位数达0.99。即使错误率>20%的情况下仍能保持出色表现,F1分数大于0.9。

COSMO在六个独立的多组学数据集中进行了实际应用验证。在已知存在错误标记的三个人类肿瘤数据集中,COSMO成功识别出CPTAC肺癌数据集(preQC CPTAC LUAD)中四对互换样本、CPTAC肾癌数据集(preQC CPTAC CCRCC)中三个错误标记样本,以及TCGA乳腺癌数据集(TCGA BRCA)中八对互换样本。

在此前未报告错误的三个数据集中,COSMO的应用也取得了重要发现。虽然CCLE细胞系数据显示完全对齐,但在人类淋巴母细胞系研究中发现了RNA-seq数据的两个样本互换和蛋白质组的一个重复样本。在外繁小鼠肝脏研究中,COSMO检测到了九对互换样本。

图4 COSMO在真实数据集中的应用

(A) CPTAC LUAD:四对蛋白质组学样本在RNA-seq-蛋白质组学和蛋白质组学-CNV之间相互匹配,但在RNA-seq-CNV中未观察到标记交换。

(B) CPTAC CCRCC:蛋白质组学中的三个样本在RNA-seq-蛋白质组学和蛋白质组学-CNV匹配中发生偏移,而RNA-seq和CNV之间的样本匹配良好。

(C) TCGA BRCA:八对微阵列样本在RNA-seq-微阵列和微阵列-CNV匹配中发生交换。

(D) Battle等人的研究:基于RNA-seq、蛋白质组学和Riboseq数据的比对,发现两个RNA-seq样本发生交换。观察到潜在的重复蛋白质样本。 (E) Chick等人的研究:RNA-seq和蛋白质数据之间有九对样本发生交换。与样本性别的临床注释合并表明蛋白质组学数据中存在交换。

研究表明样本错误标记的纠正对生物学结论有重要影响。以CPTAC肺癌研究为例,纠正样本标记后,差异表达蛋白的数量从160个增加到584个。并提高了检测性别相关通路的能力。

在免疫热/冷肿瘤分析中,错误纠正后不仅识别出比纠错前多20%的差异表达蛋白,还揭示了其他与免疫反应相关的重要通路。

图5 COSMO错误纠正在CPTAC LUAD数据集中的生物学影响

(A) 错误纠正前后男性和女性肿瘤之间DEPs的数量。

(B) 比较8,528个蛋白质在男性和女性肿瘤之间的t检验FDR(-log10)。

(C) 错误纠正前后与性别DEPs显著相关的HALLMARK通路(FET FDR < 0.05)。COSMO后的独特DEPs也用于功能富集测试。

(D) 免疫热和免疫冷肿瘤中DEPs的数量。

(E) 比较8,528个蛋白质在免疫热和免疫冷肿瘤之间的t检验FDR。

(F) 与免疫热亚型肿瘤中上调蛋白质显著相关的HALLMARK通路。

(G) 纠正前后8,366个基因-蛋白质对的相关强度。Pearson相关p值经Benjamini-Hochberg调整为FDR,然后进行-log10转换。

(H) 仅在错误纠正后显著的269个基因-蛋白质对的相关强度差异。

在多组学分析方面,COSMO的纠正同样带来显著的改善效果。在CPTAC肺癌研究中,修复了7.5%的错误标记就使85%基因的mRNA-蛋白质相关性得到提升,还发现267个新增的显著相关基因,包括多个重要的癌症相关基因。即使在错误率为3.5%的CPTAC肾癌数据集中,纠正后也观察到了62%基因的相关性提升。

在外繁小鼠研究中,基于COSMO纠正后的数据重新进行pQTL分析,发现遗传变异对蛋白质组的影响更强烈,新分析多识别出了497个局部pQTL。

图6 错误纠正影响的pQTL分析 OMA1局部pQTL的对数优势比(LOD)得分在错误纠正后从24(左)增加到31(右)。

Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。


总结

虽然研究仍存在着一些局限性,如:训练集和测试集不是完全独立的,因此不能保证获胜解决方案的泛化能力。使用单一的数据集来进行性能验证限制了评估结果的稳定性等。

但研究展示了COSMO在处理不同类型组学平台、不同生物体以及各类研究中的通用性和可靠性,证明了COSMO作为自动化解决方案的价值。也凸显了样本错误标记纠正对提高组学研究准确性的重要性。


http://www.hkcw.cn/article/ITdqfQUFRu.shtml

相关文章

git reset --hard HEAD~1与git reset --hard origin/xxx

git reset --hard HEAD~1与git reset --hard origin/xxx git reset --hard origin/xxx有时候会太长&#xff0c;手工输入略微繁琐&#xff0c;可以考虑&#xff1a; git reset --hard HEAD~1 替代。 或者使用这种方式 git reset撤销当前分支所有修改&#xff0c;恢复到最近一…

Kotlin委托机制使用方式和原理

目录 类委托属性委托简单的实现属性委托Kotlin标准库中提供的几个委托延迟属性LazyLazy委托参数可观察属性Observable委托vetoable委托属性储存在Map中 实践方式双击back退出Fragment/Activity传参ViewBinding和委托 类委托 类委托有点类似于Java中的代理模式 interface Base…

2025年能源科学与农业发展国际会议:共创可持续农业未来

会议简介 第二届能源环境科学与农业发展国际会议即将在武汉盛大召开。此次盛会定于武汉这一中部地区的中心城市举办&#xff0c;旨在汇聚国内外能源环境科学与农业发展的专家学者、企业家及各界精英&#xff0c;共同探讨能源资源的高效利用、环境保护的科技创新以及农业可持续发…

MongoDB(七) - MongoDB副本集安装与配置

文章目录 前言一、下载MongoDB1. 下载MongoDB2. 上传安装包3. 创建相关目录 二、安装配置MongoDB1. 解压MongoDB安装包2. 重命名MongoDB文件夹名称3. 修改配置文件4. 分发MongoDB文件夹5. 配置环境变量6. 启动副本集7. 进入MongoDB客户端8. 初始化副本集8.1 初始化副本集8.2 添…

未来楼宇自控系统升级优化,为绿色建筑发展注入更强动力支撑

在全球积极应对气候变化、大力推进节能减排的时代背景下&#xff0c;建筑行业作为能源消耗和碳排放的重点领域&#xff0c;其绿色转型迫在眉睫。绿色建筑旨在减少对环境的负面影响&#xff0c;实现资源高效利用&#xff0c;而楼宇自控系统作为建筑智能化的核心组成部分&#xf…

【SQL Server Management Studio 连接时遇到的一个错误】

第一次用SQL Server Management Studio启动之后第一步就是要建立连接 但是不知道Server Name要填什么&#xff0c;看了网上的教程说是要找到下面这个注册表中对应的实例名称填上去&#xff0c;或者前面加localhost 但是好像都没有用&#xff0c;一直遇到报错如下&#xff1a;…

华为云Flexus+DeepSeek征文 | 初探华为云ModelArts Studio:部署DeepSeek-V3/R1商用服务的详细步骤

华为云FlexusDeepSeek征文 | 初探华为云ModelArts Studio&#xff1a;部署DeepSeek-V3/R1商用服务的详细步骤 前言一、华为云ModelArts Studio平台介绍1.1 ModelArts Studio介绍1.2 ModelArts Studio主要特点1.3 ModelArts Studio使用场景1.4 ModelArts Studio产品架构 二、访问…

【Redis】string 类型

string 一. string 类型介绍二. string 命令set、getmget、msetsetnx、setex、psetexincr、incrby、decr、decrby、incrbyfloatappend、getrange、setrange、strlen 三. string 命令小结四. string 内部编码方式五. string 的应用场景缓存功能计数功能共享会话手机验证码 六. 什…

字体查看器

为了快速找到0不带点、斜杠的等宽字体&#xff0c;我做了个软件&#xff01; sonichy/HTYFontViewer

Java与Python优劣分析及两者联姻收奇功

Python 和 Java 作为两种广泛使用的编程语言&#xff0c;在大多数场景下都能实现相似的功能。但由于语言设计初衷、生态系统以及社区偏好的不同&#xff0c;Python 在某些特定领域确实具有 Java 难以比拟的天然优势。 一、以下是几个典型场景优劣分析 1. 快速原型开发与脚本化…

6.OpenFeign服务接口调用

目录 OpenFeign服务接口调用 一、openFeign简介 二、、OpenFeign 通用步骤 接口注解 流程步骤 1. 建Module 2. 添加POM依赖 3. 编写YML文件 4. 主启动(修改类名为MainOpenFeign80) 5.OpenFeign业务类编写 测试&#xff08;远程调用&#xff09; 三、OpenFeign高级特…

新能源汽车电控系统的精准守护者PKDV5355高压差分探头

在新能源汽车的"心脏"——电控系统中&#xff0c;每一次电流的精准切换都关乎车辆的性能与安全。PRBTEK PKDV5355高压差分探头就像一位经验丰富的"汽车医生"&#xff0c;帮助工程师们精准捕捉IGBT模块的每一次"心跳"&#xff0c;确保电驱系统健康…

资产生命周期管理:动态监控 + 精准管理

在数字化高度发展的当下&#xff0c;企业资产的范畴早已突破传统固定资产的局限&#xff0c;网络设备、服务器、软件系统等数字化资产在企业的日常运营与战略布局中扮演着越来越重要的角色。高效的资产管理体系对于优化资源配置、降低运营成本、确保业务不间断运行至关重要。 北…

MonoPCC:用于内窥镜图像单目深度估计的光度不变循环约束|文献速递-深度学习医疗AI最新文献

Title 题目 MonoPCC: Photometric-invariant cycle constraint for monocular depth estimation of endoscopic images MonoPCC&#xff1a;用于内窥镜图像单目深度估计的光度不变循环约束 01 文献速递介绍 单目内窥镜是胃肠诊断和手术的关键医学成像工具&#xff0c;但其…

华为OD机试真题——找终点(2025A卷:100分)Java/python/JavaScript/C/C++/GO最佳实现

2025 A卷 100分 题型 本专栏内全部题目均提供Java、python、JavaScript、C、C++、GO六种语言的最佳实现方式; 并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析; 本文收录于专栏:《2025华为OD真题目录+全流程解析+备考攻略+经验分…

电路图识图基础知识-电路接线图(八)

识读电路接线图常识 1 电路接线图与电气原理图之间的关系 电气接线图是表示电气设备、元器件或装置等项目之间的连接关系&#xff0c;用来进行安装接线、 线路检查、线路检修和故障处理的一种简图。 在绘制电路接线图时必须依据相应的电气原理图&#xff0c;电路接线后必须达到…

基于python脚本进行Maxwell自动化仿真

本文为博主进行Maxwell自动化研究过程的学习记录&#xff0c;同时对Maxwell自动化脚本&#xff08;pythonIron&#xff09;实现方法进行分享。 文章目录 脚本使用方法脚本录制与查看常用脚本代码通用开头定义项目调整设计变量软件内对应位置脚本 设置求解器软件内对应位置脚本…

车载通信网络 --- CAN FD与CAN XL

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

Shell 脚本基础笔记

一 shell脚本概述 Shell 脚本是一种用 Shell 命令编写的脚本程序&#xff0c;用于在 Unix/Linux 系统的命令行环境中自动化执行任务。 它由一系列命令、逻辑控制语句&#xff08;如条件判断、循环&#xff09;和函数组成&#xff0c;保存为文本文件&#xff08;通常以 .sh 为扩…

sudo apt-get update错误解决

1.尝试sudo apt-get update发现很多无法命中且报错 首先使用 sudo vi /etc/resolv.conf 进入该文件后 代码如下&#xff1a; nameserver 8.8.4.4 nameserver 8.8.8.8然后按两次esc键&#xff0c;然后输入&#xff1a;wq 先输入 &#xff08;&#xff1a;&#xff09;再输…