百万级临床试验数据库TrialPanorama发布!AI助力新药研发与临床评价迎来新基石

article/2025/6/11 8:44:04

2025年5月22日,伊利诺伊大学厄巴纳-香槟分校的研究团队在《arXiv》上发表了一篇前瞻性研究论文《TrialPanorama: Database and Benchmark for Systematic Review and Design of Clinical Trials》,该研究建立了一个临床试验数据库TrialPanorama,该数据库整合了从 15 个全球来源汇总的 1,657,476 条临床试验记录,并对试验级别的设计和结果属性进行了标准化,旨在为临床试验设计和审查以及为这些任务开发人工智能模型提供一个很好的资源。

一款新药从研发到上市,平均需要10年时间超过20亿美元的投入,而其中临床试验是耗时最长、成本最高的阶段。然而,全球海量的临床试验数据分散在数十个注册平台和学术论文中——就像一座座信息孤岛,缺乏统一标准,导致医生、企业和研究人员难以快速获取有效证据,甚至可能重复失败的设计。TrialPanorama旨在打破数据壁垒,整合海量数据资源,让AI真正助力临床研究提速。

 

图1 TRIALPANORAMA数据集和benchmark流程概览

一、TrialPanorama数据库

1. 数据规模与来源

  • 包含 1,657,476 条临床试验记录。

  • 整合15 个全球数据源,包括 ClinicalTrials.gov, PubMed, 国际临床试验注册平台 (ICTRP),欧盟临床试验注册库,中国临床试验注册中心 (ChiCTR),澳大利亚新西兰注册库 (ANZCTR) 等。

2. 核心价值——数据结构化与标准化

  • 不仅收集数据,更将临床试验的关键要素结构化并链接到标准生物医学本体 (Ontologies),如DrugBank(标准化药物信息)、MedDRA:(标准化不良事件和医疗术语)、MeSH(标准化疾病/条件术语)。

  • 包含 10 个核心数据表,分为四大类:

  • 试验元数据 (Trial Metadata): 标题、摘要、申办方、状态、阶段、开始年份等。

  • 试验方案 (Trial Protocols): 药物 (Drugs)、疾病条件 (Conditions)、生物标志物 (Biomarkers)、分组设计 (Dispositions/Arms)、主要终点 (Endpoints)。

  • 试验结果 (Trial Results): 总体结果 (Outcomes)、详细结果 (Results)、不良事件 (Adverse Events)。

  • 研究链接 (Study Links): 不同来源记录(如注册记录与发表论文)之间的关系 (Relations),以及系统评价纳入/排除研究的链接。

3. 数据质量: 通过人工抽检约1500条记录进行评估,大部分表格的准确率超过90%。

4. 与已有资源比较(图2):

  • 覆盖更广: 多来源(15个 vs 通常1-2个),规模更大(165万 vs 通常数万到数十万)。

  • 结构更丰富: 同时包含详细的试验设计(方案)和试验结果数据,并建立了它们之间的链接。

  • 本体链接: 强链接到标准本体,提升数据的可计算性和互操作性。

  • 基准任务导向: 直接基于数据库构建了8个实用的AI基准任务。

     

图2 TRIALPANORAMA 与之前的临床试验数据集和基准的比较

二、TrialPanorama基准测试集

1. 目标:评估AI(特别是大语言模型LLMs)在支持系统评价 (Systematic Review, SR)临床试验设计 (Clinical Trial Design, CTD)关键任务上的能力。

2. 构建方法:充分利用TrialPanorama数据库的结构化数据和关系表(特别是relations表用于链接系统评价和试验),构建了高质量的训练集、验证集和测试集(保留最新研究作为测试集)。

3. 任务类别 (8个任务)

  • 系统评价任务 (3个 - 模拟PRISMA流程):

  • 研究检索 (Study Search):

    根据系统评价的背景、目标和入选标准,生成检索式并检索相关研究。指标:Recall@K

  • 研究筛选 (Study Screening):

    判断候选研究是否符合系统评价的入选标准(基于背景、目标、标准和研究摘要/元数据)。指标:准确率、精确率、召回率

  • 证据总结 (Evidence Summarization):

    基于纳入研究的证据回答关于治疗效果的临床问题。指标:准确率、Macro-F1

  • 临床试验设计任务 (5个):
    • 分组设计 (Arm Design):

      根据试验标题和摘要,选择正确的试验分组(如实验组、对照组)及其干预措施描述。指标:准确率、Macro-F1

    • 入选标准设计 (Eligibility Criteria Design):

      根据试验标题和摘要,选择正确的入排标准描述。指标:准确率、Macro-F1

    • 终点设计 (Endpoint Design):

      根据试验标题和摘要,选择正确的主要终点描述。指标:准确率、Macro-F1

    • 样本量估算 (Sample Size Estimation):

      根据试验设计方案和统计假设(效应量、α、功效、脱落率),估算所需受试者数量。指标:准确率(预测值在真实值±20%内)、平均绝对误差 (MAE)

    • 试验完成度评估 (Trial Completion Assessment):

      根据试验方案(阶段、分组数、设盲、分配、入排标准等)预测试验是否会完成还是提前终止,若终止则预测主要原因(如入组困难、安全性、疗效不足等)。指标:平衡准确率 (Binary Outcome & Termination Reason)

三、大模型实验结果与启示

1. 测试模型:GPT-4o, GPT-4o-mini, O3-mini (专注重推理), LLaMA-3.3-70B-Instruct, LLaMA-3.1-8B-Instruct。

2. 关键发现

  • 通用LLMs在临床任务上表现不足:虽然展示出一定的零样本(Zero-Shot)能力,但整体性能远未达到支撑高风险临床工作流程的要求。

  • 任务难度差异大:

  • 相对较好:分组设计 (Arm Design) 任务表现最好(准确率~86%),因为干预信息通常在方案中明确描述。

  • 中等难度:研究筛选 (Study Screening) 和证据总结 (Evidence Summarization) 表现中等(准确率~55-79%)。研究检索 (Study Search) 尤其困难(Recall@100 仅~12-28%)。

  • 非常困难:样本量估算 (Sample Size Estimation)(准确率<26%,MAE高)和终点设计 (Endpoint Design)(准确率~52-69%)表现很差,需要扎实的统计学基础和临床推理。试验完成度预测 (Trial Completion Assessment) 接近随机水平(平衡准确率~50-55%)。

  • 模型差异:O3-mini 在研究检索和筛选上表现突出,但在证据总结上较弱;LLaMA-70B 在证据总结上表现最好;GPT-4o 在部分设计任务上表现稳定。

3. 核心启示

  • 当前通用LLMs无法可靠地支持关键的临床试验设计和系统评价决策,尤其在需要统计推理、可行性预测或情境感知的任务上。

  • 亟需开发面向临床试验领域的专业化AI模型(领域适应、微调、结合专业知识和规则)。

  • 高质量、结构化、任务导向的基准数据(如TrialPanorama)是推动该领域AI进步的关键基础。

 

另,作者公开释放了TrialPanorama数据库和基准,鼓励社区使用以推动面向临床试验的AI研究。未来工作包括改进数据质量、探索更先进的模型架构、在实际工作流中进行前瞻性评估等。

 


http://www.hkcw.cn/article/auYqFpKNdp.shtml

相关文章

运维 vm 虚拟机ip设置

虚拟网络设置 nat 模式 网卡 主机设置网卡地址 虚拟机绑定网卡

问题七、isaacsim中添加IMU传感器

0 前言 NVIDIA Isaac Sim 中的 IMU 传感器可跟踪车身运动并输出模拟加速度计和陀螺仪读数。与真实 IMU 传感器一样,模拟 IMU 可通过平台单元提供局部 x、y、z 轴的加速度和角速度测量值。 1 创建IMU传感器 按照下述步骤依次点击 使用python创建 基于IsaacSensorCreateImuSe…

AutoGenTestCase - 借助AI大模型生成测试用例

想象一下&#xff0c;你正在为一个复杂的支付系统编写测试用例&#xff0c;需求文档堆积如山&#xff0c;边缘场景层出不穷&#xff0c;手动编写让你焦头烂额。现在&#xff0c;有了AutoGenTestCase&#xff0c;这个AI驱动的“测试用例生成机”可以从需求文档中自动生成数百个测…

警惕假冒 CAPTCHA 攻击通过多阶段payload链部署远控和盗窃信息

在过去几个月中&#xff0c;Trend Micro 托管检测与响应&#xff08;MDR&#xff09;调查中发现假冒 CAPTCHA 的案例激增。这些 CAPTCHA 通过钓鱼邮件、URL 重定向、恶意广告或 SEO 污染投放。所有观察到的案例均表现出类似行为&#xff1a;指导用户将恶意命令复制粘贴到 Windo…

2024-2025-2-《移动机器人设计与实践》-复习资料-8……

2024-2025-2-《移动机器人设计与实践》-复习资料-1-7-CSDN博客 08 移动机器人基础编程 单选题&#xff08;6题&#xff09; 在ROS中&#xff0c;用于移动机器人速度控制的消息类型通常是&#xff1f; A. std_msgs/StringB. geometry_msgs/TwistC. sensor_msgs/ImageD. nav_ms…

楼宇自控系统赋能设备管理智能化集中化,驱动建筑节能高效运行

在建筑行业追求可持续发展与高效运营的当下&#xff0c;传统建筑设备管理模式因信息分散、调控粗放等问题&#xff0c;导致能源浪费严重、设备维护成本高企。而楼宇自控系统凭借对建筑内各类设备的智能化、集中化管理能力&#xff0c;成为解决这些难题的关键。通过实时监测、智…

三、kafka消费的全流程

五、多线程安全问题 1、多线程安全的定义 使用多线程访问一个资源&#xff0c;这个资源始终都能表现出正确的行为。 不被运行的环境影响、多线程可以交替访问、不需要任何额外的同步和协同。 2、Java实现多线程安全生产者 这里只是模拟多线程环境下使用生产者发送消息&…

集合类基础概念

目录 集合类概述 集合框架的体系结构 单列集合&#xff08;Collection&#xff09; List接口 Set接口 双列集合&#xff08;Map&#xff09; Map接口 线程安全与性能考虑 集合与数组的区别 大小是否固定 数据类型与存储 操作方法丰富性 内存与性能 类型安全与泛型…

1500多个免费的HTML模板

1500多个免费的HTML模板 用于网站&#xff0c;着陆页&#xff0c;博客&#xff0c;投资组合&#xff0c;电子商务和管理仪表板 Free HTML Website Templates on HTMLrev https://htmlrev.com/

博客操作规范

一、博客内容规范 专有名词&#xff1a;深蓝粗体&#xff0c;一级专有名词。 专有名词&#xff1a;靛蓝粗体&#xff0c;二级专有名词。 一般名词&#xff1a;浅蓝粗体&#xff0c;一般名词。 标记名词&#xff0c;蓝色粗体&#xff0c;标记性的名词。 重点句子&#xff1…

秋招Day12 - 计算机网络 - IP

IP协议的定义和作用&#xff1f; IP协议用于在计算机网络中传递数据包&#xff0c;定义了数据包的格式和处理规则&#xff0c;确保数据能够从一个设备传递到另一个设备&#xff0c;中间可能经过多个不同的设备&#xff08;路由器&#xff09;。 IP协议有哪些作用&#xff1f;…

电阻电容的选型

一、电阻选型 1.1安装方式 贴片电阻体积小&#xff0c;适用于SMT生产&#xff1b;功率小&#xff1b;易拆解插件电阻体积大&#xff1b;功率大&#xff1b;不易脱落 1.2阻值 电阻的阻值是离散的&#xff0c;其标称阻值根据精度分为E6、E12、E24、E48、E96、E192六大系列&am…

【网络安全】SRC漏洞挖掘思路/手法分享

文章目录 Tip1Tip2Tip3Tip4Tip5Tip6Tip7Tip8Tip9Tip10Tip11Tip12Tip13Tip14Tip15Tip16Tip17Tip18Tip19Tip20Tip21Tip22Tip23Tip24Tip25Tip26Tip27Tip28Tip29Tip30Tip1 “复制该主机所有 URL”:包含该主机上的所有接口等资源。 “复制此主机里的链接”:包括该主机加载的第三…

论文中pdf图片文件太大怎么办

文章目录 1.使用pdf文件的打印功能将文件导出2.操作3.前后文件大小对比 1.使用pdf文件的打印功能将文件导出 该方法在保证清晰度的同时&#xff0c;内存空间也能实现减少&#xff08;如果使用线上的压缩pdf工具&#xff0c;清晰度会直线下降&#xff09; 2.操作 点击文件—&…

力扣刷题 -- 232. 用栈实现队列

1. 题目 2. 思路分析 1&#xff09;创建两个栈空间&#xff0c;PushST&#xff0c;PopST&#xff1b; 2&#xff09;插入数据往PushST插&#xff0c;判断PopST是否为空&#xff0c;如果为空直接往PopST出数据&#xff1b;如PopST不为空&#xff0c;就先把PopST的数据先出栈&a…

结构型设计模式之Decorator(装饰器)

结构型设计模式之Decorator&#xff08;装饰器&#xff09; 前言&#xff1a; 本案例通过李四举例&#xff0c;不改变源代码的情况下 对“才艺”进行增强。 摘要&#xff1a; 摘要&#xff1a; 装饰器模式是一种结构型设计模式&#xff0c;允许动态地为对象添加功能而不改变其…

完美解决在pycharm中创建Django项目安装mysqlclient报错的问题(windows下)

正常情况下&#xff0c;在Windows安装mysqlclient会报错&#xff1a; 我这里用的是anaconda虚拟环境&#xff0c;安装前必须激活anacoda虚拟环境&#xff0c; 怎么激活虚拟环境&#xff1f;可以参考超详细的pycharmanaconda搭建python虚拟环境_pycharm anaconda环境搭建-CSDN博…

mac环境下的python、pycharm和pip安装使用

Python安装 Mac环境下的python安装 下载地址&#xff1a;https://www.jetbrains.com.cn/pycharm/ 一直点击下一步即可完成 在应用程序中会多了两个图标 IDLE 和 Python launcher IDLE支持在窗口中直接敲python命令并立即执行&#xff0c;双击即可打开 Python launcher双击打…

Spark 单机模式部署与启动

&#x1f680; Spark 单机模式部署与启动教程&#xff08;适配 Hadoop 3.1.1&#xff09; 本文记录了在 Linux 环境中部署 Spark 的完整过程&#xff0c;使用 Standalone 单机模式&#xff0c;适配 Hadoop 3.1.1&#xff0c;最终可通过 Web 页面访问 Spark Master 状态界面。 …

【数据库】安全性

数据库安全性控制的常用方法&#xff1a;用户标识和鉴定、存取控制、视图、审计、数据加密。 1.用户标识与鉴别 用户标识与鉴别(Identification & Authentication)是系统提供的最外层安全保护措施。 2.存取控制 2.1自主存取控制(简称DAC) (1)同一用户对于不同的数据对…