【AI论文】ScienceBoard:评估现实科学工作流程中的多模态自主代理

article/2025/8/26 23:18:05

摘要:大型语言模型(LLMs)的影响已经超出了自然语言处理,极大地促进了跨学科研究的发展。 最近,各种基于LLM的代理已经被开发出来,以协助科学发现跨越多个方面和领域的进步。 其中,能够像人类一样与操作系统交互的计算机使用代理正在为自动化科学问题解决和解决研究人员工作流程中的例行问题铺平道路。 认识到这些代理的变革潜力,我们引入了ScienceBoard,它包含两个互补的贡献:(i)一个逼真的多领域环境,具有动态和视觉丰富的科学工作流程,集成了专业软件,代理可以通过不同的界面自主交互,以加速复杂的研究任务和实验; 以及(ii)一个具有挑战性的基准,由人类策划的169个高质量、经过严格验证的现实任务组成,涵盖了生物化学、天文学和地理信息学等领域的科学发现工作流程。 对具有最先进骨干(例如GPT-4o、Claude 3.7、UI-TARS)的代理的广泛评估表明,尽管取得了一些有希望的结果,但它们仍然无法可靠地协助科学家完成复杂的工作流程,总体成功率仅为15%。 深入分析进一步为解决当前智能体局限性提供了有价值的见解,并提供了更有效的设计原则,为构建更有能力的智能体进行科学发现铺平了道路。 我们的代码、环境和基准测试位于 Github。Huggingface链接:Paper page,论文链接:2505.19897

研究背景和目的

研究背景

随着科学研究的不断深入和复杂化,科学家们面临着越来越多的数据处理、实验模拟和结果分析等任务。传统的科学研究方法往往依赖于科学家的个人经验和手动操作,这不仅效率低下,而且容易出错。近年来,大型语言模型(LLMs)和视觉语言模型(VLMs)的发展为自动化科学研究提供了新的可能性。这些模型能够处理自然语言、理解图像,并生成相应的文本或图像输出,从而在多个领域展现出强大的应用潜力。

特别是在计算机使用代理(Computer-Using Agents)方面,这些代理能够模拟人类与操作系统的交互,执行复杂的任务,如软件操作、数据分析和实验模拟等。然而,尽管LLMs和VLMs在多个领域取得了显著进展,但在科学发现领域,尤其是需要高度专业知识和复杂操作的科学工作流程中,这些模型的应用仍面临诸多挑战。

研究目的

本研究旨在通过引入ScienceBoard这一平台,评估多模态自主代理在现实科学工作流程中的表现。ScienceBoard是一个专门为科学发现设计的多模态环境,集成了专业软件,并提供了一个包含169个高质量、经过严格验证的现实任务的基准测试。这些任务涵盖了生物化学、天文学、地理信息学等多个科学领域,旨在全面评估代理在复杂科学研究任务中的表现。

本研究的主要目的包括:

  1. 评估现有LLMs和VLMs在科学工作流程中的性能:通过ScienceBoard平台,对现有的先进模型(如GPT-4o、Claude 3.7等)进行评估,了解它们在科学发现任务中的表现。
  2. 探索多模态输入对代理性能的影响:研究不同观察模式(如纯文本、截图、a11ytree等)对代理性能的影响,为未来代理设计提供指导。
  3. 提出改进代理性能的策略:通过深入分析代理在任务中的失败案例,提出改进策略,如分离规划和执行、增强代理的领域知识等。
  4. 推动科学发现领域的自动化进程:通过构建ScienceBoard平台,为科学发现领域的自动化研究提供基础设施和基准测试,推动该领域的进一步发展。

研究方法

ScienceBoard平台构建
  1. 环境设置:ScienceBoard平台基于Ubuntu虚拟机构建,集成了多种科学软件,如ChimeraX(用于分子结构分析)、Celestia(用于天体模拟)等。这些软件通过图形用户界面(GUI)和命令行界面(CLI)与代理进行交互。
  2. 任务设计:基准测试包含169个任务,覆盖了生物化学、天文学、地理信息学等多个领域。每个任务都经过精心设计,旨在模拟真实科学研究中的挑战。
  3. 评估指标:采用细粒度的评估方法,基于虚拟机的最终状态、I/O状态和中间步骤来评估任务的完成情况。同时,引入了人类性能作为对比基准。
代理实现与评估
  1. 代理实现:使用了多种先进的LLMs和VLMs作为代理的骨干模型,包括GPT-4o、Claude 3.7、Qwen2.5-VL等。同时,还使用了专门的GUI动作模型,如OS-Atlas-Pro-7B、UGround-V1-7B等。
  2. 观察模式:代理通过不同的观察模式感知环境,包括纯文本(a11ytree)、截图、截图+a11ytree和Set-of-Marks等。
  3. 评估过程:代理在ScienceBoard平台上执行任务,评估系统记录代理的行为并评估任务的完成情况。评估结果包括成功率、失败原因分析等。

研究结果

代理性能评估
  1. 整体成功率:实验结果显示,即使是最先进的模型(如GPT-4o和Claude 3.7),在ScienceBoard基准测试中的整体成功率也仅为15%左右。这表明现有模型在复杂科学工作流程中的表现仍然有限。
  2. 不同领域的表现:代理在代数和生物化学任务中表现相对较好,但在地理信息系统和天文学任务中表现较差。这主要是由于这些领域涉及更多的GUI交互和复杂的视觉元素,对代理的视觉理解和空间推理能力提出了更高要求。
  3. 观察模式的影响:多模态输入(如截图+a11ytree)显著提高了代理的性能。这表明结合视觉和文本信息有助于代理更好地理解任务环境和执行任务。
失败原因分析
  1. 规划与执行分离不足:许多代理在规划任务时表现良好,但在执行具体动作时出现错误。这表明分离规划和执行可能有助于提高代理的性能。
  2. 视觉理解能力有限:在涉及复杂视觉元素的任务中,代理的视觉理解能力成为瓶颈。这要求未来的代理设计需要更加注重视觉推理和空间理解能力的提升。
  3. 领域知识缺乏:代理在执行需要特定领域知识的任务时表现不佳。这表明增强代理的领域知识是提高其在科学工作流程中表现的关键。

研究局限

  1. 评估范围的局限性:尽管ScienceBoard平台涵盖了多个科学领域和多种任务类型,但仍然无法完全代表所有科学发现任务。未来的研究需要进一步扩大评估范围,以更全面地评估代理的性能。
  2. 人类性能作为基准的局限性:虽然人类性能作为对比基准提供了有价值的参考,但人类科学家在执行任务时可能受到多种因素的影响(如经验、疲劳等),这可能导致评估结果存在一定的偏差。
  3. 环境设置的局限性:ScienceBoard平台基于虚拟机构建,与真实科学研究环境仍存在一定差异。这可能影响代理在真实环境中的表现。

未来研究方向

  1. 增强代理的视觉理解和空间推理能力:未来的研究应致力于提升代理在复杂视觉环境中的理解和推理能力,以更好地应对涉及GUI交互和复杂视觉元素的任务。
  2. 融合领域知识:通过引入领域知识库或构建专门的领域模型,增强代理在特定领域的知识和理解能力。这将有助于代理更准确地执行需要特定领域知识的任务。
  3. 探索新的代理架构和算法:尝试采用新的代理架构和算法,如强化学习、迁移学习等,以提高代理在复杂任务中的适应性和性能。
  4. 推动科学发现领域的自动化进程:通过构建更加完善和高效的评估平台和基准测试,推动科学发现领域的自动化进程。这将有助于减轻科学家的工作负担,提高科学研究的效率和质量。

总之,本研究通过引入ScienceBoard平台,对多模态自主代理在现实科学工作流程中的表现进行了全面评估。实验结果表明,尽管现有模型在简单任务中表现出色,但在复杂科学工作流程中仍面临诸多挑战。未来的研究应致力于提升代理的视觉理解、空间推理和领域知识融合能力,以推动科学发现领域的自动化进程。


http://www.hkcw.cn/article/sKowvfQSae.shtml

相关文章

2025年公共管理与信息技术国际会议:智能治理与数据驱动的创新之路

会议简介 第二届公共管理与信息技术国际会议即将盛大启幕。作为全球公共管理领域内的一次重要学术盛会,本届会议将聚集世界各地的政府官员、专家学者、行业精英以及技术开发者,共同探讨信息技术如何赋能公共管理,推动社会治理现代化。 本次会…

动态规划法在解决实际问题中的应用

实际上,我们可以从根结点出发,深度优先搜索这棵二叉树。对于每棵子树,其子树元素和等于子树根结点的元素值,加上左子树的元素和,以及右子树的元素和。 每个房子可以被粉刷成三种颜色中的一种,需要计算在满…

尝鲜纯血鸿蒙,华为国际版本暂时不支持升级。如mateX6 国际版?为什么不支持?什么时候支持?

一:mateX6 国际版支持鸿蒙吗? 不支持 二:华为国际版支持鸿蒙吗? 不支持 三:华为国际版什么时候支持? 2025年预期可以支持。请耐心等待。 三:国际版为什么不支持? EMUI 采用AO…

足迹地图:记录旅程,点亮世界

旅行,是探索世界的脚步,也是心灵的归宿。每一次的出发与归来,都承载着无数的回忆与故事。而足迹地图这款旅行记录软件,就像一位忠实的旅伴,陪伴着你记录下每一段旅程,将你的足迹点亮在世界的地图上&#xf…

Qt 读取和写入 INI 格式的配置文件

Qt 读取和写入 INI 格式的配置文件 前言:INI 配置文件在 Qt 开发中的重要性基础夯实:INI 文件结构与 QSettings 核心概念1. INI 文件的基本结构2. QSettings 类概述3. 初始化 QSettings 对象4. 基本读写操作5. 高级操作技巧5.1 处理数组和列表5.2 检查键…

计算机网络之差错控制中的 CRC(循环冗余校验码)

文章目录 1 概述1.1 简介1.2 特点1.3 基本原则 2 实现步骤3 例题 1 概述 修改中,请稍等。。。 1.1 简介 CRC:Cyclic Redundancy Check(循环冗余校验)是计算机网络中常用的一种差错控制编码方法,用于检测数据传输或存…

VLC-QT 网页播放RTSP

先看效果图,代码在文章末尾,包含源码,vlc-qt完整的库 环境说明:VS 2017 QTQt5.13.0 MSVC2017 32位 将vlc_install 目录下的bin,include,lib里所有的东西分别放在qt目录下 bin -> C:\Qt\Qt5.13.0\5.13.0\msvc2017\bin include->C:\Qt\Qt5.13.0\5.13.0\msvc201…

塔能科技:为多行业工厂量身定制精准节能方案

在当今追求可持续发展的时代,工厂能耗精准节能成为众多企业关注的焦点。塔能科技凭借先进的技术和丰富的经验,服务于广泛的行业客户,其中55.5%来自世界500强和上市公司。针对不同行业工厂的特点和需求,塔能提供了一系列行之有效的…

Qt font + ToolTip + focusPolicy + styleSheet属性(5)

文章目录 font属性API接口直接在Qt Designer编辑图形化界面通过纯代码的方式修改文字属性 ToolTip属性API接口代码演示 focusPolicy属性概念理解API接口通过编辑图形化界面演示 styleSheet属性概念理解通过编辑图形化界面展示代码 图形化界面的方式展示(夜间/日间模…

lwip_setsockopt设置地址复用出错(lwip默认不打开,lwip_bindu也会提示端口被占用)

/* 3. 设置地址复用 */ flags lwip_setsockopt(new_sockfd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt)); if (flags < 0) {NET_DEBUG_PRINT("[NET] SO_REUSEADDR failed: %s\n", strerror(errno));int opt_err errno;// 详细错误分析switch(opt_err) {c…

力扣面试150题--二叉树的右视图

Day 53 题目描述 思路 采取层序遍历&#xff0c;利用一个high的队列来保存每个节点的高度&#xff0c;highb和y记录上一个节点的高度和节点&#xff0c;在队列中&#xff0c;如果队列中顶部元素的高度大于上一个节点的高度&#xff0c;说明上一个节点就是上一层中最右边的元素…

Powerbuilder 连接达梦数据库(ODBC 和 JDBC)

一、ODBC PB只支持32位驱动&#xff0c;可以同时安装64和32位驱动&#xff0c;分别下载64和32位安装包安装 1、选择DMB ODBC DRIVER驱动 2、不描述&#xff0c;看图输信息即可 3、连接代码 SQLCA.DBMS "ODBC" SQLCA.AutoCommit False SQLCA.DBParm "Conne…

美化显示GDB调试的数据结构

笔者在前面的博文记一次pdf转Word的技术经历中有使用到mupdf库&#xff0c;该库是使用C语言写的一个操作PDF文件的库&#xff0c;同时提供了Python接口&#xff0c;Java接口和JavaScript接口。 在使用该库时&#xff0c;如果想要更高的性能&#xff0c;使用C语言接口是不二的选…

从融智学视角对决策态度进行定理级提炼,结合三标准数学建模

摘要&#xff1a;本文从融智学视角提出"决策态度定理"&#xff0c;构建了态度三要素&#xff08;化繁为简、迎难而上、乐在其中&#xff09;的数学模型。定理将人生轨迹表述为复平面路径积分&#xff1a;命运∫[态度⊗选择]dt&#xff0c;证明三要素协同作用可使决策…

秋招Day11 - JVM - 类加载机制

了解类的加载机制吗&#xff1f; JVM是运行Java字节码&#xff0c;也就是运行.class文件的虚拟机&#xff0c;JVM把.class文件中描述类的数据结构加载到内存中&#xff0c;并对数据进行校验&#xff0c;解析和初始化&#xff0c;最终转化为JVM可以使用的类型&#xff08;Klass…

纵览网丨病毒学领域的 AI 变局:机遇、隐忧与监管之路

纵览网&#xff08;www.zonglan.com&#xff09;人工智能AI正在各个领域高歌猛进&#xff0c;特别是在病毒学领域。最近在一项病毒学诊断的研究测试中&#xff0c;有着天才水平称号的OpenAI的o3模型&#xff0c;平均得分已经能够达到43.8%&#xff0c;而拥有学位的人类病毒博士…

从实验室到商用!铁电液晶如何改写显示技术格局?

一、显示技术瓶颈&#xff1a;传统液晶的「成长烦恼」 在 VR 游戏中&#xff0c;快速转动头部时画面拖影让人眩晕&#xff1b;高端投影在强光下画质模糊&#xff1b;医用显示器难以呈现 CT 影像的细微层次…… 这些困扰背后&#xff0c;是传统液晶技术在刷新率、分辨率和环境适…

电网中三相不平衡治理的全面解析

在现代电力系统中&#xff0c;三相平衡是保障电网高效、稳定运行的关键要素。然而&#xff0c;三相不平衡现象却时有发生&#xff0c;给电网的可靠供电和用电设备的安全运行带来诸多挑战。深入了解三相不平衡治理的相关知识&#xff0c;对于提升电网运行水平、保障电力供应质量…

2023年6级第一套长篇阅读

画名词概念&#xff0c;动词概念 多处定位原词加同义改写 画关键词&#xff0c;多处定位直接就可以选A了 没有定位的句子先比没匹配到的段落&#xff0c;再匹配长的段落先易后难

Opencv实用操作5 图像腐蚀膨胀

相关函数 腐蚀函数 img1_erosion cv2.erode(img1,kernel,iterations1) &#xff08;图片&#xff0c;卷积核&#xff0c;次数&#xff09; 膨胀函数 img_dilate cv2.dilate(img2,kernel1,iterations1) &#xff08;图片&#xff0c;卷积核&#xff0c;次数&#xff09;…