【香港科大+华为诺亚方舟】Web Reconstruction方法:从原始网页文档合成高质量指令遵循数据,效果显著,代码开源

article/2025/7/14 8:56:25

论文名称:Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction

论文链接:https://arxiv.org/abs/2504.15573

机构:香港科技大学 + 华为诺亚方舟实验室

Github代码链接:https://github.com/YJiangcm/WebR

个人文章索引:【LLM Instruction Following Data】论文分享No.18: Web Reconstruction

简介

这篇论文其实挺有意思的,它是从原始网页文档里面合成高质量的指令遵循数据,主要是从通用、数学以及代码三个领域采样原始网页的文档,与10个业界开源的指令遵循数据集相比,训练后的效果非常好,所以值得一看。

Data Pipeline(Web Reconstruction)

业界方法对比

在这里插入图片描述

图1展示了三种数据合成方法的流程:

  • 半自动化合成方法(Semi-Automated Synthetic Methods)

① 首先是由人(图中带灯泡标识的小人 )生成种子数据(图中的小数据库图标 )。

② 然后将这些种子数据输入到LLM中。

③ 最终得到中等质量(Mid-quality,图中的中等大小数据库图标 )的数据。

  • 全自动合成方法(Prior Fully Automated Synthetic Methods)

① 先获取网页文档(Web Doc,图中的带地球标识的文档图标 )。

② 接着对网页文档进行过滤(Filtering,图中的漏斗图标 )操作。

③ 再把过滤后的数据输入到LLM中。

④ 最后得到低质量(Low-quality,图中的小数据库图标 )的数据。

  • 本文的网页重构方法(Our Proposed Web Reconstruction)

① 先获取网页文档(Web Doc )。

② 利用“Web as Instruction”和“Web as Response”(图中虚框内内容 )这两个核心策略对网页文档进行处理。

然后输入到LLM中。

③ 最终得到高质量(High - quality,图中的大数据库图标 )的数据。

框架概述

在这里插入图片描述

图2展示了Web Reconstruction(WebR)框架中“Web as Instruction”和“Web as Response” 两个核心策略的流程:

  • Web as Instruction(图中左侧粉色区域 )

① 获取原始网页内容:从像Wikipedia、Free Law Project等来源获取原始网页(Raw Web )内容。

② 生成重写指令:给出一个重写指令(Rewrite Instruction ),比如要求把原始网页文本浓缩成200字左右,先概述再列关键目标,用清晰标题确保可读性,语气专业。

③ 生成初步响应:LLM根据原始网页内容和重写指令,生成初步响应(Rollout Response ),像这里就生成了包含研究子组概述和关键目标等内容,还分了标题。

这个策略的作用是引导模型学会按要求重组、优化网页信息,提升指令遵循、上下文理解和推理的能力 。

  • Web as Response(图中右侧蓝色区域 )

① 获取原始网页内容及对应指令:同样先有原始网页(Raw Web )内容,然后给出与网页对应的指令(Instruction Corresponding to the Web ),例如问英国大麻和大麻二酚(CBD)领域研究子组的主要目标和重点领域是什么。

② 生成初步回复:LLM基于原始网页内容和指令,生成初步回复(Rollout Response ) ,列出研究子组关注的关键目标和领域。

③ 优化回复:再将原始网页内容和指令提供给LLM,让它对初步回复进行优化,得到精炼回复(Refined Response ) ,使内容更完善、准确。

这个策略的作用是引导模型生成高质量响应的能力 。

数据构建细节

主要有以下几个方面:

① 文档采样

从三个有代表性的领域采样原始网页文档,通用领域(英文Common Crawl子集)占70% ,数学领域(OpenWebMath)占15% ,代码领域(GitHub)占15% 。

② 策略采用

采用受启发于前人研究的角色驱动指令合成策略,先让LLM为原始网页文档生成角色(类似System Prompt的Role Definition),指引后续Web Reconstruction过程的指令合成。

③ 比例设定

依据消融实验结果,设定“Web as Instruction”与“Web as Response”比例为2:1 。

因为如果比例不合适,可能导致模型在某些能力训练上有偏差,比如一种策略生成的数据过多,模型就可能过度擅长某类任务,而在另一类任务上表现不佳 。

④ 去重处理

运用基于n-gram特征的MinHash去重方法,将签名大小设为128,相似度阈值设为0.7 ,提升多样性、消除冗余,最终合成100000对指令-响应对。

⑤ 模型构建

用开源Llama3-70B-Instruct和专有GPT-4o-mini两个LLM构建数据集WebR-Basic和WebR-Pro ,并给出模型使用的temperature和top-p参数等。

实验结果

Baseline

  • 人工制作数据:如 ShareGPT和 WildChat,分别包含 112K 和 652K 高质量的人与 GPT 之间的多轮对话。

  • 半自动化合成数据:以 Alpaca和为代表,是通过半自动化技术生成的广泛使用的合成数据集。

  • 混合数据:像 Tulu V2 Mix和 Open-Hermes 2.5,是众包数据集,分别包含 326K 和 1M 对话,聚合了各种开源 IT 数据集。

  • 完全自动化合成数据:例如 Magpie,通过 Llama3-70B-Instruct 的聊天模板合成 IT 数据,从中采样 100k 示例。

评价指标

  • AlpacaEval 2:报告长度控制胜率(LC),确保模型不受冗长内容影响,具有稳健性。

  • Arena-Hard:报告相对于基线模型的胜率(WR)。

  • MT-Bench:使用 GPT-4-turbo 作为评估裁判,提供平均分数。

  • IFEval:报告两个指标,即提示级严格准确率(Pr. (S))和指令级严格准确率(Ins. (S))。

关键结论

①【表1】对Llama3-8B-base进行微调时,WebR生成的数据集(WebR-Basic、WebR-Pro)表现出色,WebR-Basic完全无需人工创建且显著超越SOTA的Magpie数据集(平均提升16.65%),WebR-Pro在相同响应生成器下分别比IT Mix和Magpie高出7.73%和12.55%,同时将IT Mix和WebR-Pro以两种策略合并后性能进一步提升,验证了WebR生成数据集的高质量和在提升指令跟随性能方面的优势。

在这里插入图片描述

②【表2】在多个领域(知识、推理、数学、代码)的下游任务中(以MMLU、ARC、WinoGrande、MATH、HumanEval等为代表),基于WebR数据集微调的模型性能超过了基于其他基线数据集训练的模型,验证了WebR数据集在提高模型泛化能力方面的有效性,且WebR-Pro与IT Mix结合进一步体现了WebR数据在使模型符合复杂任务要求方面的互补优势。

在这里插入图片描述

③【表3】去除角色信息、使用全网页内容、跳过优化步骤、取消去重均导致性能下降;“Web as Instruction”与“Web as Response”不同比例各有优势,2:1时整体性能最佳

在这里插入图片描述

总结

本文的方法整体上最大的优势是,不挑数据源,是直接从网页上取材数据,由于篇幅有限,没有看到太多处理网页脏数据的细节,不过还好开源了代码,值得一试。


http://www.hkcw.cn/article/RVcsKxiUaG.shtml

相关文章

星际巡航-第16届蓝桥第6次STEMA测评Scratch真题第4题

[导读]:超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成,后续会不定期解读蓝桥真题,这是Scratch蓝桥真题解析第233讲。 第16届蓝桥第6次STEMA测评已于2025年4月13日落下帷幕,编程题一共有5题(初级组只有前4道编…

C++17新特性 类型推导

在传统C和C中,参数的类型都必须明确定义,这其实对我们快速进行编码没有任何帮助,尤 其是当我们面对一大堆复杂的模板类型时,必须明确的指出变量的类型才能进行后续的编码,这不仅拖 慢我们的开发效率,也让代…

leetcode 2359. 找到离给定两个节点最近的节点

给你一个 n 个节点的 有向图 ,节点编号为 0 到 n - 1 ,每个节点 至多 有一条出边。 有向图用大小为 n 下标从 0 开始的数组 edges 表示,表示节点 i 有一条有向边指向 edges[i] 。如果节点 i 没有出边,那么 edges[i] -1 。 同时…

Qt creator 设计页面控件认识与了解

记录一下 Qt 中的认识与了解: 在 Qt 中,这些功能属于 Qt Designer 的组件过滤系统,旨在帮助开发者在对象浏览器中快速定位和使用不同类型的控件和组件。以下是每个功能的详细讲解: ‌Layouts(布局)‌&…

[网页五子棋][对战模块]前后端交互接口(建立连接、连接响应、落子请求/响应),客户端开发(实现棋盘/棋子绘制)

文章目录 约定前后端交互接口建立连接建立连接响应针对"落子"的请求和响应 客户端开发实现棋盘/棋子绘制部分逻辑解释 约定前后端交互接口 对战模块和匹配模块使用的是两套逻辑,使用不同的 websocket 的路径进行处理,做到更好的耦合 建立连接 …

Redisson学习专栏(三):高级特性与实战(Spring/Spring Boot 集成,响应式编程,分布式服务,性能优化)

文章目录 前言一、Spring Boot深度整合实战1.1 分布式缓存管理1.2 声明式缓存1.3 响应式编程 二、分布式服务治理2.1 服务端实现2.2 客户端调用2.3 高级特性2.4 服务治理功能 三、分布式任务调度引擎四、连接池配置与网络参数调优4.1 连接池配置4.2 网络参数调优4.3 集群模式特…

行程规划:智能规划,轻松旅行

在旅行中,一个好的行程规划是成功旅行的关键。它不仅能帮助你合理安排时间,还能让你的旅行更加经济、高效。成都为普云科技有限公司推出的“行程规划”APP,就是这样一个贴心的旅行助手。它不仅能让你自由记录旅游路线,还能实时记账…

动态报表筛选多项时的优化处理

如图所示 在有比较麻烦且数量比较的动态筛选条件时,就可以单独用一个页面,来囊括所有的参数选项,依次把从接口那得到的筛选列表按id来成数组,依次判断返回赋即可,非常方便

PSpice软件快速入门系列--07.如何进行Worst Case最坏情况分析

背景介绍:由于电路特性受电路中不同元器件的影响程度不同,当电路中不同元器件分别变化时,即使元器件值的变化相同,但电路特性变化的绝对值不会相同,而且其变化的方向也可能不同。PSpice提供了最坏情况分析,…

从收货到上架,海外仓系统如何智能优化入库管理?

在全球电商交易蓬勃发展的当下,跨境电商市场规模持续扩大,海外仓的重要性愈发凸显。其中高效、精准的入库管理,不仅是提升海外仓运营效率的关键,更是赢得客户信任、增强市场竞争力的核心要素。然而,传统的入库模式往往…

特朗普称美国汽车制造商“必须在国内生产整车”

当地时间5月30日,美国总统特朗普表示,包括特斯拉在内的美国汽车制造商必须在美国生产整车和所有零部件,而不是在国外生产。特朗普表示,之前汽车制造商在加拿大、墨西哥、欧洲生产零部件,这让他很困扰,但在接下来的一年里,这些汽车制造商“必须在美国生产整车”。(总台记…

特朗普称6月4日起把进口钢铁关税提高至50%

当地时间5月30日,美国总统特朗普在宾夕法尼亚州举行的一场集会上表示,将把进口钢铁的关税从25%提高至50%。随后,特朗普在社交媒体平台上发文表示,该决定从自6月4日起生效。美国白宫当天在社交媒体上发布公告称,“为进一步保护美国钢铁行业免受外国和不公平竞争的影响,从下…

官方通报:跳至兵马俑三号坑男子已被控制

造成两尊铠甲武士俑损坏 官方通报跳至兵马俑三号坑男子已被控制陕西省西安市公安局临潼分局今日发布警情通报,跳至兵马俑三号坑男子已被公安机关控制。2025年5月30日17时30分许,孙某(男,30岁)进入兵马俑景区参观时,翻越遗址坑护栏及防护网跳至三号坑内推拉陶俑,造成两尊…

【速通RAG实战:进阶】21、取长补短:LangChain与LlamaIndex等RAG框架的企业级融合实践

一、RAG框架的现状与核心挑战 (一)主流框架的优势与局限 LangChain、LlamaIndex等RAG框架已成为构建智能问答系统的基础设施,但在企业级落地中暴露出以下矛盾: 灵活性与专业性的冲突:LangChain的模块化设计支持复杂工作流,但对垂直领域(如医疗、金融)的深度优化不足;…

宝塔部署 Vue + NestJS 全栈项目

这里写自定义目录标题 前言一、Node.js版本管理器1、安装2、配置 二、NestJS项目管理(等同Node项目)1、Git安装2、拉取项目代码3、无法自动认证4、添加Node项目5、配置防火墙(两道) 三、Vue项目管理1、项目上传2、Nginx安装3、配置…

MES系统:助力企业数字化转型

MES管理系统是一个高效、灵活的生产管理系统,能够帮助企业提高生产效率和产品质量,从而获得更大的商业价值。如果你是一家制造企业,那么MES管理系统是你不能错过的重要工具。 一、MES系统核心功能大揭秘: 1、计划管理&#xff1a…

当客服遇见大模型:知识管理智能化转型

数字化转型浪潮下,客服中心作为企业服务前沿阵地,正经历一场深刻变革。面对日益多元、个性化的客户需求,传统依赖人工维护的知识管理体系已难以为继。AI大模型的崛起,为客服中心开辟了新赛道——这不仅是技术迭代,更是…

[NOIP 2001 普及组] 求先序排列 Java

import java.util.*;public class Main {public static void main(String[] args) {Scanner sc new Scanner(System.in);String infixOrder sc.nextLine(); // 中序String postOrder sc.nextLine(); // 后序sc.close();System.out.println(preOrder(infixOrder, postOrder))…

可蓝牙通信、光电隔离型RS-485集线器——DAM-3222

产品概述 DAM-3222是一款防各类浪涌设计光电隔离型RS-485集线器,集成2路RS485路主机和1路RS485从机接口。支持有线串口连接电脑上位机配置,还支持蓝牙通信,手机蓝牙可通过微信小程序进行参数配置,在安装现场也可以轻松通过手机修…

数据结构 --链表

前言 今天把链表重新用c写了一遍,首先单纯的写一个链表并不困难,无非是定义一个结构体ListNode,设置变量data和下一个指针的地址next,然后完成增删查改的操作,需要注意的是在删除节点的时候记得先保存当前需要删除的节…