【LLM 指令遵循】论文分享:ULTRAIF

article/2025/7/15 8:19:05

论文名称:UltraIF: Advancing Instruction Following from the Wild

论文链接:https://arxiv.org/abs/2502.04153

机构:上海AI Lab + 北大 + 清华

Github代码链接:https://github.com/kkk-an/UltraIF

数据集链接:https://huggingface.co/collections/bambisheng/ultraif-series-67ee75a6042e8ba3e97d0b25

简介

如何构造有效的高质量指令遵循数据来提升LLM在这方面的能力,在业界是一个非常重要的研究方向,但之前很少有工作详细介绍并开源指令遵循数据的构造方法。

本文就提出了ULTRAIF方法,通过两阶段过程合成高质量指令遵循数据集,并通过实验证明了其数据构造框架的有效性,值得一看。

Data Pipeline(ULTRAIF)

框架概述

在这里插入图片描述

图2展示了ULTRAIF方法里两个关键流程:UltraComposer和Generate-then-Evaluate ,具体如下:

  • UltraComposer部分

① 指令分解与评估问题生成(图a):比如有个指令“用莎士比亚的风格,给我推荐十本中国书籍”。这一步会把它拆解成“简化指令”和“约束条件” 。简化指令就是“给我推荐十本中国书籍” ,约束条件是“用莎士比亚的风格” 。同时还会生成一个评估问题,像“回答是用莎士比亚的风格写的吗?” 。

② UltraComposer训练(图b):把前面得到的简化指令作为输入,让UltraComposer这个模型去学习输出原始指令和对应的评估问题 ,通过这样的训练让它掌握这种转换能力。

  • Generate-then-Evaluate部分

① 指令生成(图c):从ShareGPT等来源获取基础指令(Vanilla Ins. ),然后用训练好的UltraComposer对这些基础指令进行加工处理,生成新的指令。

② 响应评估(图d):让LLM根据生成的指令给出回答(Responses) ,之后再用LLM对这些回答进行评估,判断回答是否符合要求,符合的就选中(Chosen) ,不符合的就拒绝(Rejected) 。

UltraComposer

UltraComposer这一步主要是为生成多样复杂且回答正确的指令而提出的专门模型 ,还是以图2里面莎士比亚的例子作说明,构建分三步:

  • 指令分解(Instruction Decomposition)

比如一开始收到一个指令 “用莎士比亚的风格,给我推荐十本中国书籍” 。UltraComposer 要做的第一步是把这个指令拆解。就像把一个大任务拆成小任务,它会把这个指令拆成 “简化指令” 和 “约束条件” 。简化指令就是 “给我推荐十本中国书籍” ,这是最核心的任务;约束条件是 “用莎士比亚的风格” ,这是对完成任务的要求 。

在这里插入图片描述

  • 评估问题生成(Evaluation Question Generation)

然后,它还要生成一个评估问题。就好比你布置任务后,得有个标准检查做得对不对。对于上面这个例子,评估问题就是 “回答是用莎士比亚的风格写的吗?” 。

  • UltraComposer训练(UltraComposer Training)

最后,通过这些拆解后的东西去训练 UltraComposer 这个模型,让它学会看到 “给我推荐十本中国书籍” 这样的简化指令,就能输出原始指令 “用莎士比亚的风格,给我推荐十本中国书籍” ,以及对应的评估问题 “回答是用莎士比亚的风格写的吗?” 。

在这里插入图片描述

Generate-then-Evaluate

Generate-then-Evaluate是ULTRAIF中高效生成高质量指令遵循数据的过程,含指令生成和响应评估两部分:

  • 指令生成(Instrucion Generation)

先从已有的数据集里找一些像 “给我推荐十本中国书籍” 这样的基础指令 。然后让 UltraComposer 上场,给这些基础指令加约束条件,比如加上 “用莎士比亚的风格” ,把简单指令变成更复杂的指令,同时还会生成评估问题 。

在这里插入图片描述

  • 响应评估(Response Evaluation)

接着,让LLM根据加了约束条件后的指令,像 “用莎士比亚的风格,给我推荐十本中国书籍” ,给出好几个回答。再用之前生成的评估问题 “回答是用莎士比亚的风格写的吗?” ,去检查这些回答。符合要求的回答就留下,不符合的就扔掉。这样就能得到高质量的指令遵循QA对数据了 。

训练策略

SFT

对数据集 D _ d a t a D\_{data} D_data进行标准的SFT,其中 x ‾ \overline{x} x是增强后的指令, y _ c y\_{c} y_c是相应的选中回答。

在这里插入图片描述

SFT + Iterative Online DPO

由于ULTRAIF有评估问题,便于质量控制,所以适合应用直接偏好优化(DPO)来优化微调后的模型。

在这里插入图片描述

实验结果

数据集

① ShareGPT:含有大量用户与 GPT-4 的聊天记录,研究人员从中分解出约 200K 数据对,这些数据主要用于训练 UltraComposer。

② OpenHermes2.5:大规模、多样化且高质量的合成指令和聊天样本集。

③ No Robots:专业人员标注的高质量指令和演示数据集

期间生成评估问题所用的模型是LLaMA-3.1-70B-Instruct 。

训练设置

先对 LLaMA-3.1-8B-Instruct 进行微调以构建 UltraComposer。之后探索两种设置来实施训练策略:

① Strong-to-Weak:即从较大模型(LLaMA-3.1-70B-Instruct)向较小模型(LLaMA-3.1-8B-Base)进行知识蒸馏,用大模型做响应生成和评估,训练小模型。

② Self-Alignment:用 LLaMA-3.1-8B-Instruct 替换监督模型来训练 Base 模型。

评估基准

在五个指令遵循基准测试上评估 ULTRAIF,包括 IFEval、Multi-IF、InfoBench、FollowBench 和 LiveBench。

除了指令跟随基准测试,还进一步测试 ULTRAIF 在数学、推理、编码和一般交互能力等方面的通用能力。

关键结论

①【表1】在五个指令跟随基准测试中,ULTRAIF在Strong-to-Weak和Self-Alignment设置下,通过不同训练策略(SFT、迭代DPO等)均展现出优异性能,超过先前方法,迭代DPO能有效提升性能,且扩大训练数据规模可使ULTRAIF达到新的里程碑,逼近LLaMA-3.1-8B-Instruct的性能。

在这里插入图片描述

②【表2】在编码、推理、数学和对话四个通用领域的评估中,ULTRAIF虽在数学领域表现略逊于AutoIF,但在编码和对话任务上有显著提升,扩大训练数据规模和经过DPO阶段能提升其性能,在LiveBench基准测试和ArenaHard对话任务上优势明显,表明该方法有助于开发更通用、更具多任务处理能力的模型。

在这里插入图片描述

论文中还有更多实验结果,不一一赘述了,主要看数据的构建思路。

总结

这篇文章的构造思路还是值得一试的,但如果要应用到企业特定领域内,还需要做不少改造,比如指令遵循的数据源就得从线上选了,以及一个问题可能不止有一个简化指令以及评估问题,怎么提升这一步的效果是最关键的。


http://www.hkcw.cn/article/exWDgcJaEG.shtml

相关文章

Ruoyi AI 部署指南:从环境搭建到项目运行

目录 一、项目概述 二、环境准备 1. Java 开发环境 2. 数据库 3. 缓存系统 4. 构建工具 5. 前端工具 三、后端项目部署 1. 下载项目 2. 导入项目 安装jdk17后没有jre ​编辑 3. 配置 Maven 4. 初始化数据库 5. 启动 Redis 6. 启动项目 四、前端项目部署 1. 管…

凹凸工坊_AI手写模拟器|可打印的手写稿|免抄写的工具,抄写罚抄神器,一键生成手写文稿,模仿手写软件,在线手写字体转换器,手写模拟器APP下载,打印出以假乱真的模拟手写文档,模拟抄写软件

推荐这个非常好用的免费 ai 手写模拟器网站🔍「凹凸工坊-手写转换」 地址:凹凸工坊_凹凸工坊-手写转换官网入口_一键生成手写文稿_手写模拟器_手写字体在线转换_在线字体制作_手写APP下载_模仿手写软件_AI手写字体生成_手写字体生成器_字体下载https://…

芝士ai系统,宝藏的论文查重降重经验!

完成一篇论文的辛苦工作后,面对高查重率无疑是令人沮丧的。但不必担忧,芝士AI降重工具可以助你一臂之力。本文将探讨芝士AI如何帮助学者们有效降低查重率,确保论文的原创性和学术价值。让我们一起看看芝士AI如何让学术写作变得更轻松。 芝士…

IDEA + DeepSeek 实现 AI辅助编程,提升效率10倍(全网超详细的终极图文实战指南)

前言 在软件开发的世界里,每个开发者都经历过这样的困境——在重复的CRUD代码中机械劳动,为复杂的业务逻辑调试数小时,或是在海量文档中寻找某个API的正确用法。传统的IDE工具虽能提供基础支持,却难以突破效率的“玻璃天花板”。而…

开启智慧之旅,AI与机器学习驱动的微服务设计模式探索

​🌈 个人主页:danci_ 🔥 系列专栏:《设计模式》 💪🏻 制定明确可量化的目标,坚持默默的做事。 🚀 转载自热榜文章🔥:探索设计模式的魅力:开启智慧之旅,AI与机器学习驱动的微服务设计模式探索(2024年04月21日 22:26:05目前全站综合热榜第三) ✨欢迎加入探索A…

探索GpuGeek:AI开发者与中小企业的算力宝藏平台

摘要:GpuGeek 作为面向 AI 开发者和中小企业的 AI 赋能平台,在 AI 时代具有重要意义。它提供丰富算力资源、多元框架工具等,涵盖深度学习项目、大模型研究等多方面,助力用户应对算力挑战,推动 AI 技术普及应用&#xf…

迁移学习:解锁AI高效学习与泛化能力的密钥

前言 在人工智能(AI)技术日新月异的今天,迁移学习(Transfer Learning)作为一项革命性技术,正深刻改变着机器学习领域的格局。 它不仅让模型能够像人类一样“举一反三”,更在加速模型开发、提升性…

王者归来!谷歌Gemini 2.5 Pro横扫全球AI榜单,国内用户终于可直接体验“最强大脑“

🌟 嗨,我是Lethehong!🌟 🌍 立志在坚不欲说,成功在久不在速🌍 🚀 欢迎关注:👍点赞⬆️留言收藏🚀 🍀欢迎使用:小智初学计…

AI图像编辑器 Luminar Neo 便携版 Win1.24.0.14794

如果你对图像编辑有兴趣,但又不想花费太多时间学习复杂的软件操作,那么 Luminar Neo 可能就是你要找的完美工具。作为一款基于AI技术的创意图像编辑器,Luminar Neo简化了复杂的编辑流程,即使是没有任何图像处理经验的新手&#xf…

win11系统安装踩坑笔记 u盘安装 2025

目录 试验1 系统之家下载的ghost,安装ok,不知道用户名密码 试验2 u盘安装 ok 试验3 硬盘安装 第1步,还在刚才网址上选择下载iso, 第2步,然后选择简体中文,然后会开始下载iso。 第3步,下载…

郑钦文:会拼到最后一刻 再战萨巴伦卡备受关注

北京时间6月2日凌晨,法网女单第四轮上半区四场比赛结束后,部分八强赛对阵揭晓。中国选手郑钦文将与世界第一萨巴伦卡交手,这是两人时隔半月后的再次对决,备受瞩目。郑钦文职业生涯首次打进法网女单八强。今年在澳网、迈阿密站、马德里站和罗马站等比赛中,郑钦文多次与萨巴…

乌宣称命中41架俄军机 俄方怎么说 筹备一年半行动

6月1日,乌克兰对俄罗斯境内多处军事设施发动无人机袭击。乌克兰国家安全局网站于2日下午发表声明,确认策划了代号为“蛛网”的特别行动,并声称击中包括A-50预警机、图-95轰炸机、图-22M3轰炸机和图-160轰炸机在内的41架俄军飞机。乌克兰国家安全局局长瓦西里马柳克表示,摧毁…

深圳北一无人认领行李箱内有87万现金 20分钟物归原主

端午假期期间,深圳北站迎来客流高峰,单日发送和到达旅客突破50万人次。在这繁忙的出行场景中,一个装有87万元现金的行李箱与主人意外分离。铁路工作人员迅速反应,仅用20分钟就让这笔巨款物归原主。在深圳北站服务台,两名失主与值班站长刘慧一同清点行李箱里的现金。5月31日…

苏超让常州火出圈了 赛事带动文旅消费

江苏省城市足球联赛在这个假期引起了广泛关注,甚至一度冲上热搜。网友们戏称这项赛事为“苏超”,不仅因为比赛精彩纷呈,还因为它带动了文旅消费,促进了城市间的交流。在南京市五台山体育馆举行的第三轮收官战中,南京主场对阵无锡的比赛吸引了15000余名球迷进场观赛。尽管下…

地磁暴带来哪些影响?卫星导航误差可能增大 北部有机会出现极光 太阳爆发耀斑引发

中国气象局国家空间天气监测预警中心报告,北京时间5月31日太阳爆发耀斑。地球可能连续三天发生地磁暴,我国北部有机会出现较为明显的极光。5月31日7点45分左右,太阳活动区14100开始爆发耀斑,软X射线流量快速上升,8点05分达到峰值——M8.1级中等耀斑强度。伴随耀斑的发生还…

没人告诉我在人间这么好看啊 观众口碑两极分化

《在人间》播出后,微博上出现了不少负面评价。很多观众表示“看不懂”、“难看”,也有一些人制作了解读视频。作为看完三集的普通观众,我非常理解给这部剧差评的人,因为第一集就让我想弃剧。赵丽颖在这部剧中饰演贾小朵,但她的演技没有达到观众的期待。她在第一集中的表现…

偶遇章子怡和儿女公园过六一 陪伴是最好的礼物

“妈妈,今天我可以摸它吗?”一个小女孩这样问,旁边的妈妈点了点头。你可能会惊讶地侧目,但当你看清那位妈妈是章子怡时,大概率会陷入沉思。六一儿童节那天,国际影后章子怡素颜、戴头巾,带着女儿醒醒和儿子去看爬行动物、喂天鹅、玩Labubu。比起荧幕上的气场全开,生活中…

贾静雯自曝三位亲人患癌 抗癌路上的坚强与希望

贾静雯出席了一场乳腺癌公益活动,并透露家中有三位家人患癌,其中包括她的弟媳病情恶化。在活动现场,她鼓励病友们勇敢面对疾病。贾静雯提到,她和母亲以及丈夫修杰楷最近进行了健康检查,结果一切正常,这让她感到轻松愉快。她强调,每年都会进行体检,每三年还会做一次肠胃…

张雪峰自曝可能告别直播 透露行业秘密遭阻力

近日,张旭峰在直播中多次提到做这一行的不易。他形容这种不易就像走钢丝,稍有不慎就会跌入谷底,粉身碎骨。他感谢大家多年来的陪伴,并表示遇到了前所未有的阻力,这次直播可能是他在网上最后一次露面。不过他也提到,如果幸运的话,可能会在8月1日再次与大家见面直播。高考…

“日本7月5日末日论”疯传 专家解读 谣言影响旅游业

最近,一则关于“日本7月5日将发生毁灭性大地震,三分之一的国土都将消失”的预言在社交平台上广泛传播,相关话题视频数量已突破1400个,总观看量超过1亿次,导致部分外国游客取消了赴日行程。该预言最早源自漫画家竜树谅的作品。她在采访中表示,她以客观立场看待此事,并呼吁…