【AGI】Qwen3混合推理模型微调数据集

article/2025/6/10 12:09:21

【AGI】Qwen3混合推理模型微调数据集

    • (1)OpenMathReasoning 数据集(AIMO-2)
    • (2)FineTome-100k 数据集(Maxime Labonne)

​ 搭建好基础环境后,开始准备Qwen3混合推理模型微调数据集。围绕Qwen3模型的高效微调,为了确保其仍然保留混合推理能力,我们可以考虑在微调数据集中加入如普通对话数据集FineTome(https://huggingface.co/datasets/mlabonne/FineTome-100k),以及带有推理字段的数学类数据集OpenMathReasoning(https://huggingface.co/datasets/unsloth/OpenMathReasoning-mini),并围绕这两个数据集进行拼接,从而在确保能提升模型的数学能力的同时,保留非推理的功能。同时还需要在持续微调训练过程中不断调整COT数学数据集和普通文本问答数据集之间的配比,以确保模型能够在提升数学能力的同时,保留混合推理的性能。

(1)OpenMathReasoning 数据集(AIMO-2)

  • 数据集地址:https://huggingface.co/datasets/unsloth/OpenMathReasoning-mini

在这里插入图片描述

数据集介绍: OpenMathReasoning 是为 AI Mathematical Olympiad - Progress Prize 2(AIMO-2)竞赛开发的高质量数学推理数据集。该数据集包含:

  • 540,000 道独特的高质量数学问题,涵盖代数、组合、几何和数论等领域;
  • 3,200,000 条详细的长推理解答;
  • 1,700,000 条工具集成推理(Tool-Integrated Reasoning)解答,结合了代码执行与推理过程;
  • 生成式解答选择(GenSelect) 方法,用于从多个候选解答中选择最优解。

该数据集旨在推动 AI 在复杂数学推理任务中的能力提升,已被用于训练在多个数学推理基准上表现优异的模型。

  • 数据集格式

​ OpenMathReasoning包含expected_answerproblemgenerated_solution三个核心字段,分别代表问题答案、问题和模型思考过程。例如其中一条数据内容如下:

问题:

设有一组共 NN 个球,由 CC 种颜色组成,其中每种颜色的球的数量分别为 n 1 , n 2 , … , n C n 1 , n 2 , … , n C n1,n2,…,nCn_1, n_2, \ldots, n_C n1,n2,,nCn1,n2,,nC(满足 n 1 + n 2 + … + n C = N n 1 + n 2 + … + n C = N n1+n2+…+nC=Nn_1 + n_2 + \ldots + n_C = N n1+n2++nC=Nn1+n2++nC=N)。如果从中随机抽取 A A AA AA 个球(其中 A ≤ N A ≤ N A≤NA \leq N ANAN),那么抽到的球中恰好有 a 1 , a 2 , … , a C a 1 , a 2 , … , a C a1,a2,…,aCa_1, a_2, \ldots, a_C a1,a2,,aCa1,a2,,aC 个分别对应每种颜色(满足 a 1 + a 2 + … + a C = A a 1 + a 2 + … + a C = A a1+a2+…+aC=Aa_1 + a_2 + \ldots + a_C = A a1+a2++aC=Aa1+a2++aC=A),这种情况发生的概率是多少?

答案:
C n 1 a 1 ⋅ C n 2 a 2 ⋅ … ⋅ C n C a C C N A \frac{C_{n_1}^{a_1}\cdot C_{n_2}^{a_2} \cdot \ldots \cdot C_{n_C}^{a_C}}{C_N^A} CNACn1a1Cn2a2CnCaC
思考过程:

好的,也就是说我要计算这样一个概率:从总共 N N N 个球中随机抽取 A A A 个球,其中球分为 C C C 种颜色,要求抽到的每种颜色球的数量恰好是 a 1 , a 2 , … , a C a_1, a_2, \ldots, a_C a1,a2,,aC。嗯,我们来想想该怎么求解这个问题。

首先,概率问题通常会涉及组合数。概率的一般公式是:
有利情况数 ÷ 所有可能情况总数

在本题中,“有利情况”就是指:恰好抽到 a 1 a_1 a1 个颜色1的球, a 2 a_2 a2 个颜色2的球,依此类推,一直到颜色 C C C
而“所有可能情况”则是:从 N N N 个球中任意抽取 A A A 个球的方式,不考虑颜色分布。

我们可以这样分解这个问题:

  • N N N 个球中任意抽取 A A A 个球的总方式数是组合数:
    C ( N , A ) = ( N A ) = N ! A ! ( N − A ) ! C(N, A) = \binom{N}{A} = \frac{N!}{A!(N - A)!} C(N,A)=(AN)=A!(NA)!N!

  • 而有利情况则是:从每种颜色中选出指定数量的球。比如从 n 1 n_1 n1 个颜色1的球中选出 a 1 a_1 a1 个,从 n 2 n_2 n2 个颜色2的球中选出 a 2 a_2 a2 个,依此类推。
    由于每种颜色之间的选择是相互独立的,所以所有组合方式的总数就是各个颜色组合数的乘积:
    ( n 1 a 1 ) × ( n 2 a 2 ) × ⋯ × ( n C a C ) \binom{n_1}{a_1} \times \binom{n_2}{a_2} \times \cdots \times \binom{n_C}{a_C} (a1n1)×(a2n2)××(aCnC)

不过,要注意前提条件必须满足:

  • 每个 a i ≤ n i a_i \leq n_i aini,也就是说不能从某种颜色中选出比它实际数量更多的球;
  • 同时 a 1 + a 2 + ⋯ + a C = A a_1 + a_2 + \cdots + a_C = A a1+a2++aC=A,总共抽取的球数必须正确。

如果这些条件满足,那么这种组合方式就是有效的。如果不满足,比如某个 a i > n i a_i > n_i ai>ni,则该组合数为0,概率也自然为0,这是符合逻辑的。

其实这正是一个**多项超几何分布(multivariate hypergeometric distribution)**问题。

超几何分布描述的是:从有限总体中不放回地抽取样本,得到某个类别成功次数的概率。多项超几何分布是其推广,适用于多个类别的情况,正好契合这里的“多种颜色”的设定。

该分布的概率公式就是:
P = ( n 1 a 1 ) ⋅ ( n 2 a 2 ) ⋯ ( n C a C ) ( N A ) P = \frac{\binom{n_1}{a_1} \cdot \binom{n_2}{a_2} \cdots \binom{n_C}{a_C}}{\binom{N}{A}} P=(AN)(a1n1)(a2n2)(aCnC)


最终结论:

当从 N N N 个球(含有 C C C 种颜色,每种颜色分别有 n 1 , n 2 , … , n C n_1, n_2, \ldots, n_C n1,n2,,nC 个球)中随机抽取 A A A 个球时,恰好抽中每种颜色 a 1 , a 2 , … , a C a_1, a_2, \ldots, a_C a1,a2,,aC 个球的概率为:
P = ∏ i = 1 C ( n i a i ) ( N A ) \boxed{ P = \frac{\prod_{i=1}^{C} \binom{n_i}{a_i}}{\binom{N}{A}} } P=(AN)i=1C(aini)
这个公式就是多项超几何分布的概率表达式,分子为每种颜色的有利组合方式之乘积,分母为所有可能抽取 A A A 个球的方式总数。

(2)FineTome-100k 数据集(Maxime Labonne)

  • 数据集地址:https://huggingface.co/datasets/mlabonne/FineTome-100k

在这里插入图片描述

数据集简介: FineTome-100k 是由 Maxime Labonne 创建的高质量多轮对话数据集,采用 ShareGPT 风格,适用于大语言模型的微调。该数据集特点包括:

  • 100,000 条多轮对话样本;
  • 数据以 JSONL 格式存储,每条记录包含一个 “conversations” 字段,记录对话的完整历史;
  • 对话格式类似于 ShareGPT,适合训练模型进行多轮对话;
  • 可转换为 Hugging Face 通用的多轮对话格式,以适配不同的训练框架。

在这里插入图片描述

在这里插入图片描述

接下来即可上手使用Unsloth进行高效微调了。


http://www.hkcw.cn/article/YbUTKPNffE.shtml

相关文章

联邦学习与深度学习结合

联邦学习(Federated Learning)与深度学习(Deep Learning)的结合,是当前人工智能领域的研究热点之一。这种结合既发挥了深度学习在复杂数据建模中的强大能力,又通过联邦学习的分布式框架解决了数据隐私、安全…

特朗普送马斯克白宫钥匙 马斯克将任总统顾问

当地时间30日,美国总统特朗普在白宫举行新闻发布会“欢送”“政府效率部(DOGE)”负责人马斯克。发布会上,两人互道临别感言,特朗普向马斯克赠送了一把金色的白宫钥匙,而马斯克则表示,在从DOGE离职后,将成为特朗普的顾问,继续为其提供建议。当天,在椭圆形办公室举行的新…

日方请求恢复水产品入华,外交部回应 坚持科学安全原则

5月30日,外交部发言人林剑主持例行记者会。会上,日本广播协会的记者提问,询问发言人提到的关于日本水产品安全问题的新一轮技术交流取得实质性进展具体指哪些方面。记者还提到,日方表示双方已就恢复进口日本水产品所需的技术性条件达成一致,并询问中方是否也持有相同的看法…

探索DeepSeek提示词:关键策略与实用场景

在人工智能飞速发展的时代,DeepSeek作为一款备受关注的AI工具,其强大的功能为用户提供了高效便捷的服务。然而,要充分发挥DeepSeek的潜力,掌握提示词的使用策略至关重要。本文将深入探讨DeepSeek提示词的关键策略,并结…

广西官员王雄昌,与蓝天立同时被罢免 代表资格终止引发关注

5月29日,广西壮族自治区十四届人大常委会第十六次会议在广西人民会堂闭幕。会议表决通过了关于个别代表的代表资格的报告。蓝天立和王雄昌分别被百色市人大常委会和钦州市人大常委会罢免自治区第十四届人民代表大会代表职务,他们的代表资格随之终止。会议还通过了罢免蓝天立、…

国乒换血风暴:王励勤铁腕调整,林高远扛男单 权力更迭惊心动魄

美国大满贯名单在乒坛引发热议。王励勤兑现了“年轻化”承诺,25岁的世界冠军钱天一意外落选,而备受争议的林高远成为男单唯一代表。这份名单背后的故事比比赛本身更加引人注目。钱天一在世乒赛女双32强战中与陈幸同苦战五局不敌德国组合,这成为她出局的关键因素。尽管她在单…

[Windows] 本地无损放大软件-realesrgan-gui

Real-ESRGAN 是一款专注于图像和视频修复的强大算法软件,其核心目标是开发出能够广泛应用于实际场景的高效修复技术。它基于 ESRGAN(增强型超分辨率生成对抗网络)进行深度优化与拓展,在图像修复领域实现了质的飞跃。 在技术实现上…

AnyTXT Searcher 文档内容搜索工具 v1.3.2034 官方版

软件介绍 AnyTXT Searcher是一款高效的本地文档搜索工具,堪称电脑文件版的Google搜索引擎。作为一款免费的桌面全文搜索软件,它能完美满足您的文档检索需求。 该软件内置了强大的文档解析引擎,无需安装额外程序即可读取常见文件内容。配合高…

LabVIEW杂草识别与精准喷洒

基于LabVIEW构建了一套集成机器视觉、智能决策与精准控制的农业杂草识别系统。通过高分辨率视觉传感器采集作物图像,利用 LabVIEW 的 NI Vision 模块实现图像颜色匹配与特征分析,结合 Arduino 兼容的工业级控制硬件,实现杂草定位与除草剂精准…

强化学习入门笔记

Review:两种机器学习类型 预测 根据数据预测所需输出(有监督学习) 生成数据实例(无监督学习) 决策 在动态环境中采取行动(强化学习) 转变到新的状态 获得即时奖励 随着时间的推移最大化累计…

数据治理中的伦理沙盒与算法进化责任机制

——从数据采集到模型演化的“伦理试验区”设计 摘要 随着AI模型在城市低空经济中的部署频率、响应速度与自适应能力不断提升,其背后的算法演化逻辑已不再是“单次部署、静态运行”,而转向“动态更新、自主学习、连续演进”的自治模式。在这一过程中&a…

使用Python绘制节日祝福——以端午节和儿童节为例

端午节 端午节总算是回家了,感觉时间过得真快,马上就毕业了,用Python弄了一个端午节元素的界面,虽然有点不像,祝大家端午安康。端午节粽子(python)_python画粽子-CSDN博客https://blog.csdn.net…

中央纪委国家监委通报:张建华主动投案!涉嫌严重违纪违法接受调查

国家国防科技工业局原党组成员、副局长张建华涉嫌严重违纪违法,主动投案,目前正接受中央纪委国家监委纪律审查和监察调查。张建华,男,汉族,1961年8月生,江苏宜兴人。1983年8月参加工作,1986年5月加入中国共产党,北京理工大学毕业,研究生学历,工商管理硕士,高级会计师…

国际乒联选举,缘何成了“一地鸡毛”? 线上投票争议不断

当地时间5月27日,国际乒联在多哈举行2025年代表大会,选举新的国际乒联主席和执行委员。经投票后,佩特拉索林当选为国际乒联主席。然而,现场参会人员对投票结果提出质疑:点名投票时线上数量为16人,但最终公布的线上票数却出现了21人。这一争议导致国际乒联执委的选举延期。…

县政府不作为引重大舆情 25人被处理 督办信访诉求不力

5月30日,吉林省纪委监委公开通报了四起形式主义、官僚主义典型问题。其中一起涉及农安县政府办公室在督办解决群众信访诉求方面存在不作为慢作为的问题。2023年11月至2024年5月期间,农安县政府收到上级转办的关于合隆镇“桃花源著”回迁房二期项目建设存在的质量问题和逾期回…

北京:2025年全市防汛抗旱相关责任人公示名单 接受社会监督

北京市人民政府防汛抗旱指挥部决定,全市于2025年6月1日8时上汛。殷勇担任总指挥。为做好2025年防汛抗旱工作,确保责任落实到位,推动各项任务有效实施,市防汛抗旱指挥部对全市防汛抗旱相关责任人进行公示,接受社会监督。责任编辑:zx0001

两天收到同案相反“判决”?官方:纪委监委已介入调查 股权转让纠纷案引关注

近日,网上关于“律师称两天收到同案相反‘判决’”一事引起网民关注。经核实,该案件是平桥区人民法院审理的一起股权转让纠纷案件。律师王良斌代理的这起民事股权纠纷案连续两天收到了结果相反的“判决书”。第一天原告胜诉,第二天则变为原告败诉。对此,河南省信阳市平桥区…

Win10 doccano pip安装笔记

试了一下win10 doccano安装,遇到了一些问题,这儿记录一下。 一、创建一个新环境 conda create -n doccano python3.12 进入doccano环境 conda activate doccano 二、查看官网教程 https://github.com/doccano/doccano/tree/release-1.8.0 三、执行…

曝小因扎吉将执教沙特利雅得新月 欧冠后宣布决定

国际米兰主教练西蒙尼-因扎吉即将宣布加盟利雅得新月。据瑞士天空体育记者萨沙-塔沃列里透露,双方已经就执教条款达成一致。预计因扎吉会在6月1日,即欧冠决赛结束后的第二天,正式公布这一决定。利雅得新月方面对此充满信心。在与利雅得新月的谈判中,因扎吉曾提出希望优先引…

Spark计算单跳页面转换率

目录 代码功能概述 关键步骤解析 数据预处理(fenzi函数): 分母计算(fenmu函数): 转换率计算: 代码优化与拓展建议 修正字段索引错误: 优化分母计算(避免collect&…