机器学习——放回抽样

article/2025/6/6 23:22:29

为了构建树集成模型,需要一种叫做有放回采样的技术。

以4个标记为演示,分别是红色、黄色、绿色和蓝色,用一个黑色的袋子把这四个标记的例子放进去,然后从这个袋子里有放回地抽取四次,抽出一个标记,结果是绿色的。有放回的意思是,在拿下一个标记之前,要把之前那个放回去,再次摇一摇,然后再拿一个,是黄色的,放回去,这就是有放回的部分,然后再来一次,是蓝色的,再放回去,再抽一次,又是蓝色的,所以抽到的顺序依次是绿色、黄色、蓝色和蓝色。抽到了两次蓝色,没有抽到一次红色。如果多次重复这个有放回的抽样程序,如果在做一次,可能会得到红色、黄色、红色和绿色或者绿色、绿色、蓝色和红色或者红色,蓝色、黄色和绿色。

注意:有放回抽样这一点非常关键,因为如果每次抽样后不把标记放回,如果从四个标记袋中抽出四个标记,总是会得到相同的四个标记,这就是为什么每次抽出标记后放回去很重要,以确保不会只得到相同的四个标记。

有放回抽样在构建树集成方法中的应用如下:我们将构建多个随机训练集,这些训练集与原始训练集略有不同,我们将采用10个猫和狗的例子,将这10个训练例子放入一个假想的袋子中,利用这个假想的袋子,我们将创建一个新的随机训练集,由十个与原始数据集大小相同的例子组成,这样做的方法是伸手进去,拿出一个随机的训练例子,假设已经拿到了这个训练例子,然后将它放回袋子里,然后再次随机拿出一个训练例子,如此反复,你拿到例子,然后再抽一次,再抽一次。注意到现在第五个训练例子和我们上面提到的第二个是相同的,但这没关系,在抽几次,我们得到另一个重复的例子,如此反复,只到最终得到10个训练例子,其中有例子是重复的,而且这个训练集并不包含原始的10个训练例子的全部。这没关系,这是带放回抽样过程的一部分。

带放回抽样的过程让你构造一个有点类似于一个新的训练集,但和最初的训练就又有很大的不同,这将是构建树集成的关键构件。


http://www.hkcw.cn/article/GUIIhpAVRA.shtml

相关文章

组相对策略优化(GRPO):原理及源码解析

文章目录 PPO vs GRPOPPO的目标函数GRPO的目标函数KL散度约束与估计ORM监督RL的结果PRM监督RL的过程迭代RL算法流程 GRPO损失的不同版本GRPO源码解析 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models PPO vs GRPO PPO的目标函数 J P P O…

黑马Java面试笔记之 集合篇(算法复杂度+ArrayList+)

一. 算法复杂度分析 1.1 时间复杂度 时间复杂度分析:来评估代码的执行耗时的 常见的复杂度表示形式 常见复杂度 1.2 空间复杂度 空间复杂度全称是渐进空间复杂度,表示算法占用的额外存储空间与数据规模之间的增长关系 二. 数组 数组(Array&a…

AI数据集构建:从爬虫到标注的全流程指南

AI数据集构建:从爬虫到标注的全流程指南 系统化学习人工智能网站(收藏):https://www.captainbed.cn/flu 文章目录 AI数据集构建:从爬虫到标注的全流程指南摘要引言流程图:数据集构建全生命周期一、数据采…

飞算 JavaAI 赋能老项目重构:破旧立新的高效利器

许多企业的 Java 老项目面临着代码陈旧、架构落后、维护困难等问题。老项目重构势在必行,却又因庞大的代码量、复杂的业务逻辑让开发团队望而却步。 老项目重构困境重重 传统的 Java 老项目往往在长期的迭代和维护中积累了诸多问题。一方面,代码质量堪…

服装产品属性描述数据集(19197条),AI智能体知识库收集~

今天再来分享一个关于服装产品属性描述数据集!可用户AI训练,AI智能体知识库! 一、数据集介绍 电商文案优化 / 属性智能识别 / 服装产品描述数据训练首选资源 1、数据规模: 共计 19197 条 2、文件格式: Excel格式 3、字…

Java程序员学从0学AI(四)

一、前言 在上一篇文章中,我们学习了SpringAI种的Advisor组件,这个是一个类似AOP的,用于增强大模型调用的组件。今天我们继续学习新的组件提示词:Prompts 二、Prompts 1、简介 提示词是我们和大模型交互的入口,我们…

从 iPhone 备份照片: 保存iPhone图片的5种方法

随着智能手机越来越融入我们的生活,我们的照片已成为我们设备上最有价值的数据形式之一。然而,iPhone内部存储空间仍然有限,因此我们需要将iPhone中的照片备份到另一个地方,以释放空间并确保珍贵的图像记忆的安全。阅读本指南&…

AU3110 10W、7.5V至18V、无电感器、立体声D类扬声器放大器(替代TPA3110)

1.特性 ● 输出功率 - 2 x 11W 12V,6Ω,THDN 1% - 2 x 15.5W 12V,4Ω,THDN 1% - 1 x 21W 12V,4Ω,THDN 1% - THDN< 0.04% 12V,6Ω,1W, 1kHz ● 供电电压范围 - 7.5V-18V 低导通阻抗 RDs(on):140mΩ ● 固定增益&#xff1a; - 26dB ● 低静态功耗 - > 90% Class D效率 ●…

系统设计面试利器:The System Design Primer开源项目介绍

引言 在当今软件工程领域&#xff0c;系统设计能力已经成为评判一名高级工程师技术水平的重要标准。无论是顶级科技公司的技术面试&#xff0c;还是实际工作中设计大规模分布式系统&#xff0c;掌握系统设计知识都是必不可少的技能。今天我们要深入探讨的是 GitHub 上一个备受…

一周学会Pandas2之Python数据处理与分析-Pandas2数据绘图与可视化

锋哥原创的Pandas2 Python数据处理与分析 视频教程&#xff1a; 2025版 Pandas2 Python数据处理与分析 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili Pandas 集成了 Matplotlib&#xff0c;提供了简单高效的绘图接口&#xff0c;使数据可视化变得直观便捷。本指南将详…

Go语言快速入门(基础语法与面向对象OOP)

文章目录 阅读前置条件golang环境安装golang特点第一个Go程序Go语言变量声明常量Golang多返回值的三种写法go函数import匿名与别名导包方式指针defer关键字结束(defer会在结束时调用&#xff0c;类似Java的finally)slice切片数组与动态数组的定义动态数组与切片的四种声明方式s…

用AI(Deepseek)做了配色网站-功能介绍【欢迎体验】

前言 前面分享了一篇文章&#xff1a;关于用AI做了一个配色网站&#xff0c;并讲了如何“结合AI开发想法”实现作品。 以下是文章链接&#xff1a; 一天时间&#xff0c;我用AI(DeepSeek)做了一个配色网站 当时为第一版本&#xff0c;网站的很多功能和细节还有很多完善的地方…

【2025年B卷】OD-100分-斗地主之顺子

专栏订阅🔗 -> 赠送OJ在线评测 斗地主之顺子 问题描述 卢小姐喜欢玩斗地主扑克牌游戏。在这个游戏中,扑克牌由小到大的顺序为:3、4、5、6、7、8、9、10、J、Q、K、A、2。玩家可以出的扑克牌阵型有:单张、对子、顺子、飞机、炸弹等多种组合。 顺子是一种常见的出牌方…

题山采玉: Day1

嘿&#xff0c;各位技术潮人&#xff01;好久不见甚是想念。生活就像一场奇妙冒险&#xff0c;而编程就是那把超酷的万能钥匙。此刻&#xff0c;阳光洒在键盘上&#xff0c;灵感在指尖跳跃&#xff0c;让我们抛开一切束缚&#xff0c;给平淡日子加点料&#xff0c;注入满满的pa…

优化 Transformer 模型:基于知识蒸馏、量化技术及 ONNX

Transformer 模型非常强大&#xff0c;但往往太大太慢&#xff0c;不适合实时应用。为了解决这个问题&#xff0c;我们来看看三种关键的优化技术&#xff1a;知识蒸馏、量化和ONNX 图优化。这些技术可以显著减少推理时间和内存使用。 为了说明每种技术的利弊&#xff0c;我们以…

C++实现图形化2048小游戏

目录 一、游戏规则二、步骤实现(一) SDL库的安装(二) 初始化游戏界面1. 后台数字模型2 显示模型2.1 SDL库的使用2.1.1 窗口渲染2.1.2 矩形绘制 2.2 SDL-ttf库的使用2.2.1 设置字体属性2.2.2 创建纹理图层2.2.3 绘制文字 (三) 随机生成2个数字&#xff08;2或4&#xff09;(四) …

Halcon光度立体法

1、光度立体法&#xff0c;可用于将对象的三维形状与其二维纹理&#xff08;例如打印图像&#xff09;分离。需要用不同方向而且已知照明方向的多个光源&#xff0c;拍摄同一物体的至少三张图像。请注意&#xff0c;所有图像的相机视角必须相同。 物体的三维形状主要被计算为三…

北方局地40℃又来了 干热烤验来临

天气即将变热,南北方的高温特点各不相同。北方是干热型高温,南方则是闷热型高温。全国大部分地区降水稀少,仅局部有雨。从今天夜间到后两天,降水预报图上将出现大片无降水区域,雨水不再是天气舞台的主要角色。气温成为焦点,南北方30℃以上的高温将连成一片,部分地区还将…

【后端架构师的发展路线】

后端架构师的发展路线是从基础开发到技术领导的系统性进阶过程&#xff0c;需融合技术深度、架构思维和业务洞察力。以下是基于行业实践的职业发展路径和关键能力模型&#xff1a; 一、职业发展阶梯‌ 初级工程师&#xff08;1-3年&#xff09;‌ 核心能力‌&#xff1a;掌…

Python爬虫监控程序设计思路

最近因为爬虫程序太多&#xff0c;想要为Python爬虫设计一个监控程序&#xff0c;主要功能包括一下几种&#xff1a; 1、监控爬虫的运行状态&#xff08;是否在运行、运行时间等&#xff09; 2、监控爬虫的性能&#xff08;如请求频率、响应时间、错误率等&#xff09; 3、资…