机器学习算法03:聚类算法

article/2025/7/4 19:45:33
一、引言

聚类算法是一类无监督学习算法,旨在将数据集中的样本划分为多个组或簇,使得同一簇内的样本具有较高的相似性,而不同簇之间的样本具有较大的差异性。其主要作用是发现数据的内在结构和分布规律,为数据分析、模式识别、数据挖掘等领域提供重要支持。

二、常见聚类算法类型
  1. 划分聚类算法

  • K-Means 算法:是最经典的划分聚类算法之一。它预先设定要划分的簇的数量 K,随机选取 K 个点作为初始聚类中心。然后,计算每个样本到各个聚类中心的距离,将样本分配到距离最近的聚类中心所在的簇。接着,重新计算每个簇的中心(通常是簇内所有样本的均值)。不断重复上述过程,直到聚类中心不再变化或达到预设的迭代次数。例如,在对一群客户的消费数据进行聚类时,可通过 K-Means 算法将客户按消费行为特点分为 K 个不同的群体。

  • K-Medoids 算法:与 K-Means 类似,但 K-Medoids 算法选择簇内实际存在的样本点作为簇中心(称为 medoid),而不是像 K-Means 那样计算均值。这种方式对离群点的敏感度更低,因为均值易受离群点影响,而 medoid 是实际样本点。例如在地理坐标数据聚类中,K-Medoids 能更好地应对可能存在的异常坐标点。

  1. 层次聚类算法

  • 凝聚式层次聚类:从每个样本作为一个单独的簇开始,逐步合并相似的簇。通过计算簇与簇之间的距离(如最小距离、最大距离、平均距离等),每次将距离最近的两个簇合并,直到所有样本都在一个簇中或满足特定停止条件。例如在对生物物种进行分类时,可从每个物种作为一个簇,根据物种间的相似性逐步合并,构建出物种分类的层次结构。

  • 分裂式层次聚类:与凝聚式相反,它从包含所有样本的一个大簇开始,逐步分裂成更小的簇。根据一定的分裂准则(如最大化簇间差异),将一个大簇分裂成两个子簇,不断重复这个过程,直到每个簇只包含一个样本或满足停止条件。在图像分割任务中,可利用分裂式层次聚类将一幅图像逐步分割成具有不同特征的区域。

  1. 密度聚类算法

  • DBSCAN 算法:基于数据点的密度进行聚类。它将数据空间划分为核心点、边界点和噪声点。核心点是在一定半径邻域内包含足够数量样本的点;边界点是在核心点邻域内,但自身邻域内样本数量不足的点;噪声点是不属于任何核心点邻域的点。DBSCAN 从一个核心点出发,将密度相连的点聚成一个簇,能发现任意形状的簇,并且能有效识别噪声点。例如在地理信息系统中,可利用 DBSCAN 对城市中的建筑物分布进行聚类,能很好地处理建筑物分布不规则的情况。

  • OPTICS 算法:是 DBSCAN 的扩展,它通过为每个点计算一个可达距离和核心距离,构建出一个有序的点集。在聚类时,可以根据不同的密度阈值从这个有序点集中提取出不同的簇,不需要像 DBSCAN 那样预先指定聚类参数,能更灵活地处理不同密度分布的数据。例如在分析社交网络用户关系数据时,OPTICS 能根据用户之间联系的紧密程度,更准确地发现不同密度的用户群体。

  1. 网格聚类算法

  • STING 算法:将数据空间划分为多个网格单元,预先计算每个网格单元的统计信息(如均值、方差等)。通过这些统计信息来进行聚类,计算速度快,适用于大规模数据。例如在对海量的气象数据进行聚类分析时,可将地理区域划分为网格单元,利用每个网格单元内气象数据的统计特征进行聚类,快速发现不同气象特征的区域。

  • WaveCluster 算法:结合了信号处理中的小波变换思想。它先将数据投影到网格上,然后对网格单元进行小波变换,根据小波系数来确定簇的边界。能有效处理高维数据和噪声,在高维数据聚类分析中有较好表现,如在基因表达数据聚类中,可通过 WaveCluster 算法挖掘出具有相似基因表达模式的基因簇。

三、聚类算法的评估指标
  1. 外部指标:需要借助已知的真实类别标签来评估聚类结果。

  • 兰德指数(Rand Index,RI):计算聚类结果与真实类别标签之间的一致性程度。RI 值越接近 1,表示聚类结果与真实情况越吻合;RI 值为 0,表示聚类结果与随机划分没有区别。例如在对图像数据集进行聚类后,通过与图像的真实类别标签对比计算 RI 值,评估聚类效果。

  • 调整兰德指数(Adjusted Rand Index,ARI):对 RI 进行了调整,消除了随机因素的影响。ARI 值范围在 [-1, 1] 之间,值越高表示聚类结果与真实类别越相似。在评估复杂数据集的聚类效果时,ARI 比 RI 更能准确反映聚类质量。

  1. 内部指标:仅依据聚类结果本身来评估。

  • 轮廓系数(Silhouette Coefficient):综合考虑了样本与同簇内其他样本的紧密程度(凝聚度)以及与其他簇的分离程度。轮廓系数取值范围在 [-1, 1] 之间,值越接近 1,表示样本聚类效果越好,即样本既紧密聚集在所属簇内,又与其他簇有明显区分。例如在对客户数据进行聚类后,通过计算轮廓系数来评估聚类的质量,判断聚类结果是否合理。

  • Calinski-Harabasz 指数:通过计算簇内方差和簇间方差的比值来评估聚类效果。该指数值越大,说明聚类效果越好,即簇内样本紧密,簇间分离明显。在比较不同聚类算法对同一数据集的聚类效果时,Calinski-Harabasz 指数是一个常用的评估指标。

四、聚类算法的应用场景
  1. 市场细分:企业可根据客户的年龄、性别、消费行为、购买偏好等多维度数据,利用聚类算法将客户分为不同的细分市场。针对不同细分市场的特点,制定个性化的营销策略,提高市场推广效果和客户满意度。例如,将客户聚类为高消费、低消费、频繁购买、偶尔购买等不同群体,为每个群体提供定制化的产品推荐和促销活动。

  2. 图像识别与处理:在图像分割任务中,聚类算法可将图像中具有相似颜色、纹理等特征的像素点聚成一个区域,实现对图像的分割。例如,将一幅自然风景图像分割为天空、草地、树木等不同的区域,有助于图像分析和目标识别。在图像检索中,也可通过聚类算法将相似的图像聚成一组,提高检索效率。

  3. 生物信息学:对基因表达数据进行聚类,可发现具有相似表达模式的基因簇,有助于研究基因的功能和生物过程。在蛋白质结构分类中,聚类算法能将具有相似结构的蛋白质聚在一起,为蛋白质功能预测和药物研发提供支持。例如,通过聚类分析发现与某种疾病相关的基因簇,进一步研究这些基因在疾病发生发展中的作用机制。

  4. 异常检测:在数据集中,异常点通常与大多数正常点的特征分布不同。聚类算法可将正常数据点聚成簇,那些远离这些簇的点就可能被视为异常点。例如在网络流量监测中,通过聚类算法发现与正常流量模式不同的异常流量,及时检测网络攻击或故障。在信用卡交易数据中,也可利用聚类算法识别可能的欺诈交易。

  5. 文本挖掘:将文本数据(如新闻文章、学术论文、社交媒体帖子等)转化为向量形式后,聚类算法可将主题相似的文本聚成一组。这有助于文本分类、信息检索和话题发现。例如,将大量新闻文章聚类为政治、经济、文化、体育等不同主题的类别,方便用户快速浏览和获取感兴趣的信息。在舆情分析中,通过聚类算法将相似观点的文本聚类,能更好地了解公众对某一事件的看法和态度分布。


http://www.hkcw.cn/article/kPaoZPYXkK.shtml

相关文章

洛谷习题V^V

1.帮贡排序 解题思路&#xff1a;按照题意&#xff0c;排序模拟即可 #include <iostream> #include <vector> #include <algorithm> #include <string> using namespace std;struct Member {string name;string position;int contribution;int level;…

女子称在酒店遗失婚戒 譤方回应:警方已介入调查

5月29日,周女士在深圳蛇口太子湾逸扉酒店住了一晚,不慎将价值6万多元的婚戒遗忘在床头柜上。她于次日在社交平台上发帖求助。据周女士描述,她在28日出差入住该酒店,晚上将婚戒放在床头柜,而她结婚还不满一个月。29日上午9点30分,她去餐厅吃早餐,10点30分退房,直到11点2…

【运维实战】Linux 中设置 sudo ,8个有用的 sudoers 配置!

在Linux及其他类Unix操作系统中&#xff0c;只有 root 用户能够执行所有命令并进行关键系统操作&#xff0c;例如安装更新软件包、删除程序、创建用户与用户组、修改重要系统配置文件等。 但担任 root 角色的系统管理员可通过配置sudo命令&#xff0c;允许普通系统用户执行特定…

Baklib智能推荐赋能内容中台升级

智能推荐重构内容中枢 现代内容中台正经历智能化推荐系统驱动的结构性变革&#xff0c;通过自然语言解析与用户行为建模技术实现信息处理范式的升级。该系统深度融合语义理解引擎&#xff0c;可对知识库中的操作指南、产品文档等非结构化数据进行动态解构&#xff0c;结合多维…

每日算法-250530

每日算法 - 250530 记录一下今天完成的LeetCode算法题目&#xff0c;包含思路、解题过程、复杂度分析和代码实现。 3128. 直角三角形 题目 思路 数组 解题过程 显而易见的是&#xff0c;我们枚举中间的顶点最好计算。当我们的中间顶点是1时&#xff0c;它能够组成的直角三角…

抽奖系统抽奖活动管理流程

抽奖系统大纲&#xff1a; 目录 抽奖系统大纲&#xff1a; 创建抽奖活动&#xff1a; 前端传入&#xff1a; 创建抽奖活动&#xff0c;需要圈选人员&#xff0c;圈选奖品&#xff0c;填写活动必要信息。 Controller层&#xff1a; 接收参数&#xff0c;调用服务层代码&a…

Grace《歌手》第三期第一 格瑞丝夺冠引领风潮

5月30日晚,《歌手2025》第三期播出,共有8名歌手参加比赛。排名如下:格瑞丝金斯勒获得第一名,单依纯位列第二,米奇盖顿排在第三,GAI周延第四,陈楚生第五,马嘉祺第六,白举纲第七。根据节目规则,若袭榜歌手获胜,本场竞演排名最末的在线歌手将暂别舞台。查理普斯作为首位…

郑钦文巴黎街头演唱《日不落》 甜蜜16强庆祝

北京时间5月30日,2025年法网进入第六个比赛日。中国球员郑钦文作为8号种子,以6比3、6比4战胜18岁的加拿大新星姆博科,顺利晋级16强,追平了她在法网的最佳战绩。赛后,郑钦文更新了多条动态,发布了一条微博:“甜蜜16强。”她还分享了一段视频,展示了自己在法国巴黎街头即…

华为OD机试真题——天然蓄水库(2025A卷:200分)Java/python/JavaScript/C++/C语言/GO六种最佳实现

2025 A卷 200分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析; 并提供Java、python、JavaScript、C++、C语言、GO六种语言的最佳实现方式! 2025华为OD真题目录+全流程解析/备考攻略/经验分享 华为OD机试真题《天然蓄水库》: 目录 题目…

基本数据指针的解读-C++

1、引言 笔者认为对于学习指针要弄清楚如下问题基本可以应付大部分的场景&#xff1a; ① 指针是什么&#xff1f; ② 指针的类型是什么&#xff1f; ③ 指针指向的类型是什么&#xff1f; ④ 指针指向了哪里&#xff1f; 2、如何使用指针 使用时的步骤如下&#xff1a; ① …

日志技术-LogBack、Logback快速入门、Logback配置文件、Logback日志级别

一. 日志技术 1. 程序中的日志&#xff0c;是用来记录应用程序的运行信息、状态信息、错误信息等。 2. JUL&#xff1a;(java.util.logging)这是JavaSE平台提供的官方日志框架&#xff0c;也被称为JUL。配置相对简单&#xff0c;但不够灵活&#xff0c;性能较差。 3.Logs4j&…

Nuxt多环境配置

前言 多环境配置对于特定环境新增、更新、删除配置相当重要&#x1f601;而且不需要人为去变更配置减少出错 实践 方案1&#xff08;官方推荐&#xff09; 升级依赖 升级Nuxt到最新版&#xff08;3.15.x只有开发和生产配置&#xff0c;不支持自定义环境&#xff09; npx n…

林志炫回应机能下降 唱功未减获支持

林志炫参加《歌手2025》,仅两期就被淘汰出局,成为第二位被淘汰的歌手。他在舞台上只唱了两首歌,却因此遭到质疑,很多人认为他的唱功严重下滑。尽管林志炫已年过半百,但他的唱功并未下降。林志炫在参加《我是歌手》期间曾透露,他非常注重嗓子的保养,平时饮食起居都会照顾…

这个中部大省 拼命“抢人” 系统性引才策略

又是一年毕业季。5月28日,长沙市青年人才创新创业政策推介活动在上海复旦大学举行,现场发布了长沙市青年人才创业“双肩包”行动计划,旨在为创业者提供从落地到上市的一条龙支持。这一行动背后是湖南省将大学生创业视为长远发展战略的一部分,通过系统性思维解决人才问题。不…

喜欢红帽子的马斯克 这次戴了黑帽子 DOGE成为“替罪羊”

美东时间5月30日,美国科技亿万富翁埃隆马斯克作为特朗普政府“特殊政府雇员”的任期结束。特朗普为他举行了一场在白宫椭圆形办公室的新闻发布会,并赠送了一把金色钥匙。马斯克戴着一顶印有“DOGE”字样的黑帽子参加了这场欢送会。在负责美国政府效率部(DOGE)运作的130天里…

联合国:全球住房危机影响近30亿人 亟需全球行动应对

当地时间5月29日至30日,第二届联合国人居大会续会在肯尼亚首都内罗毕召开。超过1000名代表参与会议,共同探讨全球住房危机,希望通过讨论、协作与政策规划来解决这一问题。联合国人类住区规划署执行主任阿纳克劳迪娅罗斯巴赫指出,据估计,全球有超过28亿人面临住房条件不达标…

拜登确诊癌症后首公开讲话:感觉很好 称病情发展良好

据美国广播公司和英国广播公司报道,自美国前总统拜登办公室5月18日宣布拜登被诊断患有侵袭性前列腺癌后,拜登于当地时间5月30日首次向记者发表公开讲话。他表示自己感觉很好。拜登说:“预计病情发展良好。我们正努力做好一切工作。一切都在进行中,所以我感觉很好。”他透露…

11月起新生产电池都将有“身份证” 实现全生命周期管控

为加强锂离子电池全生命周期的安全与质量管理,市场监管总局批准发布了《锂离子电池编码规则》国家标准,该标准将于2025年11月1日起实施。新标准赋予每个新生产的电池产品唯一身份编码,适用范围覆盖从单体电池到电池系统的全层级产品。通过“一池一码”可以实现从生产端到回收…

端午假期长江中下游有大暴雨 警惕次生灾害

端午假期期间,中东部地区将经历较大范围的降雨过程。长江中下游等地可能出现强降雨,部分地区甚至会有大暴雨,并伴有强对流天气。需警惕山体滑坡、泥石流等次生灾害。东北地区受冷空气影响将迎来降温,而华南多地则会出现高温,需注意防暑。昨天,中东部新一轮较大范围降雨过…

智慧港口电子通关系统引领智能化监管新时代

在全球贸易蓬勃发展的背景下&#xff0c;港口作为国际贸易的核心枢纽&#xff0c;其通关效率和监管能力直接影响物流链的顺畅运作。智慧港口电子通关系统&#xff08;智能闸口系统&#xff09;通过技术创新与数据融合&#xff0c;为海关监管和港口运营提供高效、精准、智能化的…