【机器学习基础】机器学习入门核心:Jaccard相似度 (Jaccard Index) 和 Pearson相似度 (Pearson Correlation)

article/2025/8/13 10:32:28

在这里插入图片描述

机器学习入门核心:Jaccard相似度 (Jaccard Index) 和 Pearson相似度 (Pearson Correlation)

      • 一、算法逻辑
        • Jaccard相似度 (Jaccard Index)
        • **Pearson相似度 (Pearson Correlation)**
      • 二、算法原理与数学推导
        • 1. Jaccard相似度公式
        • 2. Pearson相似度公式
      • 三、模型评估中的角色
        • 相似度度量的评估重点
        • 在推荐系统中的评估
      • 四、应用案例
        • Jaccard相似度案例
        • Pearson相似度案例
      • 五、面试题及答案
        • 常见问题:
      • 六、相关论文
      • 七、优缺点对比
      • 总结

一、算法逻辑

Jaccard相似度 (Jaccard Index)
  • 核心思想
    衡量两个集合的相似性,定义为 交集大小与并集大小的比值。关注样本间的 共有特征是否存在,忽略具体数值大小。
  • 适用场景
    文本相似度(词集模型)、推荐系统(用户行为二值化)、生物信息学(基因序列匹配)。
Pearson相似度 (Pearson Correlation)
  • 核心思想
    衡量两个变量间的 线性相关程度,通过协方差与标准差的比值计算。关注数值变化的 方向和幅度一致性
  • 适用场景
    推荐系统(用户评分预测)、金融(资产价格相关性)、生物统计(基因表达量相关性)。

二、算法原理与数学推导

1. Jaccard相似度公式

设集合 A A A B B B,其相似度为:
J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A, B) = \frac{|A \cap B|}{|A \cup B|} J(A,B)=ABAB

  • 分子 ∣ A ∩ B ∣ |A \cap B| AB 为共同元素个数
  • 分母 ∣ A ∪ B ∣ = ∣ A ∣ + ∣ B ∣ − ∣ A ∩ B ∣ |A \cup B| = |A| + |B| - |A \cap B| AB=A+BAB
  • 值域 [ 0 , 1 ] [0, 1] [0,1],0 表示无交集,1 表示完全相同

扩展形式(加权Jaccard)
J w ( A , B ) = ∑ i min ⁡ ( w A , i , w B , i ) ∑ i max ⁡ ( w A , i , w B , i ) J_w(A, B) = \frac{\sum_i \min(w_{A,i}, w_{B,i})}{\sum_i \max(w_{A,i}, w_{B,i})} Jw(A,B)=imax(wA,i,wB,i)imin(wA,i,wB,i)
适用于带权重的特征(如TF-IDF)。

2. Pearson相似度公式

设变量 X X X Y Y Y 的观测值分别为 { x 1 , x 2 , . . . , x n } \{x_1, x_2, ..., x_n\} {x1,x2,...,xn} { y 1 , y 2 , . . . , y n } \{y_1, y_2, ..., y_n\} {y1,y2,...,yn},其相关系数为:
ρ X , Y = cov ( X , Y ) σ X σ Y = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 \rho_{X,Y} = \frac{\text{cov}(X,Y)}{\sigma_X \sigma_Y} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} ρX,Y=σXσYcov(X,Y)=i=1n(xixˉ)2 i=1n(yiyˉ)2 i=1n(xixˉ)(yiyˉ)

  • x ˉ , y ˉ \bar{x}, \bar{y} xˉ,yˉ:样本均值
  • cov ( X , Y ) \text{cov}(X,Y) cov(X,Y):协方差
  • σ X , σ Y \sigma_X, \sigma_Y σX,σY:标准差
  • 值域 [ − 1 , 1 ] [-1, 1] [1,1]
    • 1 1 1:完全正相关
    • − 1 -1 1:完全负相关
    • 0 0 0:无线性相关

简化计算形式
ρ X , Y = n ∑ x i y i − ∑ x i ∑ y i n ∑ x i 2 − ( ∑ x i ) 2 n ∑ y i 2 − ( ∑ y i ) 2 \rho_{X,Y} = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{\sqrt{n \sum x_i^2 - (\sum x_i)^2} \sqrt{n \sum y_i^2 - (\sum y_i)^2}} ρX,Y=nxi2(xi)2 nyi2(yi)2 nxiyixiyi


三、模型评估中的角色

相似度度量的评估重点
  1. 鲁棒性

    • Jaccard 对二元噪声鲁棒(如文本拼写错误)
    • Pearson 对数值异常值敏感(需数据标准化)
  2. 可解释性

    • Jaccard:直观的集合重叠比例
    • Pearson:明确的方向性(正/负相关)
  3. 计算效率

    • Jaccard: O ( n ) O(n) O(n),仅需统计元素存在性
    • Pearson: O ( n ) O(n) O(n),但需计算均值/协方差
在推荐系统中的评估
相似度适用反馈类型典型指标
Jaccard隐式反馈(点击/购买)Precision@K, Recall@K
Pearson显式反馈(评分)RMSE, MAE

四、应用案例

Jaccard相似度案例
  1. 文档去重

    • 步骤:将文档转为词集 → 计算Jaccard相似度 → 若 J > 0.9 J > 0.9 J>0.9 判定为重复
    • 工具:MinHash 加速大规模文档比较(如搜索引擎爬虫去重)
  2. 推荐系统

    • 场景:用户A购买商品集 { A , B , D } \{A,B,D\} {A,B,D},用户B购买 { A , C , D } \{A,C,D\} {A,C,D}
    • 计算: J = ∣ { A , D } ∣ ∣ { A , B , C , D } ∣ = 0.5 J = \frac{|\{A,D\}|}{|\{A,B,C,D\}|} = 0.5 J={A,B,C,D}{A,D}=0.5
Pearson相似度案例
  1. 电影推荐(Netflix)

    • 场景:用户对电影的评分数据
      用户电影X电影Y电影Z
      Alice534
      Bob42?
    • 计算Alice与Bob的Pearson相似度:
      ρ = ( 5 − 4 ) ( 4 − 3 ) + ( 3 − 4 ) ( 2 − 3 ) ( 5 − 4 ) 2 + ( 3 − 4 ) 2 ( 4 − 3 ) 2 + ( 2 − 3 ) 2 = 1 + 1 2 2 = 1 \rho = \frac{(5-4)(4-3) + (3-4)(2-3)}{\sqrt{(5-4)^2 + (3-4)^2} \sqrt{(4-3)^2 + (2-3)^2}} = \frac{1+1}{\sqrt{2}\sqrt{2}} = 1 ρ=(54)2+(34)2 (43)2+(23)2 (54)(43)+(34)(23)=2 2 1+1=1
    • 预测:Bob对Z的评分可能接近Alice的评分4
  2. 金融相关性分析

    • 计算两只股票收益率的Pearson相关系数
    • ρ > 0.8 \rho > 0.8 ρ>0.8 表示强正相关(同涨同跌)

五、面试题及答案

常见问题:
  1. Q: Jaccard和Pearson的本质区别是什么?
    A: Jaccard衡量 集合重叠度(存在性),Pearson衡量 数值变化趋势(线性相关性)。

  2. Q: 何时选用Jaccard而非Pearson?
    A: 当数据为二元特征(如是否购买)或需要忽略数值大小时(如文本关键词匹配)。

  3. Q: Pearson相关系数为0是否意味着变量独立?
    A: 否!只能说明无线性关系,但可能存在非线性关系(如二次函数)。

  4. Q: 如何处理Pearson对异常值的敏感性问题?
    A

    • 数据标准化(如Z-score)
    • 改用Spearman秩相关(基于排名而非原始值)
    • 移除离群点

六、相关论文

  1. Jaccard相似度

    • 原始论文:Jaccard, P. (1901). “Étude comparative de la distribution florale dans une portion des Alpes et des Jura”
    • 优化扩展:Broder, A. Z. (1997). “On the Resemblance and Containment of Documents”(MinHash算法)
  2. Pearson相似度

    • 原始论文:Pearson, K. (1895). “Notes on Regression and Inheritance in the Case of Two Parents”
    • 推荐系统应用:Sarwar, B. et al. (2001). “Item-based Collaborative Filtering Recommendation Algorithms”

七、优缺点对比

相似度优点缺点
Jaccard1. 计算简单高效;
2. 对二元数据直观;
3. 不受特征值大小影响
1. 忽略特征权重;
2. 对稀疏数据敏感(分母小)
Pearson1. 捕捉线性关系方向;
2. 可解释性强;
3. 标准化消除量纲影响
1. 对异常值敏感;
2. 要求数据近似正态分布;
3. 仅反映线性关系

总结

  • Jaccard相似度
    处理 二元特征集合关系 的金标准,适用于文本、图结构数据。
  • Pearson相似度
    分析 连续变量线性相关性 的核心工具,适用于评分预测、金融分析。
    关键选择依据:数据特征(二元/连续)、分析目标(存在性/趋势性)、计算效率需求。

http://www.hkcw.cn/article/yCSHwdlMNh.shtml

相关文章

CVE-2021-28164源码分析与漏洞复现

漏洞概述 漏洞名称:Jetty 路径解析逻辑漏洞导致 WEB-INF 敏感信息泄露 漏洞编号:CVE-2021-28164 CVSS 评分:7.5 影响版本:Jetty 9.4.37 - 9.4.38 修复版本:Jetty ≥ 9.4.39 漏洞类型:路径遍历/信息泄露 C…

微软常用运行库合集(VisualC++)2025.04.22

软件下载 【名称】:微软常用运行库合集(Visual C)2024.11.07 【大小】:76 .7MB 【语言】:简体中文 【安装环境】:Win7/Win8/Win10/Win11 【迅雷网盘下载】: 链接:https://pan.xunlei.com/s/VOCJ3CDOT6HEhQN…

CATANet:面向轻量级图像超分辨率的高效内容感知令牌聚合方法

摘要 基于Transformer的方法在图像超分辨率(SR)等底层视觉任务中展现出了令人印象深刻的性能。然而,其计算复杂度随空间分辨率呈二次方增长。一系列研究试图通过将低分辨率(LR)图像划分为局部窗口、轴向条纹或膨胀窗口…

十四、【测试执行篇】让测试跑起来:API 接口测试执行器设计与实现 (后端执行逻辑)

[TOC](【测试执行篇】让测试跑起来:API 接口测试执行器设计与实现 (后端执行逻辑)) 前言 测试执行是测试平台的核心价值所在。一个好的测试执行器需要能够: 准确解析测试用例: 正确理解用例中定义的请求参数和断言条件。可靠地发送请求&am…

Linux环境基础开发工具->make/Makefile

引入:make/Makefile是什么? 前面我们知道了vim负责编辑代码,gcc负责编译代码,而make/Makefile则负责的是自动化编译! Makefile是一个文件,make是一条指令 我们在Makefile文件中进行编辑,让哪些…

VMware Tools 手动编译安装版

OWASPBWA安装VMware tools 安装时,显示如下提示 官方安装手册参考:https://knowledge.broadcom.com/external/article?legacyId1014294 按照提示,下载linux.iso文件,并连接到虚拟机的CDROM里,状态勾选已连接&#x…

OpenFeign和Gateway集成Sentinel实现服务降级

目录 OpenFeign集成Sentinel实现fallback服务降级cloud-alibaba-payment8003(支付服务)cloud-common-api(通用模块)cloud-alibaba-order9003(订单服务)Sentinel配置流控规则测试结果 Gateway集成Sentinel实现服务降级cloud-gateway9527(网关)测试结果 总结 OpenFeign集成Sentin…

远程管理SSH服务的搭建

一、搭建SSH服务 1、关闭防火墙与SELinux # 关闭firewalld防火墙 # 临时关闭 systemctl stop firewalld # 关闭开机自启动 systemctl disable firewalld# 关闭selinux # 临时关闭 setenforce 0 # 修改配置文件 永久关闭 vim /etc/selinux/config SELINUXdisabled2、配置yum源…

Cesium快速入门到精通系列教程二

一、添加地形与添加自定义地形 在 Cesium 1.93 中添加地形可以通过配置terrainProvider实现。Cesium 支持多种地形数据源,包括 Cesium Ion 提供的全球地形、自定义地形服务以及开源地形数据。下面介绍几种常见的添加地形的方法: 使用 Cesium Ion 全球地…

基于FashionMnist数据集的自监督学习(生成式自监督学习VAE算法)

目录 一,VAE 1.1 VAE的简介 1.2 VAE的核心思想 1.3 VAE的结构 1.4 VAE的工作原理 1.5 VAE 与传统自动编码器(AE)的区别 1.6 VAE 的应用场景 二,代码逻辑分析 2.1 整体逻辑 2.2 VAE模型 2.3 训练策略与优化 2.4 自适应学…

ESP32基础知识1:项目工程建立和烧录

ESP32基础知识1:项目工程建立和烧录 一、本文内容与前置知识点1. 本文内容2. 前置知识点 二、新建工程1. 工程配置2. 依照模板建立项目 三、硬件烧录1. 硬件准备2. 烧录器和ESP32连接3. 电脑端设置4. 烧录成功演示 四、参考文献 一、本文内容与前置知识点 1. 本文内…

duilib图片属性中corner属性九宫格拉伸说明

在duilib中,图片设置里有corner属性,类似于android系统里的九宫格,对应的分区域拉伸被称为九宫格拉伸。设置corner属性后,将区域分成3x3的九个区域,如下所示: 除了4个拐角区域不拉伸,其余5个区域…

《操作系统真相还原》——进入内核

ELF 按书上的操作来,在现代操作平台编译链接默认生成elf64 格式的文件, 很显然程序头位置发生变化,因为定义elf 结构的类型中有64位,所以我们需要将编译链接出32位格式的 gcc -m32 -c -o main.o main.c ld -m elf_i386 main.o …

笔试笔记(运维)

(数据库,SQL) limit1 随机返回其中一个聚合函数不可以嵌套使用 【^】这个里面的数据任何形式组合都没有 sql常用语句顺序:from-->where-->group by-->having-->select-->order by-->limit 只要其中一个表存在匹…

医疗数理范式化:从范式迁移到认知革命的深度解析

引言 在当代医疗领域,数理思维已经从辅助工具逐渐发展成为核心决策支持系统的关键组成部分。随着数字技术的迅猛发展,医疗行业正经历着前所未有的变革,而数理思维作为这一变革的核心驱动力,正在深刻重塑医疗实践的方方面面。数理思维在医疗领域的应用,本质上是将抽象的数…

golang -- slice 底层逻辑

目录 一、前言二、结构三、创建3.1 根据 make创建3.2 通过数组创建 四、内置append追加元素4.1 追加元素4.2 是否扩容4.2.1 不扩容4.2.2 扩容 总结 一、前言 前段时间学了go语言基础,过了一遍之后还是差很多,所以又结合几篇不同资料重新学习了一下相关…

Fashion-MNIST LeNet训练

前面使用线性神经网络softmax 和 多层感知机进行图像分类,本次我们使用LeNet 卷积神经网络进行 训练,期望能捕捉到图像中的图像结构信息,提高识别精度: import torch import torchvision from torchvision import transforms f…

数据库系统概论(十)SQL 嵌套查询 超详细讲解(附带例题表格对比带你一步步掌握)

数据库系统概论(十)SQL 嵌套查询 超详细讲解(附带例题表格对比带你一步步掌握) 前言一、什么是嵌套查询?1. 基础组成:查询块2. 嵌套的两种常见位置(1)藏在 FROM 子句里(当…

Azure 机器学习初学者指南

Azure 机器学习初学者指南 在我们的初学者指南中探索Azure机器学习,了解如何设置、部署模型以及在Azure生态系统中使用AutoML & ML Studio。Azure 机器学习 (Azure ML) 是一项全面的云服务,专为机器学习项目生命周期而设计&am…

使用win11圆角指针教程

一.准备文件 win11圆角指针下载链接:https://wwxh.lanzoum.com/iwsZH2xqmy0d 密码:em 二.开始安装 1.将下载的压缩包解压(随便存哪,最后可以删掉) 右键,点击“全部解压缩” 点击“提取” 2.安装 选…