描述性统计的可视化分析

article/2025/6/16 13:31:27

初步研究数据的分布时,最直观的方法就是可视化分析了。

1. 直方图

直方图(histogram)出现得很早,而且应用广泛。
直方图是以一种图形方法来概括给定数值X的分布情况的图示。
如果X是离散的变量,比如股票类型,则对于X的每个已知的值,画一个柱或竖直条。条的高度表示该X值出现的频率(即计数)​。这种图更多地被称为条形图(bar chart)​。
如果X是连续型变量,比如股票的市盈率,则会更多地使用术语直方图。在术语直方图里,X的值域被划分成不相交的连续子域。子域称为桶(bucket)或箱(bin)​,是X的数据分布的不相交子集。桶的范围称为宽度。通常,每个桶都是等宽的。比如,值为1~100的价格属性可以划分成子域1~20、21~40、41~60,等等。对于每个子域,画一个条,其高度表示在该子域观测到的商品的计数。

有时候,我们需要比较两个数据集的差异。如何最直观地比较两个数据分布的差异呢?答案就是将两个数据分布画在一张图上。
假设生成两个正态分布的数据集。
数据集1:均值为-1,标准差为2,1000个样本。
数据集2:均值为0,标准差为1,5000个样本。

在这里插入图片描述
这个图蓝色的区域被红色大面积挡住了,看不太清楚,怎么办呢?可以加入一个参数alpha=0.5,增加图形的透明度。

在这里插入图片描述

有了透明效果,两个分布就都能看到了。还有一个问题,数据集2有5000个样本,远多于数据集1的1000个。这里默认画的是绝对数量(默认是频数图),所以数据集2看起来要格外高一些。
但我们需要的是相对概率,而不是绝对数量。因此可以再加入一个参数density=True(绘制频率图),来比较概率分布。

在这里插入图片描述

2. 散点图

散点图(scatter plot)是确定两个数值变量X、Y之间看上去是否存在联系,以及具有怎样的相关模式的最有效的图形方法之一。
为构造散点图,将每个值对(x,y)视为一个代数坐标对,并作为一个点画在平面上。
散点图是一种观察双变量数据的有效方法。两个属性X和Y,如果一个属性和另一个属性有关系,则它们是相关的。相关可能是正的、负的或不相关。
如果标绘点的模式是从左下向右上倾斜,则意味X的值随着Y值的增加而增加了,表示正相关。
如果标绘点的模式从左上向右下倾斜,则意味着X的值随着Y值的减小而增加了,表示负相关。
可以画一条最佳拟合线,研究变量之间的相关性。

在这里插入图片描述
这里使用的是seaborn自带的一个数据集。这个数据集里面总共有四组数据,用罗马数字来代表组数。
我们只需要按类似的格式将数据整理好,就可以使用seaborn.lmplot来画出各组的散点图,而且顺便也能将各组的线性回归直线也画出来。
从图中可以看出,第1组和第3组的x,y值是正相关的。第2组的似乎是一个二次曲线。第4组除了一个异常点之外,其他所有点的x都是相同的。
这就是seaborn的好处,可以非常方便地用一个函数分析出不同数据组之间的相关性。

想了解 seaborn.lmplot 各个参数的具体含义请查看官网介绍。

3. 盒图

为了更加全面地了解一个分布,五数概括是一个很好的工具。
五数概括由中位数、两个四分数、最小、最大值组成。按次序分别表示为Minimum,Q1,Median,Q3,Maximum。

盒图(boxplot)是一种流行的分布的图形表示。盒图就体现了五数概括的特点。

  • 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。
  • 中位数用盒内的线标记。
  • 盒外的两条线延伸到最小和最大的观测值。

seaborn也可以非常方便地画出盒图。

在这里插入图片描述
这里也是使用了seaborn自带的数据集。这个数据集有好几个维度,比如sex(性别)​、smoker(是否吸烟)​、day(星期几)​。统计数据有total_bill(总账单)​、tip(小费)​。

以上代码是将day作为x轴,用smoker作为第二维度,画出了total_bill的盒图(数据分布)​。最中间的线就是中位数,实体上下边缘是四分位数,上下影线是最大最小值、灰点是异常值。

我们也可以将第二维度选为sex,只需要将函数中的参数hue换为sex即可。

在这里插入图片描述
可以看到图例变为了sex。


http://www.hkcw.cn/article/DrYsZqeyFD.shtml

相关文章

梅花鹿横穿马路被车撞倒后跑进丛林 后视镜遭殃引发热议

5月31日清晨,大连市民在滨海路晨跑时目睹了一起意外。一只梅花鹿试图穿过马路时被一辆小车撞翻在地,但随后它站起身来,迅速跑进了路边的树林。这辆小车的左侧后视镜被撞断。网友拍摄的视频显示,这只梅花鹿从绿化带突然跑向机动车道,一辆白色汽车避让不及撞了上去。此事引起…

福建8岁男童失踪近一个月 搜寻仍在继续

8岁男童邹某樽在福建仙游县石谷解登山时与家人失联,至今已失踪近一个月。网友们纷纷呼唤他快回家过“六一”儿童节。5月4日,邹某樽随父母到石谷解登山,在下山过程中与父母失去联系。当天16时左右,孩子母亲报警后,仙游县立即启动应急响应机制,组织公安、森林消防、救援队、…

论文笔记: Urban Region Embedding via Multi-View Contrastive Prediction

AAAI 2024 1 INTRO 之前基于多视图的region embedding工作大多遵循相同的模式 单独的单视图表示多视图融合 但这种方法存在明显的局限性:忽略了不同视图之间的信息一致性 一个区域的多个视图所携带的信息是高度相关的,因此它们的表示应该是一致的如果能…

Python实现P-PSO优化算法优化卷积神经网络CNN分类模型项目实战

说明:这是一个机器学习实战项目(附带数据代码文档),如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 随着人工智能技术的快速发展,卷积神经网络(CNN)在图像分类、目标检测和模式识别…

3D-激光SLAM笔记

目录 定位方案 编译tbb ros2humble安装 命令 colcon commond not found 栅格地图生成: evo画轨迹曲线 安装gtsam4.0.2 安装ceres-solver1.14.0 定位方案 1 方案一:改动最多 fasterlio 建图,加闭环优化,参考fast-lio增加关…

VizCut:全免费无广告的批量视频去重剪辑工具,支持无水印下载与GPU加速

软件介绍 VizCut 是一款优秀的本地批量自动剪辑工具,可制作和分享剪辑模板,已提供20种剪辑方案,内置众多扫光蒙版素材。支持二次去重批量处理,完全免费,无广告,且支持视频无水印解析下载,非常强…

使用Gemini, LangChain, Gradio打造一个书籍推荐系统 (第四部分)

第四部分:为每本书加上情绪标签 import pandas as pd books pd.read_csv("books_with_categories.csv") from transformers import pipeline classifier pipeline("text-classification",model"j-hartmann/emotion-english-distilrober…

JS逆向案例—喜马拉雅xm-sign详情页爬取

JS逆向案例——喜马拉雅xm-sign详情页爬取 声明网站流程分析总结 声明 本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权&am…

Java日志体系

前言:🐭🐭已经两年没更新了,主要原因是因为🐭🐭考研去了,前段时间读研和工作压力都比较大所以没时间更新,今后🐭🐭会慢慢恢复更新 1 流程和原理梳理 日志体…

【HW系列】—Windows日志与Linux日志分析

文章目录 一、Windows日志1. Windows事件日志2. 核心日志类型3. 事件日志分析实战详细分析步骤 二、Linux日志1. 常见日志文件2. 关键日志解析3. 登录爆破检测方法日志分析核心要点 一、Windows日志 1. Windows事件日志 介绍:记录系统、应用程序及安全事件&#x…

使用交叉编译工具提示stubs-32.h:7:11: fatal error: gnu/stubs-soft.h: 没有那个文件或目录的解决办法

0 前言 使用ST官方SDK提供的交叉编译工具、cmake生成Makefile,使用make命令生成可执行文件提示fatal error: gnu/stubs-soft.h: 没有那个文件或目录的解决办法,如下所示: 根据这一错误提示,按照网上的解决方案逐一尝试均以失败告…

苏超第三轮徐州2-1战胜连云港 端午假期迎首胜

北京时间5月31日,2025年江苏省城市足球联赛第3轮,徐州队主场以2-1战胜连云港队,迎来首胜。这场比赛正值端午假期,吸引了22198位球迷涌入徐州奥体中心观赛,上座人数甚至超过了部分中超比赛。目前,徐州队在先赛一场的情况下取得1胜2平积5分的成绩,暂时排名积分榜第三。而连…

富翁错失NASA局长提名 白宫:必须完全认同特朗普

亿万富翁错失NASA局长提名 白宫:必须完全认同特朗普当地时间5月31日,白宫表示,特朗普将很快宣布新的NASA局长提名人选。△贾里德艾萨克曼(资料图)白宫尚未解释原提名人贾里德艾萨克曼(Jared Isaacman)为何退出。据知情人士称,白宫已决定撤回艾萨克曼的提名。白宫发言人…

[USACO1.5] 八皇后 Checker Challenge Java

import java.util.*;public class Main {// 标记 对角线1,对角线2,所在x轴 是否存在棋子static boolean[] d1 new boolean[100], d2 new boolean[100], d new boolean[100]; static int n, ans 0;static int[] arr new int[14]; // 记录一轮棋子位置…

数据库核心技术深度剖析:事务、索引、锁与SQL优化实战指南(第四节)----从行级锁到死锁处理的系统梳理

Introduction:收纳技术相关的数据库知识 事务、索引、锁、SQL优化 等总结! 文章目录 数据库锁行级锁(Row-Level)属性锁共享锁(Shared Locks)排它锁(Exclusive Locks) 锁实现方式Record Lock(记录锁)Gap Lock(间隙锁)Next-Key Lock(临键锁) 加锁机制乐观锁…

79. 单词搜索-极致优化,可行性剪枝和顺序剪枝

给你一个目标字符串,和一个二维字符数组,判断在数组中是否能找到目标字符串。 例如,board [["A","B","C","E"],["S","F","C","S"],["A","…

VLAN的作用和原理

1. 为什么要有vlan? 分割广播域,避免广播风暴,造成网络资源的浪费 可以灵活的组网,便于管理,同时还有安全加固的功能 2. vlan是怎么实现的?端口的原理? 设置VLAN后,流量之间的转…

使用MCP和Ollama本地创建AI代理:实操教程

如果你在过去几个月没有与世隔绝的话,那么你很可能看到过多篇提到新的模型上下文协议(MCP)的文章。 MCP是Anthropic发布的一个新标准,旨在弥合大型语言模型(LLMs)与外部世界之间的差距。MCP提供了一种标准化的方式,让模型能够访问资源——比如数据和工具——来帮助它们…

美防长被中方代表质问后答非所问 回避东盟立场问题

在第22届香格里拉对话会上,国防大学代表团成员张弛向美国防长赫格塞思提问:“你提到盟友和伙伴很重要。但是,美国近年在本地区建立的多边联盟和框架,例如美日澳印四边机制和美英澳三边安全伙伴关系,都没有包括东盟国家。所以,如果美国的联盟和东盟之间产生分歧或争端,你…

吴恩达MCP课程(3):mcp_chatbot

原课程代码是用Anthropic写的,下面代码是用OpenAI改写的,模型则用阿里巴巴的模型做测试 .env 文件为: OPENAI_API_KEYsk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx OPENAI_API_BASEhttps://dashscope.aliyuncs.com/compatible-mode…