从0开始学习R语言--Day12--泊松分布

article/2025/8/3 16:26:29

今天我们来看一个很经典的回归模型:泊松分布。

泊松分布

我们一般会把泊松分布用于预测问题,比如想知道成年人每天接到的骚扰电话次数,医院每天的急诊病人等。但在一些方面,跟我们想的会有出入。例如你不能将其应用在预测下周你的体重会是多少,看起来同是预测问题,但其背后隐含了数据的关系。

在预测每天接到的骚扰电话次数事件时,昨天接到的电话次数,跟今天的是没有关系的,急诊病人数量也一样,但如果是预测下周一个人的体重,那么其实会发现,下周的体重会跟下周前一天1有关系,在一个特定的区间内浮动,类似的,也就能推导到一周前。当然,如果要把泊松分布应用在预测急诊病人的数量,那么就需要特殊的前置条件,比如最近爆发了传染性较强的病毒,所以急诊病人数量会在一段时间内维持在一个比较高的数值。

所以,使用泊松分布的关键就在于,判断每个数据点之间是否有联系,从概率学上来讲,就是每一个数据点,都代表了一次独立概率事件,他们之间是互不影响的,只要满足这种特点,就能运用泊松分布,当然也不要忽略一些数值条件(比如泊松分布要求Y是整数),你不能说预测班里身高超过1米8的人有10.5个吧。

下面我们用一段实例来说明:

library(tidyverse)
library(ggplot2)set.seed(123)  # 固定随机种子,确保结果可复现
n <- 500       # 样本量# 生成自变量:天气质量(weather,0~10)和是否促销(promotion,0/1)
weather <- runif(n, min = 0, max = 10)
promotion <- rbinom(n, size = 1, prob = 0.3)  # 30%的日期有促销# 生成因变量:每日冰淇淋销量(sales),使用泊松分布
true_beta <- c(1.5, 0.2, 0.8)  # 真实系数:截距、weather、promotion
log_lambda <- true_beta[1] + true_beta[2] * weather + true_beta[3] * promotion
sales <- rpois(n, lambda = exp(log_lambda))  # 生成泊松分布的计数数据# 构建数据框
df <- data.frame(sales, weather, promotion)
# 使用 glm() 拟合泊松回归模型
model <- glm(sales ~ weather + promotion, family = poisson(link = "log"),  # 指定泊松分布和对数链接data = df)# 查看模型摘要
summary(model)# 新数据预测
new_data <- data.frame(weather = c(8, 3),      # 天气8分 vs 3分promotion = c(1, 0)      # 有促销 vs 无促销
)# 预测销量
pred_sales <- predict(model, newdata = new_data, type = "response")
pred_sales  # 输出预测值# 检查是否过离散(Overdispersion)
library(AER)
dispersiontest(model)# 天气 vs 销量(按促销分组)
ggplot(df, aes(x = weather, y = sales, color = factor(promotion))) +geom_point(alpha = 0.6) +geom_smooth(method = "glm", method.args = list(family = poisson), se = FALSE) +labs(title = "天气和促销对冰淇淋销量的影响",x = "天气评分", y = "销量",color = "促销(1=是)") +theme_minimal()

输出:

            Estimate Std. Error z value Pr(>|z|)    
(Intercept) 1.508115   0.028471   52.97   <2e-16 ***
weather     0.200169   0.003801   52.66   <2e-16 ***
promotion   0.787791   0.020243   38.92   <2e-16 ***1         2 
49.267146  8.236879 

从输出中我们可以得知,当天气达到8分且有促销时,预测的销量为49.2;若天气只有3分且没有促销时,预测的销量为8.2。而且我们能观察到天气和促销的P值小于0.05,这说明这两个变量都对销量有很大的影响。


http://www.hkcw.cn/article/WBYNPdNEIr.shtml

相关文章

机器学习无监督学习sklearn实战一:K-Means 算法聚类对葡萄酒数据集进行聚类分析和可视化( 主成分分析PCA特征降维)

本项目代码在个人github链接&#xff1a;https://github.com/KLWU07/Machine-learning-Project-practice/tree/main/1-Wine%20cluster%20analysis 如果对于聚类算法理论不理解可参考这篇之前文章机器学习中无监督学习方法的聚类&#xff1a;划分式聚类、层次聚类、密度聚类&…

接口的概念及特性

目录 1、接口的概念2、语法规则2.1 接口的定义2.2、接口的使用 3、特性4、实现多个接口5、接口中的继承6、接口使用实例 1、接口的概念 在现实生活中&#xff0c;接口的例子有很多&#xff0c;比如&#xff1a;笔记本的 USB 接口&#xff0c;电源插座等。在电脑的 USB 口上&am…

品牌控价维护渠道生态与品牌价值的关键

在品牌发展的征程中&#xff0c;随着经销商队伍不断壮大&#xff0c;价格管控已成为关乎品牌存亡的核心命题。价格体系一旦失控&#xff0c;渠道乱象便如潮水般涌来。低价倾销不仅挤压正规经销商的生存空间&#xff0c;削弱其市场竞争力&#xff0c;更会引发消费者对产品价值的…

2011肠衣问题

1 D类竞赛题目---具体题目 D题 天然肠衣搭配问题 天然肠衣&#xff08;以下简称肠衣&#xff09;制作加工是我国的一个传统产业&#xff0c;出口量占世界首位。肠衣经过清洗整理后被分割成长度不等的小段&#xff08;原料&#xff09;&#xff0c;进入组装工序。 传统的生产…

Express教程【001】:Express创建基本的Web服务器

文章目录 1、初识express1.1 什么是Express1.2 主要特点1.3 Express的基本使用1.3.1 安装1.3.2 创建基本的Web服务器 1、初识express 目标&#xff1a; 能够使用express.static()快速托管静态资源能够使用express路由精简项目结构能够使用常见的express中间件能够使用express创…

CentOS 7 环境中部署 LNMP(Linux + Nginx + MySQL 5.7 + PHP)

在 CentOS 7 环境中部署 LNMP&#xff08;Linux Nginx MySQL 5.7 PHP&#xff09; 环境的详细步骤如下。此方案确保各组件版本兼容&#xff0c;并提供完整的配置验证流程。 1. 更新系统 sudo yum update -y 2. 安装 MySQL 5.7 2.1 添加 MySQL 官方 YUM 仓库 由于MySQL并不…

从零打造算法题刷题助手:Agent搭建保姆级攻略

我用Trae 做了一个有意思的Agent 「大厂机试助手」。 点击 https://s.trae.com.cn/a/d2a596 立即复刻&#xff0c;一起来玩吧&#xff01; Agent 简介 Agent名称为大厂机试助手&#xff0c;主要功能有以下三点。 解题&#xff1a; 根据用户给出的题目给出具体的解题思路引导做…

华院计算出席信创论坛,分享AI教育创新实践并与燧原科技共同推出教育一体机

5月21日&#xff0c;信创论坛于上海漕河泾会议中心举办。本次论坛以“聚力融合&#xff0c;繁荣生态”为主题&#xff0c;话题聚焦工业制造、交通运输、金融、教育、医疗等领域。华院计算技术&#xff08;上海&#xff09;股份有限公司&#xff08;以下简称“华院计算”&#x…

MyBatis操作数据库

1.MyBatis:MyBatis是一款优秀的持久层框架,用于简化JDBC的开发.(持久层通常指数据访问层,用来操作数据库). 创建userInfo表,并插入如下数据: 在model中建立userinfo实体类,属性与之一一对应. 配置数据库连接字符串,Mybatis中要连接数据库,需要数据库相关参数配置. 接下来就可…

OCC笔记:BRepMesh_IncrementalMesh的使用

1. 函数接口 2. 线性偏转与角度偏转 2.1. theLineDeflection&#xff1a;线性偏转 根据文档推导下 isRelative传入Standard_True时&#xff0c;theLineDeflection为相对值。 参看isRelative说明 //! param isRelative if TRUE deflection used for discretization of //! ea…

调试技巧总结

目录 一.调试1.什么是调试2.调试语义的分类2.1 静态语义2.2 动态语义 二.实用的调试技巧1.屏蔽代码2.借助打印3.查看汇编代码4.调试技巧总结 一.调试 1.什么是调试 调试&#xff0c;通俗易懂地说就是不断排查代码的错误&#xff0c;进行修正的过程&#xff0c;在写代码的时候…

通过实时动作捕捉加速人形机器人训练

通过实时动作捕捉加速人形机器人训练 用于训练、控制和性能优化的精确实时运动学——受到全球机器人创新者的信赖&#xff01; 为什么选择 Xsens 进行人形机器人训练&#xff1f; 无与伦比的运动数据精度-经过科学验证的运动数据&#xff0c;用于简化AI/ML训练。 轻松集成到…

【UE5 C++】绘制地表贴合线

目录 原理 效果 步骤 源码 原理 先设置绘制线段的起点和终点&#xff0c;然后我们将起点和终点的高度升高&#xff0c;然后通过插值&#xff0c;在起点和终点之间添加多个点&#xff0c;再由这些点向地心发出射线&#xff0c;这样我们就可以获取到这些点在地表的投影点&…

01 redis 的环境搭建

前言 这一系列文章主要包含的内容主要是 各种常用软件的调试环境的搭建 主要的目的是 搭建一个可打断点的一个调试环境 c 系列 主要是基于 clion 调试, java 系列主要是基于 idea 调试, js 系列主要是基于 webstorm 调试 需要有一定的 c, c, java, js 相关基础 基于的…

python打卡训练营打卡记录day40

知识点回顾&#xff1a; 彩色和灰度图片测试和训练的规范写法&#xff1a;封装在函数中展平操作&#xff1a;除第一个维度batchsize外全部展平dropout操作&#xff1a;训练阶段随机丢弃神经元&#xff0c;测试阶段eval模式关闭dropout 作业&#xff1a;仔细学习下测试和训练代码…

Tailwind CSS 实战:基于 Kooboo 构建 AI 对话框页面(五):语音合成输出与交互增强

Tailwind CSS 实战&#xff0c;基于Kooboo构建AI对话框页面&#xff08;一&#xff09; Tailwind CSS 实战&#xff0c;基于Kooboo构建AI对话框页面&#xff08;二&#xff09;&#xff1a;实现交互功能 Tailwind CSS 实战&#xff0c;基于 Kooboo 构建 AI 对话框页面&#x…

【MySQL】MVCC与Read View

目录 一、数据库并发的三种场景 二、读写场景的MVCC &#xff08;一&#xff09;表中的三个隐藏字段 &#xff08;二&#xff09;undo 日志 &#xff08;三&#xff09;模拟MVCC &#xff08;四&#xff09;Read View &#xff08;五&#xff09;当前读和快照读 三、RC和…

代码随想录打卡|Day53 图论(Floyd 算法精讲 、A * 算法精讲 (A star算法)、最短路算法总结篇、图论总结 )

图论part11 Floyd 算法精讲 代码随想录链接 题目链接 代码 三维DP数组 import java.util.Scanner;public class Main {// 定义最大距离值&#xff0c;避免使用Integer.MAX_VALUE防止加法溢出public static final int INF 100000000; // 10^8足够大且不会溢出public static…

CSS Day07

1.搭建项目目录 2.网页头部SEO三大标签 3.Favicon图标与版心 &#xff08;1&#xff09;Favicon图标 &#xff08;2&#xff09;版心 4.快捷导航 5.头部-布局 6.头部-logo 7.头部-导航 8.头部-搜索 9头部-购物车 10.底部-布局 11.底部-服务区域 12.底部-帮助中心 13.底部-版权…

leetcode hot100刷题日记——29.合并两个有序链表

解答&#xff1a; 方法一&#xff1a;递归 递归的边界条件是啥呢&#xff1f; 递归别想那么多具体步骤&#xff0c;考虑大步骤&#xff0c;小的递归自己会去做的 class Solution { public:ListNode* mergeTwoLists(ListNode* list1, ListNode* list2) {//递归比较大小//先考虑…