数据分析之A/B测试,看这一篇就够了!

article/2025/7/19 0:15:50

一、ab test 中的假设检验原理是什么,它是怎么跟ab test结合的

• 控制变量法下的假设检验

假设检验的基本思想:“小概率事件”原理,其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。

假设检验基本思路:在小概率事件原理的基础上,带有概率性质的反证法。

1.假设检验

思路:

概率论中,如果我们能够证明零假设不成立,那么其备择假设肯定为真。即,零假设和备择假设为对立事件。

设立假设:

零假设:A和B没有显著差异

备择假设:A和B有显著差异

如果能找到足够强的证据来否定零假设(A和B没有显著差异),那么就能有效的说明零假设不成立,即备选假设成立。

证据:

计算零假设成立的前提下A和B没有显著差异的概率P.value,零假设为真的概率,若P值=0.01,显著性水平α为0.05,则零假设成立的概率=1% < 5%,而备择假设成立的概率大于95%,因此否定了零假设,可认为备择假设为真。

结论:

P.value<=α,拒绝零假设;P.value>α,不拒绝零假设

假设检验的两类错误:注:弃真和取伪都是针对零假设的。

I类错误——弃真错误,发生的概率为α,否定了真实的原假设。避免方法:可通过α水平控制,降低α水平

II类错误——取伪错误,发生的概率为β,接受了错误的原假设。避免方法:可通过扩大样本容量

Type 1

1.H0:他没有怀孕

2.H1:他怀孕了

第一类错误:弃真错误。H0是真的,但是被拒绝了。

第一类错误:弃真错误。H0是真的,但是被拒绝了。

Type 2

1.H0:她没有怀孕

2.H1:她怀孕了

第二类错误:取伪错误。H0是假的,但是被接受了。

第二类错误:取伪错误。H0是假的,但是被接受了。

二、如何选择实验的样本量

在线计算网址

  • Compare 2 Means 2-Sample, 2-Sided Equality | Power and Sample Size Calculators | HyLown

1.数值类计算:需要填写方差

  • Compare 2 Means 2-Sample, 2-Sided Equality | Power and Sample Size Calculators | HyLown
  • Power/Sample Size Calculator (ubc.ca)

2.比值类计算:不需要方差

  • Sample Size Calculator (Evan’s Awesome A/B Tools) (evanmiller.org)
  • A/B Test Size Calculator - ABTestGuide.com

(1)实验所需样本量的一般公式

统计学里有最小样本量计算公式,如下:

其中

n是每组所需样本量,因为A/B测试一般至少2组,所以实验所需样本量为2n;

α和β分别称为第一类错误概率和第二类错误概率,一般分别取0.05和0.2;

Z为正态分布的分位数函数;

Δ为两组数值的差异,如点击率1%到1.5%,那么Δ就是0.5%;

σ为标准差,是数值波动性的衡量,σ越大表示数值波动越厉害。

其中

n是每组所需样本量,因为A/B测试一般至少2组,所以实验所需样本量为2n;

α和β分别称为第一类错误概率和第二类错误概率,一般分别取0.05和0.2;

Z为正态分布的分位数函数;

Δ为两组数值的差异,如点击率1%到1.5%,那么Δ就是0.5%;

σ为标准差,是数值波动性的衡量,σ越大表示数值波动越厉害。

从这个公式可以知道,在其他条件不变的情况下,如果实验两组数值差异越大或者数值的波动性越小,所需要的样本量就越小。

(2)比例类数值所需样本量的计算

R和G*Power使用的样本量计算公式:

实际A/B测试中,我们关注的较多的一类是比例类的数值,如点击率、转化率、留存率等。

这类比例类数值的特点是,对于某一个用户(样本中的每一个样本点)其结果只有两种,“成功”或“未成功”;对于整体来说,其数值为结果是“成功”的用户数所占比例。如转化率,对于某个用户只有成功转化或未成功转化。

比例类数值的假设检验在统计学中叫做两样本比例假设检验。其最小样本量计算的公式如上图所示。

上面式子中p1我们称为基础值,是实验关注的关键指标现在的数值(对照组);p2我们称为目标值,是希望通过实验将其改善至的水平;第一类错误和第二类错误上边已经提到,暂不多做说明,通常设定α为0.05,β为0.2 。

(3)样本量的四个影响因素

要确定所需样本量,首先得知道哪些因素会影响样本量大小。

以独立样本T检验为例,在计算实验效果的时候,除了样本量,我们还会考虑下面4个指标。

显著性水平(α)(第一类错误概率):显著性水平越低,对实验结果的要求也就越高,越需要更大的样本量来确保精度

统计功效(1 – β)(第二类错误概率):统计功效意味着避免犯二类错误的概率,这个值越大,需要的样本量也越大

均值差异(μ A − μ B):如果两个版本的均值差别巨大,也不太需要多少样本,就能达到统计显著

标准差(σ):标准差越小,代表两组差异的趋势越稳定。越容易观测到显著的统计结果

在这个公式里:

nA代表A组的样本数量,nB代表B组的样本数量

K为nA与nB的比值,这个值一般情况下,我们都默认为1,即AB两组的用户数量相等,方便做严谨的AB实验对比。

三、指标的提升怎么判断显著性

假设我们有了数据结果,策略A的转换率是10%,策略B的转换率是8%,那我们说策略A比策略B好,这样就可以了吗?不可以,因为可能是抽样误差引起的转换率差异,为了区分实验A和B的差异是由抽样误差引起的?还是本质差别引起的?我们需要做假设验证 (hypothesis testing)。统计学中有很多假设验证方法,例如:

T检验: 也称Student’s t test,适用: 样本量较小(如n<30),总体标准差未知,正态/近似正态分布的样本。目的: 比较平均值之间差异是否显著。

(1)单样本T检验: 总体样本vs抽样样本。

(2)配对样本T检验: 同一对象接受两种不同的处理。

(3)双独立样本T检验: 两组独立样本。

Z检验: 也称U检验,适用: 大样本量(如n>30),总体标准差已知,正态/近似正态分布的样本。目的: 比较平均值之间差异是否显著。

F检验: 适用: 正态/近似正态分布的变量。目的: 检验两个正态分布变量的总体方差是否相等。

卡方检验: 也称chi-square test或X2 test,适用: 类别型变量。目的: 检验两个变量之间有无关系,例如性别和是否购买数码产品之间的关系。

我们做AB Test,“如果样本量足够大,那么Z检验和t检验将得出相同的结果。对于大样本,样本方差是对总体方差的较好估计,因此即使总体方差未知,我们也可以使用样本方差的Z检验”。但正常来说,除非是长期的实验(0.5-1年),例如算法,会选择Z检验。正常的短期AB Test基本是实验1个月内甚至说1-2周,那么此时建议选择T检验。

我们做AB Test,“如果样本量足够大,那么Z检验和t检验将得出相同的结果。对于大样本,样本方差是对总体方差的较好估计,因此即使总体方差未知,我们也可以使用样本方差的Z检验”。但正常来说,除非是长期的实验(0.5-1年),例如算法,会选择Z检验。正常的短期AB Test基本是实验1个月内甚至说1-2周,那么此时建议选择T检验。

假设检验的检验有两种:单边假设检验双边假设检验,前者判断A、B是否显著优/劣于对方,后者判断A、B是否存在显著差异。

四、aa 检验怎么做, 怎么判断aa 做的科学

1.分配流量,AA实验:

实际AB实验中可能出现抽样不均的情况,例如实验组恰好有很多土豪,那么结果就会产生偏差,为了保证实验数据的变化仅仅是实验本身引起的,可以一次性抽取4,5组流量,选择任意两组不加策略空跑,监控核心指标数据,选取两组数据最接近的上实验(控制变量)

(1)AA进行假设检验,检验AA是否有显著差异,如果随机分流稳定,AA不会有显著差异;

(2)检查小样本的分流比例是否和设定的相差不多,例如,看新老用户分别的分流比例、2000家酒店detail页的分流比例等等;

(3)顺着随机分流系统的代码规则,看一个用户是否被分到该分的组内(难度大,主要是看随机分流系统有无问题)

(4)分流启动后分析个分组是否符合流量分配大小比例;分析各组用户属性,是否符合整体用户属性分布。

五、ab test 主要的应用场景

1.体验优化

用户体验永远是卖家最关心的事情之一,但已经完善的落地页随意的改动是一件很冒险的事情,因此很多卖家会通过AB测试进行决策,常见的是在保证其他条件一致的情况下,针对某一单一的元素进行AB两个版本的设计,并进行测试和数据收集,最终选定数据结果更好的版本。

2.转化率优化

通常影响电商销售转化率的因素有产品标题、描述、图片、表单、定价等,通过测试这些相关因素的影响,不仅可以直接提高销售转化率,长期进行也能提高用户体验。

3.广告优化

广告优化可能是AB测试最常见的应用场景了,同时结果也是最直接的,营销人员可以通过AB测试的方法了解到哪个版本的广告更受用户的青睐,了解到哪些步骤怎么做才能最吸引用户。

4.推荐及算法优化

当有需要进行验证的算法时,可以通过AB测试来进行试验验证,相比全量更新,AB测试所进行的灰度测试更便捷,风险控制更精准。

5.UI优化

这是比较常见的场景。不像功能的设计,存在着很多逻辑上的思路,经常还是可以确定哪种方案好,哪种方案不好。UI的优化,往往是很“艺术”层面的。往往看到真实数据前,谁也难以说明哪种设计能带来更好的数据效果。

6.文案变化

7.页面布局

页面布局,主要指的是同页面中的不同元素的排列方式。

六、ab test流程

流程一

1.确认实验目标

比如:找到召回沉默用户效率最高的策略

2.设计实验

明确目标用户

过去30天-180天未下单老客

试验周期

测试一周,周期内不进行打散

最小样本量

参照**【(2) 如何选择实验的样本量】**

用户分组和分组策略

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sgIVLHLG-1642665909788)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20211021153154019.png)]

分流比例

3.上线实验与过程监控

需要检测实验是否按照预期设定正常运行,在A/B实验中常出现的需要检查的问题有如下:

空白组是否真的空白的,有无空白组用户领取到实验组1、实验组2、实验组3发的券,如果发现有领券的,那需要排查分流系统问题(一般需要产研根据log信息找到当时为什么判定给该用户发券)

1个用户是否仅属于某一个组,有无存在多个组的情况

分流是否和预先设定的分流比例一致,误差1%也要寻找原因

实验样本是否是预先设定的目标实验样本,判断实验是否进行了用户筛选过滤,比如本实验是对沉默用户进行召回,有无近30天有交易的活跃用户也被发券,如果有那说明目标用户的圈选出问题,需要排查上下游看看是哪个环节出现问题

4.结果复盘:ROI评估

流程二

1.确定业务目标

明确要提升的业务指标

明确要改进的产品/策略

2.选择检验指标

3.哪些指标能够体现出因策略不同而引起的变化

4.确定统计量

5.明确要检验的指标,是平均值,是方差,还是比例

6.确定零假设和备择假设

7.样本量计算

根据确定的统计量指标,选择合适的假设检验方法进行结论验证,如T检验,Z检验,F检验,卡方检验等。

8.检验策略、分组策略选择

A组:下单推荐页前12个推荐,9个C类店铺商品

B组:下单推荐页前12个推荐,6个C类店铺商品

C组:下单推荐页前12个推荐,3个C类店铺商品

D组:不干预(对照组)

9.统计检验结果

通过统计量及统计量的P值来观测。

通过样本量分布和显著性水平来确定拒绝域和接受域,从而拒绝或者接受结果。

10.业务决策

11.AB测试的条件的时候,如何解决问题

没有系统:没有灰度发布系统,无法给不同用户发送不同版本。可以考虑手动进行分组,然后进行线下试验,或者手动给不同用户发送不同的版本;

用户量不够:无法达到最小样本量。可以减少实验条件,或者重新设计实验;如果是统计量比例,可以延长实验周期;如果是小众用户,可以考虑配对样本T检验。

时间成本高:如果是一个月度以上的实验,时间成本太高。可以研究以日为周期或周为周期对月度的影响,然后进行日实验或周实验。

流程三

ABtest本质上是一个:两总体假设检验问题,要检验A、B两个版本是一样,还是有所区别。和之前介绍的单总体假设检验一样,两总体假设检验,也分步骤:

第一步:明确要检验的A、B两个对象

第二步:明确要检验的指标,是平均值,还是比例

第三步:根据检验目的,给出原假设/备选假设户,可以考虑配对样本T检验。

第四步:根据要检验的指标,选择检验统计量

时间成本高:如果是一个月度以上的实验,时间成本太高。可以研究以日为周期或周为周期对月度的影响,然后进行日实验或周实验。

版权声明:本文为CSDN博主「画扇落汗」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/garbageSystem/article/details/12260383

版权声明:本文为CSDN博主「画扇落汗」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/garbageSystem/article/details/12260383

-END-

今天,小编给大家准备了一份《数据分析全套大礼包》(学习+求职)

礼包内含:

  • 理论——统计学高清知识思维导图+数据分析思维指南

  • 技能——SQL学习路径导图+Python核心知识导图

  • 实战——数据分析实战宝典+数据分析报告模板

  • 求职——17份数据分析面经+17个数据分析简历模板

理论——统计学高清知识思维导图+数据分析思维指南

技能——SQL学习路径导图+Python核心知识导图

实战——数据分析实战宝典+数据分析报告模板

求职——17份数据分析面经+17个数据分析简历模板

回复【301】即可领取

《数据分析全套大礼包》内容概览

想要获取更多精彩的内容和个性化的功能吗?

快来点击菜单栏,开启新的体验吧!

如果您认为我们的公众号内容对您有帮助,请分享给您的朋友们,

并把它设为星标

⭐,方便您随时查看。


http://www.hkcw.cn/article/aXsuqnWyRj.shtml

相关文章

华西刘进:写病历,上台拉钩很重要,规培生要有疲劳下工作的能力

丁香早读工作日准时更新 追踪医疗热点、分享行业热议 浙江大学医学院附属邵逸夫医院重症医学科主任潘孔寒逝世 2024 年 8 月 17 日 23 点 13 分,浙江大学医学院附属邵逸夫医院重症医学科主任潘孔寒同志因病医治无效在医院逝世,享年 60 岁。潘孔寒,1964 年 11 月出生于浙江温…

妖、魔、鬼、怪、精、灵,这些妖怪都有什么区别?

妖怪是什么?在民间传说里,我们将除了人和神以外存在于天地中的超自然生命,都叫做妖怪。故事里的人物,只要看见不认识的可怕生物,就会大喊一句「妖怪来了」!但实际上,妖怪「内部」也是有细分的。妖是妖,怪是怪,精是精,灵是灵,魔是魔,鬼是鬼。那么,他们到底有什么区…

警惕!西尼罗河病毒悄然逼近,致62人死亡,预防措施早知道!

近年来,全球公共卫生领域频繁面临各类病毒疫情的挑战,其中西尼罗河病毒(West Nile Virus, WNV)作为一种人兽共患病病原体,其疫情爆发引起了广泛关注。近期,以色列爆发的西尼罗河病毒疫情尤为严重,已导致858人确诊,62人死亡,这一数字不仅让人震惊,也再次将这一病毒的危…

值得一游的五十处古建筑,你打卡了几座?

寻访文明踪迹 触摸历史沧桑 聆听历久弥新的古建筑 品味文明城市的文化与内涵 让我们一起领略下 古代建筑的神奇魅力吧! 平遥城墙 是现存最完好的古城墙之一,造型美观防御设施齐备,为中国历代筑城之仅有,是研究古代筑城的珍贵资料。岳阳楼 “洞庭天下水,岳阳天下楼”,与滕…

原创双喜临门!金靖官宣结婚,并自曝已经怀孕,男方年轻帅气多重身份

4月25日,娱乐圈传来喜讯,金靖在社交媒体上晒出了与老公的合照,并宣布了自己已经怀孕的消息。这位一直以阳光形象示人的女星,用她的方式向粉丝们传递了幸福的声音。今天,我们就来聊聊金靖的这份双喜临门,以及她与老公舒奕橙的甜蜜生活。金靖的甜蜜官宣:爱情与家庭的双重喜…

木火土金水五行查询表(最全面)

五行相生的次序是:金生水,水生木,木生火,火生土,土生金。 五行相克的次序是:金克木,木克土,土克水,水克火,火克金。 五行相生: 金生水,水生木,木生火,火生土,土生金。金生水:金销熔生水;水生木:水润泽生木;木生火:木干暖生火;火生土:火焚木生土;土生金:…

2024年社区盾杯预测曼城胜算更高

根据Opta的数据,曼城在2024年社区盾杯中有61.3%的几率在90分钟内获胜,而曼联的胜率为19.8%。曼城此前三次参加社区盾杯均未胜出,而曼联则在1998至2001年间连续四年失利。 关键球员表现方面,艾尔林哈兰德在六次对阵曼联的比赛中参与九个进球,菲尔福登在六次对阵曼联的比赛中…

QUQU回归,斗鱼再添实力解说

: 各位水友们,好消息来了!知名CS实力解说员QUQU即将回归,加入斗鱼的CSGO大家庭!作为一位拥有丰富经验和高超技术的职业选手,QUQU在CSGO圈子的影响力不言而喻。他的粉丝们,也就是所谓的“200万宗主”,可千万不要错过这个难得的机会啊! 说到QUQU,大家可能都听说过那个著…

怎样开启和查看微信运动?这篇文章来教你

微信运动作为微信平台的一项功能,不仅能够记录用户的日常步数,还能与好友分享和比较,增加了运动的乐趣和社交的互动性。 本文将详细介绍如何启用和查看微信步数,以及如何通过这一功能提升你的健康生活。▇启用微信步数的两种方法 方法一:通过搜索功能启用 1、打开微信应用…

能否榨干骁龙7+ Gen3?真我GT Neo6 SE深度评测

去年的真我GT Neo5 SE表现还是挺不错的,尤其是骁龙7+ Gen2确实很能打。然后今年的Neo6 SE也毫无意外的用上了骁龙7+ Gen3,我们已经对这款产品有了全方位的测试和体验,接下来跟大家详细分享一下。 外观&屏幕我们先从屏幕说起,真我GT Neo6 SE首发跟京东方联合搭载的新一代…

华晨宇三登鸟巢!国风四面台震撼来袭!

7月30日14:07华晨宇官宣将于2024年9月7日、8日再度回归鸟巢,举办他的四面台火星演唱会!作为首位连续三度在鸟巢开个唱的90后歌手,华晨宇凭借其非凡实力和坚定行动,已稳固确立了他在华语乐坛的举足轻重地位。 2018年华晨宇首战鸟巢成为90后鸟巢连开第一人,成为第一个能够在…

新时代“龙泉精神”丨龙泉宝剑:手工体系里的产业流变

肇端于春秋战国时期的龙泉宝剑,历经2500多年的时空流变,迄今仍沿袭着传统手工锻造工艺,有着强大而稳定的审美惯性,不只在造型与纹饰上,更在铸剑精神的情感寄托、文化传承的集体潜意识中。 无论是史料记载的龙渊、泰阿、工布等名剑,还是如今在银幕中频繁亮相的影视与动漫刀…

移民百科 | 为什么希腊国旗是蓝白色的?希腊国旗象征什么?

为什么希腊国旗是蓝白色的?为什么它有九条条纹?它是什么时候被作为希腊的官方旗帜的?想必很多人都会有这样的疑问。接下来,移路通出国为您带来解析。 其实,希腊国旗以蓝色和白色为特色,象征着天空和波浪。九条横条纹代表“Eleutheria i Thanatos”的音节,翻译为“自由或…

三年级数学下册各单元知识点总结,为孩子寒假预习!

春节即将结束,开学也要来了,孩子们该收收心了!王老师今天准备了三年级数学下册各单元知识点总结,孩子寒假预习重点,假期超车必备! 三年级数学下册各单元知识点 第一单元 位置与方向1、① (东与西)相对,(南与北)相对, (东南—西北)相对,(西南—东北)相对。 ② …

【气象地理】梅雨、暴力梅还是“霉雨”,傻傻分不清楚,你没见过的各种云

19日开始梅雨带 将稳定在长江中下游一带 虽然还有南北摆动 但雨会下得很认真! 一年一度的梅雨季开始了 ↓↓↓ 官宣:上海6月19日入梅! 官宣!南京6月19日入梅! 官宣!苏州6月19日入梅! ...... 自6月17日下午起,长江流域的梅雨正式开始,我国的主暴雨带将迅速从南岭-武夷山…

中国新一代信息技术产业报告:产业链、发展历程、行业政策以及发展前景预测

智研瞻发布:《中国新一代信息技术产业 “专精特新”发展研究及投资战略规划报告》 智研瞻:新一代信息技术产业概述 新一代信息技术领域是以宽带和泛在的网络基础设施为核心支撑,致力于推动移动通信技术的创新、下一代互联网核心设备和智能终端的研发与产业化,同时积极促进三…

原创窝囊得不能再窝囊的北宋亡国君-宋钦宗赵桓!

早年经历 宋钦宗赵桓(1100年-1161年),本名赵亶,中国宋代词人之一,宋朝第九任皇帝。 赵桓,原名赵亶,另有赵煊之称,乃宋徽宗赵佶长子,宋高宗赵构兄长,母为显恭皇后王氏,后迎娶武康军节度使朱伯材之女朱琏为太子妃。1101年,获封京兆郡王;1108年,晋爵为定王;1115年,…

靠大炮取胜,又败在大炮下,红衣大炮如何成为“胜负手”

近日,山东省日照市莒县某废品收购站突现两门清代康熙年间的红衣大炮,引起网友热议。 有专家表示:“这两门炮可以断定为现代工艺品,无论材质,还是工艺特征,都与清代早期火炮不符。”学者于赓哲也在微博上发文:“巧了,甘肃有个私人博物馆也有同款,别的网友也贴出旅游点有…

太原天龙山石窟|惨遭斩首之痛的石窟一百多年前是何等惊艳

▲天龙山石窟全景图 天龙山,原名方山,东魏时大丞相高欢营避暑之宫,憩鸣銮之驾,北齐皇建元年(560年)孝昭帝高演兴建天龙寺,山以寺得名。山中屏峰黛立,松柏成荫,溪泉鸣涧,寺院林立,为晋阳名山。▲天龙山石窟全景图,引自《中国文化史迹》展开全文▲天龙山石窟全景图,…

u盘加密软件哪个好用?盘点2024受欢迎的五款u盘加密软件(用完直接人生开挂)

8\21小知识之u盘加密:加密 U盘 是指对U盘内容有加解密保护功能的U盘。市面上的加密U盘主要有三类:A.假加密,仅仅是 隐藏文件 ,设个密码,仅仅验证身份,实际存储内容没有任何变化。B.软加密,内置或 附带软件 ,对数据进行加密,一般用AES,也可分加密区及非加密区。C. …