本文主要来介绍精准营销的数据挖掘原理,从整体流程的角度来梳理从立项阶段到模型最终上线部署阶段的全过程,整个过程如下:
以上过程可以分为两大部分:业务分析和数据挖掘,下面就基于这两大部分的内容进行详细的展开说明和梳理。
一、业务分析
业务分析阶段主要包括以下内容
(1)指标分析
指标分析顾名思义就是对影响当前业务的各个指标进行分析,在分析过程中,主要是基于平衡记分卡的考察方式,平衡计分卡(Balanced Score Card)是常见的绩效考核方式之一,平衡计分卡是从财务、客户、内部运营、学习与成长四个角度,将组织的战略落实为可操作的衡量指标和目标值的一种新型绩效管理体系。也就是说在进行指标分析时,要从财务指标、客户指标、运营指标(即流程指标分析)和员工学习能力指标四个方面出发进行分析,找到这四个方面存在问题的指标,在实际分析过程中,主要是寻找前三个方面存在问题的指标,这就是指标分析阶段的内容,平衡记分卡的循环过程如下图所示:
那么,如何进行这各方面(本文主要介绍前三方面)的问题指标的分析呢?具体方法如下:
1)财务指标分析
财务指标分析的常用方法是杜邦分析法,杜邦分析法(DuPont Analysis)是利用几种主要的财务比率之间的关系来综合地分析企业的财务状况。具体来说,它是一种用来评价公司盈利能力和股东权益回报水平,从财务角度评价企业绩效的一种经典方法,其基本思想是将企业净资产收益率逐级分解为多项财务比率乘积,这样有助于深入分析比较企业经营业绩。分解过程如下:
权益净利率,也称权益报酬率,是一个综合性最强的财务分析指标,是杜邦分析系统的核心。资产净利率是影响权益净利率的最重要的指标,具有很强的综合性,而资产净利率又取决于销售净利率和总资产周转率的高低。总资产周转率是反映总资产的周转速度。对资产周转率的分析,需要对影响资产周转的各因素进行分析,以判明影响公司资产周转的主要问题在哪里。销售净利率反映销售收入的收益水平。扩大销售收入,降低成本费用是提高企业销售利润率的根本途径,而扩大销售,同时也是提高资产周转率的必要条件和途径。权益乘数表示企业的负债程度,反映了公司利用财务杠杆进行经营活动的程度。资产负债率高,权益乘数就大,这说明公司负债程度高,公司会有较多的杠杆利益,但风险也高;反之,资产负债率低,权益乘数就小,这说明公司负债程度低,公司会有较少的杠杆利益,但相应所承担的风险也低。
综上,净资产收益率被逐级拆解成了多项财务比率的乘积,通过这样的细分与拆解,可以对出现问题的财务指标进行精准的定位,即可以将目标问题进行更好的细分,帮助我们更明确的定位问题指标。采用这一方法,可使财务比率分析的层次更清晰、条理更突出,为报表分析者全面仔细地了解企业的经营和盈利状况提供方便。
2)客户指标分析
客户指标分析常用的模型是AARRR模型,AARRR模型因其掠夺式的增长方式也被称为海盗模型、海盗指标,也叫增长黑客理论模型、增长模型、2A3R模型、决策模型。是硅谷著名风险投资人戴夫·麦克卢尔(Dave McClure )2007提出的,核心就是AARRR漏斗模型。
AARRR是Acquisition、Activation、Retention、Revenue、Referral,五个单词的缩写,分别对应用户生命周期中的5个阶段。
AARRR模型的组成包括获客、激活、留存、变现和传播(推荐),该模型的增长引擎如下图,以上的每一个阶段中,我们关注的指标是不同的,具体说明如下:
-用户获取(Acquisition),即从不同渠道来获取用户,该阶段主要关注的指标是日新登用户数(DNU),对于DNU的定义也可以是首次登录或启动APP的用户。主要是帮助我们分析渠道贡献的用户份额、宏观走势、投放策略、是否存在大量垃圾用户、以及进行注册转化率分析等。
-用户激活(Activation),用户在产品上完成了一个核心任务,且体验良好,该阶段主要关注的指标包括活动用户的数量以及用户使用频次、停留时间的数据。
日活跃用户数(DAU),定义为每日登录过游戏的用户数,活跃用户的计算是排重的。主要解决的问题包括核心用户规模、产品生命周期分析、产品活跃用户流失、分解活跃用户、用户活跃率、活跃用户计用户量等。
周活跃用户数(WAU),定义为最近7日(含当日)登录过APP的用户数,一般按照自然周计算。主要解决的问题包括周期性用户规模。2.周期性变化趋势,主要是推广期和非推广期的比较。
月活跃用户数(MAU),定义为最近一个月即30日(含当日)登录过APP的用户数,一般按照自然月计算。主要解决的问题包括用户规模稳定性、推广效果评估、总体用户规模变化。
日均使用时长(DAOT),定义为每日总计在线时长/日活跃用户数。关于使用时长,可以分为单次使用时长、日使用时长和周使用时长等指标,通过对这些指标做区间分布和平均计算,了解参与黏性。主要解决的问题包括分析产品的质量问题、观察不同时间维度的平均使用时长,了解不同用户群的习惯、渠道质量衡量标准之一、留存即流失分析的依据。
DAU/MAU,定义为日活与月活的比值。通过DAU/MAU可以看出用户每月访问App的平均天数是多少,DAU/MAU的值越高,那么毫无疑问,App的粘性越强,表示有更多的用户愿意使用App;反之如果DAU/MAU的值很低,但并不能直接说这个App是失败的。我们还需要结合产品属性(比如定期理财/求职/买房/租房的App,可能天然属性DAU会相对低)、时间考量(工作日/假期等)、版本更新、运营活动、用户维度的ARPU值等多个条件进行多维分析,才能得出结论。所以,正确理解DAU/MAU的意义很重要。
-用户留存(Retention),用户回来继续不断的使用产品,该阶段主要关注留存率与流失率。
假设某段时间的新增用户数记为A,经过一段时间后,仍然使用的用户占新增用户A的比例即为留存率。次日留存率(Day 1RetentionRatio),定义为日新增用户在+1日登录的用户数占新增用户的比例。三日留存率(Day 3Retention Ratio),定义为日新增用户在+3日登录的用户数占新增用户的比例。七日留存率(Day 7Retention Ratio),定义为日新增用户在+7日登录的用户数占新增用户的比例,主要帮助我们解决的问题有APP质量评估、用户质量评估、用户规模衡量。
流失率是指在统计时间区间内,用户在不同的时期离开APP的情况,日失率(Day 1ChurnRatio),定义为统计日登录APP,但随后7日未登录APP的用户占统计日活跃用户的比例。周流失率(Week Churn Ratio),定义为上周登录过APP,但是本周未登录过APP的用户占上周周活跃用户的比例。月流失率(Month Churn Ratio),定义为上月登录过APP,但是本月未登录过APP的用户占上月月活跃用户的比例。主要解决问题包括活跃用户生命周期分析、渠道的变化情况、拉动收入的运营手段、版本更新对于用户的流失影响评估、什么时期的流失率较高以及行业比较和产品中期评估。
-获得收益(Revenue),用户在产品上发生了可带来收益的行为,也叫做付费、变现、转化。收入的来源有很多种,主要包括:应用付费、应用内功能付费、广告收入、流量变现等,主要考核的指标比如ARPU(客单价)。
主要关注的指标包括付费率(PR或者PUR),定义为付费用户数占活跃用户的比例。活跃付费用户数(APA),定义为在统计时间区间内,成功付费的用户数。一般按照月计,在国际市场也称作MPU(Monthly Paying Users)。平均每用户收入(ARPU),定义为在统计时间内,活跃用户产生的平均收入。一般以月计。平均每付费用户收入(ARPPU),定义为在统计时间内,付费用户产生的平均收入。一般以月计。生命周期价值(LTV),定义为用户在生命周期内为创造的收入总和。可以看成是一个长期累积的ARPU。
-推荐传播(Referral),用户推荐、引导他人来使用产品,也叫做自传播、口碑传播或者病毒式传播。其中有一个重要的指标K因子。K因子的计算公式不算复杂,K=(每个用户向他的朋友们发出的邀请的数量)×(接收到邀请的人转化为新用户的转化率)。
当K>1时,用户群就会像滚雪球一样增大。当K<1时,用户群到某个规模时就会停止通过自传播增长。绝大部分APP还不能完全依赖于自传播,还必须和其他营销方式结合。但是,在产品设计阶段就加入有利于自传播的功能,还是有必要的,毕竟这种免费的推广方式可以部分地减少CAC(用户获取成本)。
通过客户分析,来发现存在问题的指标。
3)运营指标分析
运营指标分析即进行内部运营流程的分析(即价值流程图,VSM),价值流程图(Value Stream Mapping,VSM)是丰田精益制造(Lean Manufacturing)生产系统框架下的一种用来描述物流和信息流的形象化工具。VSM可以作为管理人员、工程师、生产制造人员、流程规划人员、供应商以及顾客发现浪费、寻找浪费根源的起点。了解并使用价值流图,至少有以下价值:
-深入理解当前各业务部门的价值诉求
-建立从业务流到价值流的链接,以便更好的评估当前企业的业务战略和价值主张的匹配程度
-探索价值流和业务指标体系间的承接关系,通过业务指标的数据采集、分析,对业务流进行调整和优化,从而影响价值流,继而循环价值流评估和业务指标体系优化,借此实现企业持续的价值提升和业务流程深度优化
-着眼未来、对标行业趋势,提出新的价值主张,以便为企业未来的业务战略规划进行可行性方向探索
通过对流程的分析,发现流程中存在的问题。
(2)痛点定位
经过以上几方面的指标分析,我们可以罗列出目前存在问题的各个方面的指标,该阶段的主要任务是对一系列的问题指标进行排序,列出需要优先解决的问题,比如贷款申请量的变化出现了下降的趋势,如下图。
(3)根因分析
定位了痛点后,接下来就需要针对痛点指标进行根因分析,分析确定导致该痛点问题的根本原因,进行根因分析的方法包括调研、头脑风暴、量化分析等。
-调研:桌面调研、实地调研
桌面调研
以营销和风控模型的产品分析的桌面调研为例,首先要了解产品4P分析, 4P理论由杰罗姆麦卡锡于 1960 年提出,从生产者视角来研究市场的需求与变化及如何在竞争中获胜,4 P 理论重视产品导向而非客户导向,以满足市场需求为目标。4 P 理论的四要素包括产品:企业提供给其目标市场的商品或服务,产品因素包括产品的质量、样式、规格、包装、服务等;渠道:产品进入或到达目标市场的种种途径,包括渠道、区域、场所、运输;价格:顾客购买产品时的价格,包括折扣、支付期限等;促销:企业宣传、介绍其产品和说服顾客购买其产品所进行的种种活动,包括广告、宣传、公关、人员推销、促销活动等。
产品分析主要是FAB法则结合产品的价值主张,产品的FAB分别是:
lF(特点):对产品本身的技术性解释,通常包含产品专业化词语
lA(优势):由于产品本身的特性所导致的产品表现
lB(利益):与消费者的感受密切相关的,由产品带给消费者的价值。
基于感觉上的体验,往往是针对个人而言,相对的、类比的、定性的。
渠道分析,主要是进行途径分析,如下图:
价格分析,主要是参照波士顿矩阵进行定价分析,如下图所示。
促销分析,主要是了解产品当前的营销方式,内容如下:
实地调研
实地调研是进行实地的调研考察的方法,整体流程如下,包括调研目标设定、调研前准备、实地调研、调研数据的处理分析和拟写调研报告几个步骤。目标设定主要是通过行业预研、目标拆解和关键问题分析来确定要进行调研分析的目标是什么;调研前准备主要是进行问卷设计、样本选取以及调研方式的确定;调研阶段就是根据准备阶段的内容进行实地的调研;调研完毕后就需要进行调研数据的处理和分析;调研的最终结果是输出调研报告,如下图。
-头脑风暴
头脑风暴法是由美国创造学家AF奥斯本首次提出的一种激发创造性思维的工具。它的基本理念是:要获得很好的点子,首先要获得很多的点子;要获得很多的点子,就要靠点子来激发点子。头脑风暴法的流程如下:
在根原因分析中,头脑风暴不是一个单一的、定义明确的活动。实际上,有两类不同的头脑风暴法。
-结构化的头脑风暴。每位参与者轮流提出一个想法,是非常结构化的,这样可以确保平等参与,但是缺乏自发性,在某种程度上束缚提出更多的想法。这类方法称为轮圈式( round-robin)头脑风暴法。
-非结构化的头脑风暴。每位参与者自由提出想法,是非常随意的,但是经常会更混乱,也会导致一人或更多人主导讨论活动。对于想法很多的人来说,使用这种方法是很好的,有时也称这种方法为自由轮式头脑风暴法。
-除了提出问题的顺序不一致外,这两种方法完全相同。
根据桌面调研、实地调研和头脑风暴等方法,来确定导致痛点指标发生的根本原因是什么。比如,针对贷款申请量下降这个问题,经过分析其根本原因有:
- 不知道哪些客户有贷款需求,无法精准营销
- 营销的时候客户接通率不高
- 友商的贷款便捷、利率低
(4)分析目标确定
根据对痛点问题进行根本原因的分析的结果,我们发现导致该痛点问题的根本原因有很多,其中,有些问题原因是可以进行针对性解决的,比如无法进行精准营销、客户接通率不高等,但是有些问题原因是无法通过模型解决的,比如友商的贷款利率低等,故目标确定阶段的主要任务就是要确定哪些根本问题是可以解决的,对于无法解决的问题可以先搁置。也就是说该阶段要列出详细的项目目标,这就需要对导致痛点问题的各根本原因的指标进行目标拆解,拆解方式包括 全链漏斗式拆解和因子分解式拆解。
全链漏斗式拆解过程如下:
因子分解式拆解过程如下:
例如,信用卡分期精准营销项目的指标拆解结果如下:
将关键指标拆解完成后,就需要从成本和收益的角度进行指标的优先级排序,如下图,然后根据优先级排序的结果进行数据挖掘。
二、数据挖掘
数据挖掘部分的主要任务就是根据确定的要解决的目标,来进行具体的实现,该阶段常用的方法论是CRISP-DM,即跨行业数据挖掘标准流程,具体流程如下,此处仅梳理该阶段的框架与流程,具体内容会在后期文章中进行详细展开。
(1)商业理解
商业理解阶段的主要任务是基于分析目标,通过调研、文献查阅以及相应的案例分析等方法来确定每个子目标下的用户画像,包括人口基本信息、社会经济信息、业务信息和交易信息等,结果如下:
(2)数据理解
数据理解阶段的主要目标是根据用户画像的结果,形成理论上的取数逻辑(数据提取方案),也就是明确如何在当前的用户画像下构造出可以建模的数据,即根据需要描述需求中的数据范围。
根据用户画像理解当前的数据以及数据之间的关系,并且构造出当前用户画像下的取数逻辑,即根据理论上的用户画像针对性的构建数据特征。
比如,被解释变量的定义和解释变量的定义:
-定义被解释变量:
0- 历史无贷款,且98年无新增
1- 历史无贷款,且98年新增
2- 历史有贷款
-定义解释变量
(3)数据准备
数据准备阶段的主要任务是根据梳理出来的理论上的取数逻辑,结合当前实际已有的数据,得到实际所需的数据,该份数据将用户后续的建模与分析。比如当前的数据如下:
根据用户画像与取数逻辑,基于当前的数据表,计算得到了如下结果:
(4)建立模型
建立模型阶段的主要任务是运用计算出来的数据,结合实际的目标需求,建立合适的模型,该阶段可以进一步细分为解释变量与被解释变量的关联性检验、模型分类与选择、模型建立。
描述性分析:
关联性检验:
-模型分类与选择
了解了模型的分类后,就需要根据实际的需求选择相应的模型,算法建模的选择路径如下图所示:
选择出相应的模型后,就运用计算得到的数据进行实地建模,此时就完成了建模阶段的主要任务。
(5)模型评估
建立完成相应的模型后,就进入了模型评估阶段,该阶段的主要任务就是根据模型评估的各个指标来评价当前模型的合理性和可用性,比如,分类模型评估中常用的方法有混淆矩阵以及由混淆矩阵导出的各种率(准确率、精确率、召回率等)。
(6)上线部署
经过模型评估后,就到了最后的模型上线阶段,此时,建立出的模型可以认为是一个产品,故可以参考产品的部署上线阶段来进行模型的上线操作。
从商业理解到模型上线部署,就是CRISP-DM的全部内容,也是进行数据挖掘常用的理论指导。
本文的主要内容就是介绍了进行精准营销的全流程,在进行全流程梳理的过程中,重点介绍了从指标分析到最终进行分析目标定位的过程。
了解更多数据分析知识、与更多优秀的人一起交流