消费者网络购物意向分析:调优逻辑回归LR与决策树模型在电商用户购买预测中的应用及特征重要性优化

article/2025/6/23 8:13:25

全文链接:tecdat.cn/?p=42358

分析师:Li Ting

在数字化商业浪潮中,精准把握消费者网络购物意向已成为电商企业提升竞争力的核心命题点击文末“阅读原文”获取完整智能体、代码、数据、文档)。

本文改编自团队为某电商平台完成的用户行为分析咨询项目,旨在通过真实业务场景下的数据洞察,揭示消费决策背后的逻辑。作为数据科学从业者,我们深知传统经验驱动的运营模式已难以应对海量动态数据,因此需借助量化分析工具构建更具普适性的预测框架。

项目通过多维度数据清洗与特征工程,构建了逻辑回归(LR)与决策树两类经典分类模型,并创新性地结合特征重要性分析优化模型结构。全文从业务问题拆解出发,依次阐述数据获取、预处理、探索性分析及模型构建全流程,重点呈现如何通过页面价值、停留时长等核心指标预测购买行为,同时针对类别不平衡问题提出权重调整策略。

值得关注的是,文中专题项目文件已分享在交流社群,阅读原文进群和 500 + 行业人士共同交流和成长,探讨如何将数据科学方法转化为电商转化率提升的实战方案。

关键词

逻辑回归;决策树;二分类问题;网络购物

一、目的

1.1 问题分析

随着电子商务的蓬勃发展,深入了解消费者网络购物行为及购买意图,对于商家优化销售策略至关重要。本研究的核心问题是预测消费者是否会在网络购物中完成购买行为。这一问题的解决对电子商务平台的推荐系统优化、营销策略制定以及用户体验提升均具有重要意义。通过对消费者网络行为数据的分析,能够揭示影响购买意向的关键因素,进而为商家提高转化率提供决策依据。

1.2 相关工作

国内研究表明,感知有用性、感知易用性、价格敏感度、信任度和便利性等是影响消费者网络购物意向的主要因素。同时,消费者的价格敏感度、促销活动参与度以及个人特征(如年龄、收入等)也对购买意向产生显著影响。国外研究指出,购物平台的用户评价与口碑、平台设计、用户体验、个性化推荐及互动功能等,均能有效提升消费者的购买意向。此外,在特定群体中,尤其是环保意识较强的消费者,可持续购买意向逐渐上升,环境因素和可持续性决策对其在线购物意向具有重要影响。

1.3 实现目标

本研究旨在通过数据分析与建模,实现对消费者网络购物意向的预测。具体目标包括:探究影响消费者购买决策的关键因素;构建逻辑回归和决策树分类模型以预测购买意向;评估模型的准确性与可靠性。

二、数据获取

2.1 获取方式

该数据集为二分类问题数据集(查看文末了解数据免费获取方式),包含12330个样本和18个属性,其中17个为特征变量,1个为目标变量(是否购买)。具体属性及其含义见表1。

属性

含义

Administrative

管理页面数

Administrative_Duration

管理页面停留时长

Informational

信息页面数

Informational_Duration

信息页面停留时长

ProductRelated

产品相关页面数

ProductRelated_Duration

产品相关页面停留时长

BounceRates

跳出率

ExitRates

退出率

PageValues

页面价值

SpecialDay

距离特殊日期(节日)的时间

Month

月份

OperatingSystems

用户购物时使用的操作系统

Browser

用户购物时使用的浏览器

Region

用户购物时的地区

TrafficType

用户购物时使用的流量类型

VisitorType

访客类型(新用户及二次购物用户)

Weekend

是否在周末访问

Revenue

是否购买

 

2.2 预处理
2.2.1 缺失值处理

对数据集各属性的空值数量进行统计,发现所有属性均无缺失值,因此无需进行缺失值处理。

2.2.2 分类变量转换

为便于后续数据分析与模型构建,将“月份”和“访客类型”两列分类变量转换为数值型变量,对应关系分别见表2和表3。

访客类型

对应的数值型变量

Returning_Visitor

0

New_Visitor

1

月份

对应的数值型变量

Feb

2

Mar

3

Apr

4

May

5

June

6

Jul

7

Aug

8

Sep

9

Oct

10

Nov

11

Dec

12

2.2.3 异常值处理

通过查看数据集统计信息发现,“管理页面停留时长”“信息页面停留时长”“产品相关页面停留时长”三列数据的最大值远高于平均值,且标准差较大,可能存在异常值。采用IQR方法对异常值进行处理,先过滤零值,再使用非零数值计算第25百分位数和第75百分位数,以1.5倍IQR作为异常值阈值。处理后,三列数据的标准差降低,最大值与平均值的差距缩小,数据分布更加均匀,波动减少。

三、数据探索与分析

3.1 数据探索
3.1.1 目标变量类别分布

目标变量“是否购买”的类别分布显示,购买人数占比13.9%,未购买人数占比86.1%,类别分布不均衡。为避免对模型拟合产生影响,在后续模型构建中通过Class Weights参数调整模型权重。

3.1.2 目标变量在页面价值和退出率上的分布差异

散点图分析表明,未购买用户集中在页面价值0-10且退出率大于0.02的页面;购买用户在页面价值10-40的页面分布较为密集,且退出率大部分集中在0.04以下。

3.1.3 目标变量在页面价值和产品相关页面停留时长上的分布差异

核密度估计图显示,购买用户浏览页面的页面价值均值约为30,未购买用户的页面价值均值接近0;购买用户的产品相关页面停留时长主要集中在0-1500个时间单位,未购买用户则集中在0-500个时间单位,表明购买用户的产品相关页面停留时长更长。

3.1.4 目标变量在特殊日期、月份和访客类型上的分布差异

核密度估计图显示,临近特殊日期(节日)对用户购买率有一定提升,但影响不大;4-6月和10-12月是购买高峰期,其中10-12月也是浏览平台的高峰期;老用户(访客类型为0)的购买率高于新用户。

3.1.5 相关性热力图识别相关特征

相关性热力图显示,“管理页面数”“管理页面停留时长”“信息页面数”“信息页面停留时长”“产品相关页面数”“产品相关页面停留时长”“跳出率”“退出率”八列数据之间相关性较高。结合相关性矩阵和VIF值,最终选择保留“管理页面停留时长”“信息页面停留时长”“产品相关页面停留时长”“跳出率”等特征。

3.2 数据分析

分析结果表明:页面价值与退出率呈负相关,高页面价值和长停留时间有助于提高购买可能性;页面价值与购买行为呈正相关,相关系数为0.53;4-6月和10-12月是购买高峰期,商家可在此期间加大促销力度;老用户购买意愿更强,需注重提升老用户忠诚度;操作系统、浏览器、流量类型、地区和周末访问等因素对购买行为影响不显著。

四、模型的建立与评估

4.1 模型建立
4.1.1 特征选择

通过相关性分析和VIF值计算,删除“管理页面数”“信息页面数”“产品相关页面数”“退出率”等相关性较高的特征,保留“管理页面停留时长”“信息页面停留时长”“产品相关页面停留时长”“跳出率”“页面价值”“特殊日期”“月份”“访客类型”等特征。

4.1.2 逻辑回归模型

逻辑回归模型是一种用于二分类问题的线性模型,通过Sigmoid函数将线性回归结果转换为概率值。其核心公式为:
[ P(y=1 | X) = \frac{1}{1+e^{-(\beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_nX_n)}} ]
其中,(P(y=1 | X))表示预测为购买的概率,(X_1, X_2, \cdots, X_n)为输入特征,(\beta_0, \beta_1, \cdots, \beta_n)为模型参数。该模型的系数可直观反映各特征对目标变量的影响程度,因此适用于本研究的二分类问题。

4.1.3 决策树模型

决策树模型通过递归分割数据集构建树状结构,以实现分类或回归目标。其核心是选择最佳特征分裂点,最大化数据集纯度。考虑到数据中可能存在的非线性关系,引入决策树模型作为逻辑回归模型的补充。

4.2 模型评估
4.2.1 逻辑回归模型

将特征选择后的数据集代入逻辑回归模型,模型准确度为89%。对未购买的预测效果较好(精确率96%、召回率91%、F1分数93%),但对购买的预测效果较差(精确率59%、F1分数66%),存在较多误判和漏判情况。

ini
体验AI代码助手
代码解读
复制代码
# 逻辑回归模型训练与评估
x_train, x_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)
scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_test_scaled = scaler.transform(x_test)
log_model = LogisticRegression(class_weight='balanced')
log_model.fit(x_train_scaled, y_train)
y_pred_log = log_model.predict(x_test_scaled)
print("逻辑回归模型准确率:", accuracy_score(y_test, y_pred_log))

4.2.2 决策树模型

决策树模型的准确度为88%。对未购买的预测效果良好(精确率92%、召回率94%、F1分数93%),但对购买的预测效果较差(精确率59%、召回率53%、F1分数56%),漏判和误判情况较为严重。

ini
体验AI代码助手
代码解读
复制代码
# 决策树模型训练与评估
dt_model = DecisionTreeClassifier(random_state=42, class_weight='balanced')
dt_model.fit(x_train, y_train)
y_pred_dt = dt_model.predict(x_test)
print("决策树模型准确率:", accuracy_score(y_test, y_pred_dt))

4.2.3 调优后的逻辑回归模型

通过决策树算法筛选出特征重要性大于0.05的4个特征(页面价值、产品相关页面停留时长、管理页面停留时长、跳出率),再次代入逻辑回归模型。优化后的模型准确度提升至91%,对未购买的预测效果(精确率96%、召回率93%、F1分数94%)和购买的预测效果(精确率64%、F1分数70%)均有所改善。

ini
体验AI代码助手
代码解读
复制代码
# 特征重要性分析与模型调优
dt = DecisionTreeClassifier(random_state=42)
dt.fit(x_train, y_train)
importance = dt.feature_importances_
top_features = importance_df.head(4)['Feature'].values
x_train_selected = x_train[top_features]
x_test_selected = x_test[top_features]
log_reg_model = LogisticRegression(class_weight='balanced')
log_reg_model.fit(x_train_selected, y_train)
y_pred_reg = log_reg_model.predict(x_test_selected)
print("调优后逻辑回归模型准确率:", accuracy_score(y_test, y_pred_reg))

4.2.4 模型评估总结

综合比较三个模型,调优后的逻辑回归模型(log_reg)准确度最高(91%),对购买的预测精确率(64%)和F1分数(70%)也相对较高,整体预测效果最佳,更符合研究目标。

五、总结与展望

5.1 项目实现功能

本研究实现了基于用户页面浏览行为(管理页面、信息页面、产品相关页面)、页面价值及浏览时间的消费者网络购物意向预测。商家可依据分析结果,针对产品质量、营销策略和用户画像等方面进行调整,以提高网络购物转化率。

5.2 优缺点

优点:通过建立逻辑回归和决策树模型,对消费者网络购物意向进行了系统分析,筛选出关键影响因素,并优化得到了性能较优的模型。
缺点:数据集目标变量类别分布不均衡,尽管调整了模型权重,结果仍偏向于未购买类别的预测。

5.3 改进想法

未来可通过增加少数类(购买)样本量、生成合成数据或减少多数类样本量等方式平衡类别分布;尝试使用对不平衡数据处理能力更强的算法,如随机森林、梯度提升树等,进一步提升模型对少数类的预测性能。

参考文献

[1] 韩雁雁. 国内消费者网络购物参与意愿实证研究的Meta分析[D]. 青岛大学, 2016.
[2] 祝长华, 林姗姗, 林李坚, 等. 消费者网络购物行为意向影响因素研究[J]. 韶关学院学报, 2016, 37(02): 7-12.
[3] 耿波. 基于TAM的消费者网络购物意向的影响因素分析[J]. 统计与决策, 2012, (23): 105-107.
[4] Eri Y, Islam A M, Daud K A K. Factors that Influence Customers’ Buying Intention on Shopping Online[J]. International Journal of Marketing Studies, 2011, 3(1): 128.
[5] Zhao Z, Omar A N, Zaki O H. Appraisal factors of sustainable purchase intentions in online shopping platform context: PLS-SEM with theory extensions[J]. Journal of Retailing and Consumer Services, 2025, 82: 104118.

关于分析师

在此对 Li Ting 对本文所作的贡献表示诚挚感谢,她在四川大学完成了数据科学与大数据技术专业的学习,专注机器学习领域。擅长 Python、深度学习、数据可视化。Li Ting 在数据分析与建模领域具备扎实的专业基础,能够熟练运用机器学习算法解决实际业务问题,尤其在消费者行为分析、预测模型构建等方面积累了丰富经验。其专业技能与项目需求高度契合,为本文的数据处理、模型优化及业务洞察提供了重要支持。

数据获取

在公众号后台回复“电商数据”,可免费获取完整数据。

本文中分析的完整智能体、数据、代码、文档分享到会员群,扫描下面二维码即可加群! 


资料获取

在公众号后台回复“领资料”,可免费获取数据分析、机器学习、深度学习等学习资料。

点击文末“阅读原文”

获取完整智能体、

代码、数据和文档。

点击标题查阅往期内容

PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

spss modeler用决策树神经网络预测ST的股票

R语言中使用线性模型、回归决策树自动组合特征因子水平

R语言中自编基尼系数的CART回归决策树的实现

R语言用rle,svm和rpart决策树进行时间序列预测

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证

R语言里的非线性模型:多项式回归、局部样条、平滑样条、 广义相加模型GAM分析

R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类

R语言ISLR工资数据进行多项式回归和样条回归分析

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量

R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

如何用R语言在机器学习中建立集成模型?

R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测

在python 深度学习Keras中计算神经网络集成模型

R语言ARIMA集成模型预测时间序列分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言基于Bootstrap的线性回归预测置信区间估计方法

R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

Matlab建立SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线

matlab使用分位数随机森林(QRF)回归树检测异常值


http://www.hkcw.cn/article/WLsQLaqGHQ.shtml

相关文章

CppCon 2014 学习:Decomposing a Problem for Parallel Execution

学会如何拆分问题,使其能够高效地分配到多个核心上并行处理 把一个大问题拆成多个小任务让这些任务能独立运行在多个 CPU 核心上充分利用多核架构提升性能和吞吐量同时避免任务间过多依赖或冲突,保证并行效率星星计数问题 一个相对简单的问题&#xff0…

审计 - 风险应对 - 控制测试

1.控制测试的概念和程序 控制测试定义是指用于评价内部控制在防止或发现并纠正认定层次重大错报方面的运行有效性的审计程序审计程序询问、观察、检查和重新执行 2 控制测试的要求 1).控制测试并非在任何情况下都需要实施。 2).当存在下列情形之一时…

抠图P图秀v7.8.19

抠图 P 图秀是一款图片编辑应用程序,主要功能是帮助用户对图片进行抠图和 P 图操作。 抠图 P 图秀是一款图片编辑应用程序,主要功能是帮助用户对图片进行抠图和 P 图操作。以下是抠图 P 图秀的简要介绍: 1. 抠图功能:通过智能算法…

MonitorSDK_前端错误收集(重点阐述VueReact错误监测)

Promise中错误监测 前端错误收集方式 Vue中错误 Vue 全局错误处理器 app.config.errorHandler 详解 🔧 app.config.errorHandler 详解 📌 定义 app.config.errorHandler 是 Vue 应用实例的配置项之一,允许开发者定义一个函数来处理应用中的…

PCIe— Configuration

前言 设备初始化时, Configuration 状态在 2.5GT/s 速率下配置链路以及通道 编号。5GT/s 和 8GT/s 速率时,设备也可能从 Recovery 状态进⼊ Configuration 状态。此时状态转换的主要⽬的是为了进⾏多通道设备的 链路位宽动态转换。动态转换仅⽀…

山东一10岁男童在家门口走失 家属急寻线索

6月1日,有网友发布视频称山东省滕州市姜屯镇黄坡村一名10岁男孩赵某超走失。孩子家属十分焦急,希望通过网络社交媒体寻求帮助。当天下午,赵某超的外公王先生透露,通过查看家门口监控发现,孩子于5月31日下午5时左右走失。当时孩子先是在家门口消失了几分钟,然后返回了一次…

司机高速上突发呼吸性碱中毒 民警拉响警报6分钟送医

6月2日山东德州,司机高速上突发呼吸性碱中毒,同行司机开下高速求助,民警拉响警报6分钟送医。据了解,目前该司机已顺利出院。责任编辑:zx0002

泰国今年已迎1300万游客 旅游业显著复苏

泰国总理府副发言人萨西甘瓦塔娜詹近日表示,随着“2025神奇泰国”政策的推动,泰国旅游业在促进经济方面取得了显著进展。自2025年1月1日至5月18日,共有超过1300万名游客访问泰国,带动了超过6300亿泰铢的收入。最新数据显示,5月的第三周共有46.45万名外国游客到访泰国,其中…

洛阳的地铁到底有多难挖?

在华夏大地的历史版图上,洛阳无疑是一颗璀璨的明珠。这座有着深厚历史底蕴的城市,随便一挖就是文物,其地下宝藏之丰富,令人惊叹。洛阳地铁建设,堪称一场与历史的奇妙邂逅。施工时,考古发掘成为常态。从先秦的陶器,到汉唐的铜镜,再到明清的瓷器,不同时代的文物纷纷破土…

莫雷加德回应樊振东加盟德甲 欢迎新队友

5月31日,德国萨尔布吕肯乒乓球俱乐部宣布,乒乓球大满贯选手、巴黎奥运会乒乓球男单金牌得主樊振东将在下个赛季代表俱乐部参加德国乒乓球甲级联赛。消息一出,相关话题迅速登上微博热搜榜首。德国乒乓球运动员弗朗西斯卡帕特里克在社交媒体上欢迎樊振东加入队伍,瑞典乒乓球运…

【Godot引擎】如何使用内置的全局搜索功能提升开发效率

在日常使用 Godot 引擎 开发过程中,快速查找项目中的资源、脚本代码、节点、信号等内容,是大幅提高开发效率的关键手段。幸运的是,Godot 编辑器内置了全局搜索功能,可以非常方便地完成这一需求。本文将详细介绍如何使用这一功能&a…

Cesium 自带的标注碰撞检测实现标注避让

随机生成10000个点 let labels: any [] function addLabel(){labels viewer.scene.primitives.add(new Cesium.LabelCollection())for (let index 0; index < 10000; index) {const angle 2 * Math.PI * Math.random() // 随机角度labels.add({id: index,show: false,f…

Vue基础(12)_Vue.js循环语句用法:列表渲染

js补充 术语解释 循环(loop)&#xff1a;最基础的概念, 所有重复的行为。 递归(recursion)&#xff1a; 在函数内调用自身, 将复杂情况逐步转化成基本情况。 (数学)迭代(iterate) &#xff1a;在多次循环中逐步接近结果。 (编程)迭代(iterate) &#xff1a;按顺序访问线性结构中…

山西女子被送养36年后找到亲生父母 当事人:想过个真正的生日

程姗是被亲弟弟背进家门的,36年了,这是她第一次回家。6月1日上午,锣鼓声惊醒了忻州市解村的一条小巷,寻亲志愿者朱玉堂牵着程姗的手说:“来,回家。”程姗被簇拥着,伏在弟弟的背上,去往家的方向。程姗是姜家的第二个女儿,1989年农历二月初三出生,因父母交不起超生罚款…

奥地利年人均咖啡消费预测 咖啡热爱升级

奥地利人对咖啡情有独钟。根据国际消费品巨头Tchibo公司的一项最新调查,今年奥地利人均咖啡消费预计将超过1000杯,相比去年的日均2.65杯,这一数字今年上升至2.75杯。在咖啡饮用群体中,50至59岁年龄段的人最热衷,日均消费量达到3.24杯。相比之下,年轻一代的15至29岁人群日…

【头歌实验】Keras机器翻译实战

【头歌实验】Keras机器翻译实战 第1关&#xff1a;加载原始数据 编程要求 根据提示&#xff0c;在右侧编辑器补充代码&#xff0c;实现load_data函数&#xff0c;该函数需要加载path所代表的文件中的数据&#xff0c;并将文件中所有的内容按\n分割&#xff0c;转换成一个列表…

MCP调研

什么是 MCP MCP&#xff08;Model Context Protocol&#xff0c;模型上下文协议&#xff09;&#xff0c;是由 Anthropic 在 2024 年 11 月底推出的开放标准协议&#xff0c;旨在统一大型语言模型&#xff08;LLM&#xff09;与外部数据源、工具的通信方式。MCP 的主要目的在于…

车载软件更新 --- 数据完整性和正确性策略(数据验签事宜汇总)

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

黄子韬将在斯里兰卡“交换人生” 体验异国文化魅力

黄子韬与妻子徐艺洋将参加中外文化交流纪实节目《小伙小妹换游记》,前往坦桑尼亚和斯里兰卡,体验异国生活。该节目采用双线叙事模式,记录中外青年在同一时间、不同国家的全新生活。节目将于6月5日在芒果TV播出。预告片展示了来自坦桑尼亚原始部落的青年Noel和从事矿业工作的…

小米门店开启YU7静态品鉴 全国92城陆续展示

小米门店开启YU7静态品鉴 全国92城陆续展示。今日,小米YU7已陆续到达北京多家门店。社交媒体上,相关门店的官方号于凌晨开启直播,即便是在凌晨1点,直播间内仍有大量观众围观。从小米汽车销售处了解到,目前YU7仅支持静态展示,试乘试驾的具体时间尚未确定,可能要等到正式上…