SIGIR25-因果推荐|从因果视角重新思考序列推荐

article/2025/6/19 4:50:18

论文来源:SIGIR 2025

论文链接:https://arxiv.org/pdf/2409.05872

代码链接:https://github.com/margotyjx/CSRec_repo?tab=readme-ov-file

个人总结:利用干预数据解决推荐系统中曝光偏差,以更准确地预测用户在给定推荐下是否接受。

流程:首先利用GPT构造干预数据(即系统推荐后用户是否接受的响应,基于用户序列,利用gpt生成推荐列表,并模拟用户是否接受),再分别用观测数据和干预数据训练观测模型(SASRec)与干预预测模型,干预预测模型由当前时间步的推荐 embedding和上一个时间步的用户自身决策 embedding,并通过结构约束训练将二者组合,从而缓解因系统曝光偏差带来的影响,提高推荐结果的因果可信度。


1 动机

序列推荐系统旨在根据用户的历史行为序列预测其下一步兴趣,近年来广泛采用 Transformer 等深度架构建模用户偏好演化轨迹,然而:

1:现有工作大多基于观察数据进行训练,忽略了推荐系统中的系统曝光机制,即模型只能学习用户自然选择交互的内容,无法建模“如果推荐了某个 item,用户是否会接受”的反事实响应,导致推荐效果受限。

2:当前方法仅优化观测条件下的排序性能,无法回答推荐因果问题,未能区分“用户喜欢”和“用户看到后接受”之间的差异,模型容易受到曝光偏差干扰,削弱了推荐的可靠性与可控性。


2 贡献

1:提出了一个因果驱动的序列推荐框架(CSRec),通过引入干预建模机制,模拟系统主动推荐下用户是否接受,从而补全传统观察数据无法捕捉的反事实响应。

2:构建了因果展开结构,将用户的响应预测建模为前一时间步干预结果与当前观测条件的组合,并通过结构约束进行拉格朗日优化,提升了模型的因果一致性与泛化能力。

3:设计了 GPT4-Books 干预数据集,利用 GPT-4 构造合成用户响应数据,作为干预学习的监督信号,有效解决了真实推荐环境中缺乏显式干预样本的问题。


3 因果图

因果节点: 

  • St​:推荐(系统干预变量)

  • Dt:用户响应(点击/接受)

  • Pt:用户偏好(潜在状态 embedding)

因果路径:

  • Pt→Dt​:用户偏好影响响应

  • St→Dt:系统推荐影响响应(核心干预路径)

  • Dt−1→Dt​:历史响应影响当前响应

  • St−1→St​:推荐序列的时间依赖性


 4 模型

这里我没按照作者论文里的设置来介绍,我直接按照模型的流程来介绍了。

4.1干预数据创建

传统序列推荐模型(如 SASRec)只能在观察数据上训练,观察数据只能看到用户实际点击的 item,但看不到他们在系统未推荐的情况下是否会点击其他 item,也就是说,用户在系统“未推荐”或“推荐但未点击”时的反事实偏好是缺失的。因此为了模拟 “如果系统推荐了这个 item,用户是否会点击/接受” 的场景,即建模 P(Dt∣do(St)),使用GPT-4 生成合成干预数据。

使用真实数据中的用户历史序列作为上下文输入,输出为一个三元组 (history, recommended_item, response)

CSRec在使用传统的 HR和 NDCG作为主评估指标之外。设计了两个符合因果预测目标的新评估指标,用来衡量模型是否学到了干预视角下真实的用户响应预测能力,因为有干预数据,HR等是评价观察数据的。

 dt是来自GPT-4生成的response(0或1 点击还是不点击),d^t是模型预测的响应,使用分位数阈值(1 - α)将预测结果转化为二分类决策(点击 or 不点击)。

4.2 模型的流程

完全基于因果公式:

在干预下预测当前用户响应 Dt(模型的预测)的概率等于:当前 Dt的条件概率(给定推荐 St、上一步响应 Dt−1​、偏好状态 Pt​)乘上一步干预下响应 Dt−1然后对所有 Dt−1求和。

4.2.1 推荐 St

基于用户历史行为序列(观察数据),使用序列推荐模型例如SASRec,建模观测条件概率:

 4.2.2 用户响应 Dt

使用观测条件概率模型,基于干预数据(GPT 生成),输入当前推荐 St​、用户状态 Pt,输出的是用户在系统推荐该 item 下是否接受推荐

  4.2.3 损失函数

第一项干预监督损失:ft​(θ):干预模型预测当前响应 Dt 的概率,Dt​∈{0,1}:GPT 生成的真实响应标签,使用交叉熵损失训练干预预测器 ft。

第二项结构一致性约束项:干预模型的输出不仅要符合训练标签,还必须与前一时刻的预测和当前观测模型组合结果一致。


总结

个人总结哈,更像可解释推荐,只不过可解释推荐使用了评论信息,我之前有讲过有一篇可解释推荐的做法,但是CSRec使用的是gpt,不光是进行数据进行增强,同样gpt生成了点击或不点击的标签,因此不光使用HR进行衡量,同样作者设计了一个评价指标。所以生成了候选的item list和标签,同时按照序列推荐的方法使用上个时刻的用户决策,当前的交互在干预数据上进行预测干预分布。

我认为因果推荐最重要的是do操作,是如何do的,这篇论文就是使用gpt输出的数据生成“干预分布”,同时和观测数据进行联合训练,并且加了个约束,这就是它的do操作。


http://www.hkcw.cn/article/HxDdixWCAV.shtml

相关文章

广西柳州三江一路段塌陷滑坡 车辆接连掉落引发关注

6月3日,广西柳州三江侗族自治县古宜镇一处突发塌方引发关注。现场视频显示,一排车辆停在临坡处的停车位,该坡下方的土层已经空缺。有车辆接连掉下,部分路面也损坏破裂。当天下午,三江侗族自治县应急管理局工作人员表示已有人在现场处置,没有人员伤亡。早上统计时只有一辆…

雷军回应YU7定价 正式价格即将公布

雷军在小米投资者大会上再次披露了YU7的相关信息。他表示反对“内卷”和“价格战”,并澄清最新推出的小米YU7售价不可能是网传的23.59万元,正式定价将在开售前1-2天确定。5月22日,在小米15周年新品发布会上,雷军宣布YU7将于7月正式发布和上市,定位为“豪华高性能SUV”,共…

大爷闯红灯撞倒女孩后直接走了 后来老人的家人过来道歉了

近日,江西南昌,视频显示,女孩绿灯过马路时被一个骑电瓶车的大爷撞倒,事后大爷走了。记者采访了孩子爸爸陈先生,他说骑车的是一个老人家,是隔壁村的,撞到孩子后跑了,后来老人的家人过来道歉了,让删除视频自己拒绝了。责任编辑:zx0002

八角游乐园地铁站封站改造 提升换乘便利性

为配合地铁1号线支线工程建设,从6月2日开始,既有1号线八角游乐园站将进行封站改造,实现两条线路连通,提升站内设施服务水平,预计2027年5月完工。封站期间,沿线地面公交线路将加大运力投入,保障市民有序接驳地铁1号线相邻站点和地铁6号线。八角游乐园站位于石景山路下方,…

酒类股5月盘点 会稽山领涨黄酒板块

2025年5月30日,5月交易日收盘。同花顺数据显示,20只白酒A股中有6家上涨,*ST岩石、天佑德酒、皇台酒业分别以30.76%、5.52%、3.55%的涨幅位列前三。7家啤酒A股中有6家上涨,*ST兰黄以38.51%领涨。三家黄酒上市公司均上涨,会稽山以73.34%的涨幅居首。*ST岩石在5月30日收于7.7…

沃尔沃汽车在美暂停生产 供应链中断影响

6月1日,沃尔沃汽车暂停了其位于美国南卡罗来纳州里奇维尔的装配厂生产。该工厂负责生产纯电动沃尔沃EX90,并且是沃尔沃在美国电气化战略中的重要组成部分。停产的原因在于汽车行业供应链持续中断,导致关键零部件短缺。近期贸易紧张局势加剧了全球供应链问题。美国对进口自欧…

西方对乌突袭俄沉默是有预谋

专家:西方对乌突袭俄沉默是有预谋。泽连斯基的报复让世界哗然,西方集体沉默有预谋,俄的报复在路上!近日,俄乌冲突局势又现波澜。乌军高调公布战果,宣称在代号“蛛网”的行动中,成功摧毁41架俄军战略轰炸机,包括图-95、图-22M3等,让俄罗斯远程机队战力锐减34%。这一消息…

记者:恩里克抵达米兰 梦想成真首访米兰城

恩里克抵达米兰机场时接受了简短采访。当被问及是否准备好踢世俱杯时,他表示非常开心,称这是他第一次来到米兰城,感觉像梦想成真。对于是否已经和教练进行过交谈的问题,恩里克表示稍后会详谈。至于对米兰城的印象,他说自己还不太熟悉。此外,马赛主帅德泽尔比也向他送上了…

中国女排18人名单公布 国际排联提醒赵勇 北京站开赛在即

2025年世界女排联赛首站中国北京站比赛将于6月4日拉开战幕。6月3日,中国女排出战本站赛事的18人大名单出炉,龚翔宇、王媛媛、王梦洁3名老将领衔,多名年轻人入围。主攻位置包括吴梦洁、庄宇珊、唐欣、董禹含四人,李盈莹因伤缺席。吴梦洁、庄宇珊将担起进攻重任,她们参加过巴…

【金仓数据库征文】金仓数据库 KES 助力企业数据库迁移的实践路径

在企业数字化转型浪潮的强力推动下,数据库迁移已成为企业升级 IT 架构、提升数据管理能力的关键环节。从 MySQL 到金仓数据库 KingbaseES(KES)的迁移方案,为企业提供了一条高效、可靠的数据库升级路径。 一、迁移挑战与金仓数据…

数据库的SQL脚本文件导入到mysql数据库的几种方式

目录 一.sql文件的介绍 二.sql文件导入的办法 2.1命令行导入 2.1.1source导入 2.1.2mysql直接导入 2.1.3管道导入 2.2工具导入 一.sql文件的介绍 SQL文件是用于存储和管理数据库数据的文件格式,它通常包含SQL(结构化查询语言)脚本&…

从0开始教你,如何进行前后端的数据库(MySQL)连接

引言 很多小伙伴会好奇,如何从零开始实现一个完整的前后端项目,并将数据存储在 MySQL 数据库中,然后我们可以进行实时的更新,查询,修改,增加删除。 比如一个简单的留言板系统,用户可以通过前端…

【金仓数据库征文】政府项目数据库迁移:从MySQL 5.7到KingbaseES的蜕变之路

摘要:本文详细阐述了政府项目中将 MySQL 5.7 数据库迁移至 KingbaseES 的全过程,涵盖迁移前的环境评估、数据梳理和工具准备,迁移实战中的数据源与目标库连接配置、迁移任务详细设定、执行迁移与过程监控,以及迁移后的质量验证、系…

从0到1:用Lask/Django框架搭建个人博客系统(4/10)

摘要:本文深入解析了使用Lask和Django构建个人博客系统的全过程。从技术选型的考量,突出Lask的轻量灵活与Django的强大功能,到开发环境搭建、项目初始化,再到核心功能实现如文章管理、用户认证与权限控制,详细阐述了开…

【金仓数据库征文】-- 金仓数据库:技术实践天花板级深度解析,手把手教你玩转企业级应用

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…

【金仓数据库征文】MySQL 与 KingbaseES 的华丽转身:揭秘迁移路上的最佳实践秘籍

目录 1 -> 概述 1.1 -> MySQL兼容特性 1.2 -> 数据类型 2 -> 主要移植内容 2.1 -> 数据库、用户移植 2.2 -> MySQL数据迁移 2.3 -> 应用程序移植 3 -> 关键移植步骤 4 -> MySQL数据库移植实战 4.1 -> 迁移前准备 4.1.1 -> 配置 Ki…

【金仓数据库征文】金仓数据库KingbaseES: 技术优势与实践指南(包含安装)

目录 前言 引言 一 : 关于KingbaseES,他有那些优势呢? 核心特性 典型应用场景 政务信息化 金融核心系统: 能源通信行业: 企业级信息系统: 二: 下载安装KingbaseES 三:目录一览表: 四:常用SQL语句 创建表: 修改表结构…

【金仓数据库征文】- 深耕国产数据库优化,筑牢用户体验新高度

目录 引言 一、性能优化:突破数据处理极限,提升运行效率 1.1 智能查询优化器:精准优化数据检索路径 1.2 并行处理技术:充分释放多核计算潜力 1.3 智能缓存机制:加速数据访问速度 二、稳定性提升:筑牢…

Java实现数据库图片上传(包含从数据库拿图片传递前端渲染)-图文详解

目录 1、前言: 2、数据库搭建 : 建表语句: 3、后端实现,将图片存储进数据库: 思想: 找到图片位置(如下图操作) 图片转为Fileinputstream流的工具类(可直接copy&#…

乌方披露对俄特种作战行动细节 41架俄军战机被击中

当地时间6月2日,乌克兰国家安全局局长瓦西里马柳克宣布,乌克兰国家安全局在代号为“蛛网”的特别行动中袭击了俄罗斯后方部署战机的四个军用机场。此次行动导致41架俄军战机被击中,其中包括A-50、图-95、图-22M3和图-160战机。他表示,这次行动摧毁了俄罗斯34%的战略巡航导弹…