基于KG生成语料增强解决RAG问答幻觉问题的简单框架-WalkRetrieve

article/2025/8/19 10:14:48

Walk&Retrieve基于知识图谱,利用基于图遍历和知识表述来进行零样本RAG的语料库生成。解决RAG系统的幻觉问题。该框架思路比较简单,核心点在于零样本RAG的语料库生成,下面来看看,供参考。

方法架构

语料生成

在框架中,语料生成该方法的核心步骤。该阶段从知识图谱中提取相关信息,并将其转化为适合LLM处理的文本格式。语料生成包括以下几个步骤:基于图的遍历、知识表示和索引。

1.基于图的遍历
  1. 随机游走:随机游走是一种随机过程,从一个节点开始,每次以均匀的概率选择当前节点的邻居节点进行移动。

    其中, ∣ N ( v i ) ∣ \left|N\left(v_{i}\right)\right| N(vi) 表示节点 v i v_i vi 的邻居数量。
    对于每个节点 v ∈ V v \in V vV,生成 n w n_w nw 条长度为 l l l 的随机游走路径 W l \mathcal{W}_{l} Wl。最终的语料库 C R W C_{RW} CRW 是所有节点的随机游走路径的集合。

    • 优点:简单易行,适用于大规模图谱。
    • 缺点:可能会产生重复路径和噪声。
  2. 广度优先搜索-BFS游走:BFS是一种图遍历算法,从根节点开始,逐层访问其邻居节点。对于每个根节点 v r ∈ V v_r \in V vrV,构建一个层次结构,每一层的节点表示与根节点的最短路径距离。然后,按照层次顺序进行遍历,确保每个节点只被访问一次。

    其中, L 0 = { v r } L_0 = \{v_r\} L0={vr} d d d 是最大深度。

    • 优点:避免了重复路径,生成的游走路径更加多样化。
    • 缺点:计算复杂度较高,尤其是在深层遍历时。
2.知识表示

LLM需要文本输入,需要将提取的图遍历路径转换为自然语言描述。使用预定义的提示模板,将每个节点的游走路径转化为自然语言句子。例如,对于一个随机游走的路径 ( v 1 , r 1 , v 2 , r 2 , v 3 ) (v_1, r_1, v_2, r_2, v_3) (v1,r1,v2,r2,v3),可以生成类似“ v 1 v_1 v1 通过关系 r 1 r_1 r1 连接到 v 2 v_2 v2,而 v 2 v_2 v2 通过关系 r 2 r_2 r2 连接到 v 3 v_3 v3”的句子。

预定义的提示模板

3.索引

将每个游走路径 w i v w_i^v wiv 转换为向量表示,并计算每个节点的全局表示,作为其所有游走路径向量的拼接。将节点及其对应的游走路径向量存储起来,便于在推理阶段进行快速检索。

检索问答

该阶段不是重点,与传统的RAG相同,包括将query编码、相似性检索(k近邻搜索)、上下文整合、答案生成。

答案生成prompt模板

实验性能

MetaQA上的性能:Walk&Retrieve-BFS在答案准确性和减少虚假答案方面表现最佳,相对提高了38.64%。其他基于KG的RAG系统虽然准确性高,但虚假答案更多。Walk&Retrieve-BFS在1跳、2跳和3跳问题上的真实性和减少无响应方面表现优异。

CRAG上的性能:Walk&Retrieve变体在答案准确性上优于仅使用LLM和基于文本的RAG,同时在虚假答案和无响应率上与之相当。由于CRAG的复杂性较高,Walk&Retrieve的性能略有下降,但仍表现出良好的鲁棒性。

参考文献:Walk&Retrieve: Simple Yet Effective Zero-shot Retrieval-Augmented Generation via Knowledge Graph Walks,https://arxiv.org/pdf/2505.16849v2


http://www.hkcw.cn/article/CCGHjfRaSx.shtml

相关文章

AI智慧高光谱遥感:99个案例项目、全覆盖技术链与应用场景

在遥感技术飞速发展的今天,高光谱数据以其独特的光谱分辨率成为环境监测、精准农业、地质勘探等领域的核心数据源。然而,海量的波段数据、复杂的预处理流程、以及传统方法在特征提取和分类精度上的局限,让许多从业者望而却步。 第一部分&…

美国对中国产大飞机动手了 促国产动力加速研发

美国暂停向中国出售部分关键技术,包括喷气发动机相关技术。此举针对正在与空客和波音竞争的中国商飞,该公司正开发国产商用飞机C919。据《纽约时报》报道,美国商务部已暂停部分允许美国公司向中国商飞出售产品和技术的许可证。路透社也证实,美国商务部正在审查对中国具有战…

2025中国龙舟公开赛太原站开赛 多队备战冲刺

5月28日,2025中国龙舟公开赛(山西太原站)暨太原汾河龙舟公开赛进入备战冲刺阶段。多支参赛队前往太原市水上运动中心“试水”,力争以最好的状态出战比赛。本届赛事设置了100米直道赛、200米直道赛、500米直道赛和2000米追逐赛四个竞赛项目。其中,直道赛分为22人龙舟和12人…

国际乒联将展开调查 选举争议引发混乱

国际乒联将展开调查 选举争议引发混乱!当地时间29日,国际乒联发布声明,提及5月27日在卡塔尔多哈召开的年度股东大会期间,因主席选举争议引发混乱,最终宣布临时暂停会议。声明中提到,在主席选举结束后,一些既不是会员协会代表也不是执行委员会、理事会、委员会成员或受邀…

中国船企订单已排至2029年 造船业景气持续

在全球贸易形势复杂多变的情况下,中国的造船产业依然展现出强大的市场韧性和竞争力。今年1至4月,中国造船业新接订单量占世界市场份额继续保持全球第一。许多造船企业的订单饱满,生产任务已经排到了几年之后。下午三点,在辽宁大连一家造船企业的码头上,一艘16000标箱的集装…

多部手机连接同一wifi的ip一样吗?如何更改ip

通常情况下,多部手机连接同一个WiFi时,它们的IP地址是各不相同的(在局域网内)。但是,从互联网(外网)的角度看,它们共享同一个公网IP地址。让我详细解释一下,并说明如何更…

王志伟任国家电网有限公司副总经理 新职务任命公布

2025年5月29日上午,国家电网有限公司召开党组扩大会议,通报了中央组织部关于王志伟同志任国家电网有限公司副总经理、党组成员的决定。该任命将按照相关法律和章程进行办理。责任编辑:zhangxiaohua

绿色小巧,专治 Office 图片导出难题

如果你经常需要从 Word 或 PPT 等 Office 文档中提取图片,而又觉得“另存为”操作繁琐、画质缩水,那你可以试试这款由吾爱大佬 namejm 开发的小工具。 这款工具专为提取 Office 文档中的图片而设计,使用起来非常简单,只需将文件拖…

leetcode 3373. 连接两棵树后最大目标节点数目 II 困难

有两棵 无向 树,分别有 n 和 m 个树节点。两棵树中的节点编号分别为[0, n - 1] 和 [0, m - 1] 中的整数。 给你两个二维整数 edges1 和 edges2 ,长度分别为 n - 1 和 m - 1 ,其中 edges1[i] [ai, bi] 表示第一棵树中节点 ai 和 bi 之间有一…

Python基础语法(下)

字符串常见操作 成员运算符 作用:检查字符串中是否包含了某个字符串(即某个字符或某个字符串) in : 如果包含的话返回True,不包含返回False not in : 不包含返回True,包含返回False 例: a "hel…

N皇后问题(回溯、启发式算法、随机算法)

题目描述回溯法所有解向量返回单个解伪代码 启发式修补法原版伪代码 改进版伪代码 拉斯维加斯随机算法伪代码具体代码 简单测试函数 题目描述 N皇后问题即为在一个nn的棋盘上放置n个彼此不受攻击的皇后。按照国际象棋的规则,皇后可以攻击同行、同列或同一斜线上的棋…

华为OD机试真题——战场索敌(2025A卷:100分)Java/python/JavaScript/C/C++/GO最佳实现

2025 A卷 100分 题型 本专栏内全部题目均提供Java、python、JavaScript、C、C++、GO六种语言的最佳实现方式; 并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析; 本文收录于专栏:《2025华为OD真题目录+全流程解析+备考攻略+经验分…

企业文件乱、传输慢?用群晖 NAS 构建安全高效的共享系统

在信息化办公不断加速的今天,企业对文件存储、共享与安全管理的需求愈发严苛。传统文件共享方式效率低下、权限混乱、远程访问困难,极大影响了协同办公效率。此时,一套可靠、高效、安全的文件共享解决方案便成为众多企业的“刚需”。 这正是…

IDEA项目推送到远程仓库

打开IDEA——>VCS——>Creat Git 选择项目 push提交到本地 创建远程仓库 复制地址 定义远程仓库 推送 推送成功

被院士当年的毕业论文惊艳到 深耕科技育英才

被院士当年的毕业论文惊艳到 深耕科技育英才!在南京大学,有一群杰出的学者致力于国家重大需求和世界科技前沿的研究。他们不仅在科研道路上不断探索,还培养了大量青年科学家。在中国科学院学部成立70周年及第九个“全国科技工作者日”之际,中国科学院推出了“遇见先生”系列…

加拿大多地野火肆虐进入紧急状态 武装部队驰援

加拿大多地野火肆虐进入紧急状态 武装部队驰援!近日,加拿大多地遭受野火侵袭。中部马尼托巴省于28日宣布进入紧急状态,政府将派遣武装部队前往救援。5月25日,在加拿大艾伯塔省斯旺希尔斯附近,野火燃烧引发滚滚浓烟。同月27日,麦克默里堡附近的野火也产生了大量浓烟。此外…

GESP2024年6月认证C++二级( 第三部分编程题(2)计数)

参考程序&#xff1a; #include <iostream> using namespace std;// 函数 check(x, y)&#xff1a;统计一个整数 x 中有多少位是数字 y int check(int x, int y) {int cnt 0; // 统计 y 出现的次数while (x > 0) { // 逐位处理 x 中的每一位int tmp x % …

手动移植FreeRTOS

好记性不如烂笔头&#xff0c;之前也移植时一直忘记记录一下&#xff0c;这次刚好项目用上就步步记录一下防止下次忘记&#xff0c;同时也希望对同行有所帮助&#xff0c;不求别的只为一个点赞和关注&#xff0c;就能给我带来极大的虚荣心和情绪价值&#xff0c;谢谢。 第一步…

决策分析工具篇

为了便于决策分析绘图&#xff0c;开发了影响图和决策树的绘图工具&#xff0c;用于学习和演练。 1.支持不同类型的节点&#xff0c;对于不确定性节点的概率和要求为1. 2.支持连接线。 3.支持导出绘图为图片 4.不存储用户数据&#xff0c;即时使用。 影响图提供了一种紧凑且直…

国际乒联选举现场乱成一锅粥 投票争议引发混乱

国际乒联选举现场乱成一锅粥。当地时间5月27日,2025年国际乒联代表大会在卡塔尔多哈召开期间,因主席选举争议导致会议临时暂停。投票过程中,现任主席佩特拉索林以104票的微弱优势连任,而卡塔尔候选人艾哈迈德哈利勒阿尔穆罕纳获得102票落选。卡塔尔一方对选举过程表示不满,…