利用 Synonyms 中文近义词库调优 RAG 服务,基于 Ollama, DeepSeek R1, Langchain

article/2025/7/26 21:39:08

目录

    • 比对代码
    • 对比结果
      • Synonyms 中文近义词 Embeddings
      • HuggingFaceEmbeddings

GitHub https://github.com/hailiang-wang/llm-get-started/tree/master/003_rag_langchain
在这里插入图片描述

本文介绍,在基于 RAG 服务实现问答的过程中,使用两种 Embeddings 模式下,处理中文 PDF 文件,推理结果的比对:

  • HuggingFaceEmbeddings
  • Synonyms 中文近义词 Embeddings

比对代码

作为比对,只是更新了 Embeddings 类,而其它代码均不变。这意味着,大模型、参数、知识库文件等都是相同的。

  • HuggingFaceEmbeddings:LINK
  • Synonyms 中文近义词 Embeddings: LINK

对比结果

PDF 文件中,有一些地方表明了项目的负责人是张笑,但是需要模型的推理能力才能回答。

  • 结论:Synonyms 中文近义词 Embeddings RAG 准确回答了。HuggingFaceEmbeddings 没有回答出来。每个 RAG 服务的推理详情见下。Synonyms 中文近义词 Embeddings RAG 服务处理中文文档更胜一筹。

Synonyms 中文近义词 Embeddings

给出了正确答案:项目负责人是张笑。
在这里插入图片描述

HuggingFaceEmbeddings

未能给出准确答案。
在这里插入图片描述


http://www.hkcw.cn/article/sfsivbQboq.shtml

相关文章

HTML 文件反编译指南:优化与学习网页代码

原文:HTML 文件反编译指南:优化与学习网页代码 | w3cschool笔记 (请勿将文章标记为付费!!!) 一、何为 HTML 文件反编译? 反编译 HTML 文件即将其从可读代码转换为更精简的形式。实际上&#…

在 ODROID-H3+ 上安装 Win11 系统

在 ODROID-H3 上安装 Windows 11 系统。 以下是完整的步骤,包括 BIOS 设置、U 盘制作、安装和驱动处理,全程不保留之前的系统数据。 ✅ 准备工作 1. 准备一个 ≥8GB 的 USB 启动盘 用另一台电脑制作 Windows 11 安装盘。 👉 推荐工具&…

大话软工笔记—分离之业务与管理

1. 业务与管理的定义 业务,指企业为达成某个目标而进行的一系列活动(业务指的是“做事”)。 管理,为实现业务目标而进行的决策、计划、组织、指导、实施、控制的过程(管理是“管事”,“事”指的是业务&am…

DeepSeek R1 模型小版本升级,DeepSeek-R1-0528都更新了哪些新特性?

DeepSeek-R1‑0528 技术剖析:思维链再进化,推理性能飙升 目录 版本概览深度思考能力再升级基准测试成绩功能与体验更新API 变动与示例模型开源与下载结语 版本概览 DeepSeek 团队今日发布 DeepSeek‑R1‑0528 —— 基于 DeepSeek V3 Base(2…

请求分页中的内存分配

最小物理块数的确定 最小物理块数是确保进程能够正常运行所需的最少物理块数量。它是一个基础保障值,若分配的物理块数少于这个值,进程可能因无法完整加载必要页面而无法正常执行。例如,一个简单程序可能至少需要 3 个物理块来存放关键代码和…

痉挛性斜颈相关内容说明

一、颈部姿态的异常偏移​ 痉挛性斜颈会打破颈部原本自然笔直的状态,让颈部像被无形的力量牵引,出现不自主的歪斜、扭转。它就像打乱了颈部原本和谐的 “平衡游戏”,使得颈部姿态偏离正常,影响日常的体态与活动。​ 二、容易察觉…

【C++】位图

位图(Bitmap)是一种用于高效表示集合的数据结构,其核心思想是使用二进制位来指示某个元素是否存在。在位图中,每个元素对应一个二进制位,若该元素存在,则对应的位为1;若不存在,则为0…

初学c语言21(文件操作)

一.为什么使用文件 之前我们写的程序的数据都是存储到内存里面的,当程序结束时,内存回收,数据丢失, 再次运行程序时,就看不到上次程序的数据,如果要程序的数据一直保存得使用文件 二.文件 文件一般可以…

回车键为什么叫做“回车键”?

Enter键,也就是 “回车键”, 大家应该都不陌生。 可你知道它为什么叫“回车键”, 而不叫“输入键”、“登记键”嘛? 这要从机械英文打字机说起 因为电脑的普及,打字机几乎消失匿迹。 有的小伙伴们也许在小时候用过…

以太联Intellinet 分享:PoE 技术在医疗保健行业的创新应用

在当今科技飞速发展的时代,物联网(IoT)在医疗领域的应用正呈现出蓬勃兴起的态势。全球各地的医院以及老年生活中心纷纷引入物联网智能医疗解决方案,以实现设施运营的高效化与智能化。而在这背后,以太网供电(PoE)技术发挥着关键作用&#xff0…

大语言模型的技术原理与应用前景:从Transformer到ChatGPT

目录 摘要 1. 引言 2. Transformer架构核心原理 2.1 自注意力机制 2.2 位置编码 2.3 前馈神经网络 3. 从GPT到ChatGPT的演进 3.1 GPT系列模型架构 3.2 训练流程优化 4. 应用场景与案例分析 4.1 代码生成 4.2 文本摘要 4.3 问答系统 5. 挑战与未来方向 5.1 当前技…

CSS Day06

1.定位-相对和绝对和固定 (1)相对定位 position: relative; top: 100px; left: 200px; (2)绝对定位 就是子选择则器要用绝对定位,父选择器要用相对定位。 如果没有遵守此规则,那么小标签会跑到浏览器最角落: &#…

2025年5月24号高项综合知识真题以及答案解析(第1批次)

2025年5月24号高项综合知识真题以及答案解析

PowerDesigner通过SQL反向生成类图

PowerDesigner通过SQL反向生成类图 背景操作步骤步骤1: 选择这个步骤2: 目前我是选择的这个步骤3: 选择这个 其他 背景 工作学习 操作步骤 步骤1: 选择这个 步骤2: 目前我是选择的这个 步骤3: 选择这个 其他 其他同事告诉我的, 我还没有亲自尝试, 应该问题不大. 尝试后再反…

驱动灯珠芯片LT3743手册理解

1.引脚功能 1.EN/UVLO EN/UVLO引脚用作启用引脚,可在1.55V时开启内部电流偏置核心和子稳压器。该引脚没有上拉或下拉功能,因此正常工作需要电压偏置。当电压降至约0.5V时,系统将完全关闭。即EN/UVLO引脚的输入电压在1.55V至6V之间即可。 2.…

在 Mac 下 VSCode 中的终端使用 option + b 或 f 的快捷键变成输入特殊字符的解决方案

前言 在终端里,我们可以使用 option b 和 option f 来在我们输入的命令中进行快速的前后调整光标,但是,在未设置的情况下,在 MacOS 中,会变成输入特殊字符。 普通键盘上是 alt b 和 alt f ,只是叫法不…

晨控CK-FR08与西门子PLC配置Profinet通讯连接操作手册

晨控CK-FR08与西门子PLC配置Profinet通讯连接操作手册 晨控CK-FR08系列作为晨控智能工业级别RFID读写器,支持大部分工业协议如RS232、RS485、以太网。支持工业协议Modbus RTU、Modbus TCP、Profinet、EtherNet/lP、EtherCat以及自由协议TCP/IP等。 本期主题:围绕CK…

【高能计算机】海思主板的特点和应用

在科技飞速发展的今天,主板作为电子设备的核心组件,其性能和功能直接影响着整个系统的运行效率和稳定性。继飞腾主板和龙芯主板的出现之后,高能计算机作为中国工控主板的研发生产商,紧跟时代发展的步伐,又推出一款海思…

从认识AI开始-----解密LSTM:RNN的进化之路

前言 我在上一篇文章中介绍了 RNN,它是一个隐变量模型,主要通过隐藏状态连接时间序列,实现了序列信息的记忆与建模。然而,RNN在实践中面临严重的“梯度消失”与“长期依赖建模困难”问题: 难以捕捉相隔很远的时间步之…

基于javaweb的JSP+Servlet家政服务系统设计与实现(源码+文档+部署讲解)

技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…