大模型前处理-CPU

article/2025/7/13 3:38:01

前处理包含哪些流程

  • 分词 tokenization
  • embedding 

CPU可以做哪些优化

分词

分词在做什么?

 什么是词元化?

词元化(Tokenization)是把一段自然语言文本拆分成更小的单元(称为“词元”,即 Token)的过程。词元可以是:

  • 单词:例如,“I love NLP” 分成 ["I", "love", "NLP"]。
  • 子词:例如,“loving” 分成 ["lov", "##ing"]。
  • 字符:例如,“hello” 分成 ["h", "e", "l", "l", "o"]。

这些词元最终会被转换成数字表示(模型的输入),因为机器只能处理数字。

如何优化:CPU可选择高效的分词引擎&多线程

高效分词器:FlashTokenizer: 基于C++的高性能分词引擎,速度可以提升8-15倍-阿里云开发者社区

friso:git clone https://github.com/lionsoul2014/friso.git
项目首页 - manticoresearch:manticoresoftware/manticoresearch: 这是一个用于快速搜索和索引数据的搜索引擎。适合用于需要快速搜索和索引数据的场景。特点:易于使用,支持多种数据格式,具有高性能和可扩展性。 - GitCode

探秘高性能中文分词器——Jcseg-CSDN博客

tiktoken - 为OpenAI模型优化的高性能BPE分词器 - 懂AI

上面这个链接有多线程示例

分词器关注指标?对e2e的影响

Qwen是什么分词器;llama又是什么分词器;为什么说qwen的分词器在中文压缩上比llama更好;_qwen 分词器-CSDN博客

embedding 文本嵌入

embedding 在做啥?

大模型推理中的Embedding(Token级)

文本先通过分词器拆分成最小语言单位token,例如 :"unbelievable" → ["un", "believ", "able"]。

接着查询词表,每个token被映射成一个数字编号,比如:"un"→1087。

根据编号查询Embedding矩阵,快速取出对应的浮点数向量,例如:"un"→[0.24,-0.31,0.88,…, 0.05]。

生成Token级的Embedding,是大模型理解输入文本的第一步

如何优化?

玩转RAG应用:如何选对Embedding模型?-腾讯云开发者社区-腾讯云

位置编码

Transformer输入Embedding及位置编码详解_transformer embedding-CSDN博客

词向量之间需要有一个相对位置关系,如果全部不分序输入那处理肯定不方便,不同词之间组合意思也会发生变化,于是就要给词向量加位置信息

Transformer的PE(position embedding),即位置编码理解-CSDN博客

Transformer中Position Embedding的原理与思考 | Erwin Feng Blog

看不懂

位置编码深度剖析:从正弦波到RoPE、ALiBi —— 让AI记住顺序的奥秘-CSDN博客

这篇可以 

附录:

一文搞懂大模型的前处理_大模型处理-CSDN博客

AI大模型中BERT的Embedding到底是个什么?看完小白也懂了! - 知乎

【超详细】【原理篇&实战篇】一文读懂Transformer-CSDN博客


http://www.hkcw.cn/article/RsicaiQIEb.shtml

相关文章

设备驱动与文件系统:02 键盘

操作系统中键盘驱动的讲解 在这一讲中,我将为大家讲解键盘相关内容。从上一讲开始,我们进入了操作系统第四个部分的学习,也就是操作系统对设备的驱动与管理。 上一讲我们探讨的是显示器,并且提到,一个终端设备是由显示…

工作流引擎-18-开源审批流项目之 plumdo-work 工作流,表单,报表结合的多模块系统

工作流引擎系列 工作流引擎-00-流程引擎概览 工作流引擎-01-Activiti 是领先的轻量级、以 Java 为中心的开源 BPMN 引擎,支持现实世界的流程自动化需求 工作流引擎-02-BPM OA ERP 区别和联系 工作流引擎-03-聊一聊流程引擎 工作流引擎-04-流程引擎 activiti 优…

Windows环境下Scoop包管理工具的全面指南

🧩 一、Scoop核心特性与设计理念 定位与优势 专注于开源命令行工具和便携式(Portable)应用,无需管理员权限即可安装,减少系统污染。自动管理环境变量(通过shims目录),安装后即时可用…

谷粒商城-分布式微服务项目-高级篇[三]

十五、商城业务-支付 15.1 支付宝支付 15.1.1 进入“蚂蚁金服开放平台” 支付宝开放 平台地址: 支付宝开放平台 15.1.2 下载支付宝官方 demo,进行配置和测试 开发者文档:支付宝开放平台文档中心 电脑网站支付文档:小程序文…

EchoMimicV2:迈向引人注目、简化的半身人类动画

今天介绍EchoMimicV2,EchoMimicV2是阿里蚂蚁集团推出的半身人体AI数字人项目,输入参考图片、音频、和手部姿势序列生成动画视频(对图片的规范要求比较高,图片规范的话效果还可以),感兴趣的还可以去了解一下…

SpringBoot手动实现流式输出方案整理以及SSE规范输出详解

背景: 最近做流式输出时,一直使用python实现的,应需求方的要求,需要通过java应用做一次封装并在java侧完成系统鉴权、模型鉴权等功能后才能真正去调用智能体应用,基于此调研java实现流式输出的几种方式,并…

vuex的使用

❀ ❀ ❀ ❀ ❀ ❀ ❀ vuex的官网 ❀ ❀ ❀ ❀ ❀ ❀ ❀ ❀ 这里用法不纯粹。用户toolbar页面切换时的传参。若后期有更好的方式,会更改。因vuex用于全局,在这个场景下使用有点大材小用了 其中需要注意的点就是更新、获取状态 更新状态。updateProjec…

Calendar和Datepicker

Displaystart Displayend "2024-10-8" selectedDate属性 设定选择的日期 在 C# 中,DateTime? date1 表示 **一个可空的 DateTime 类型变量**。 ?.是不为零 ?是可以为零0️⃣ 多选 selectionmode none不让选 singlerange shift …

赛事获奖|TsingtaoAI荣获“雄才杯”2025创新创业大赛总决赛奖项

5月16-18日,由雄安新区党工委人才工作领导小组办公室主办的“雄才杯”2025创新创业大赛总决赛在雄安新区成功举办。TsingtaoAI凭借“基于DeepSeek的具身智能实训”项目荣获优胜奖,本项目为参赛项目中唯一的教育科技服务类获奖项目。 大赛背景 本次总决…

初识vue3(vue简介,环境配置,setup语法糖)

一,前言 今天学习vue3 二,vue简介及如何创建vue工程 Vue 3 简介 Vue.js(读音 /vjuː/,类似 “view”)是一款流行的渐进式 JavaScript 框架,用于构建用户界面。Vue 3 是其第三代主要版本,于 …

C++面向对象(二)

面向对象基础内容参考: C面向对象(一)-CSDN博客 友元函数 类的友元函数是定义在类外部,但有权访问类的所有私有(private)成员和保护(protected)成员。尽管友元函数的原型有在类的定…

基于AIS的海洋观测应用

知识星球:数据书局。打算通过知识星球将这些年积累的知识、经验分享出来,让各位在数据治理、数据分析的路上少走弯路,另外星球也方便动态更新最近的资料,提供各位一起讨论数据的小圈子 1.背景 船舶自动识别系统(Aut…

imx6ull(0):烧录、启动

参考内容: i.MX6ULL Applications Processors for Industrial Products i.MX6ULLApplicationsProcessorReferenceManual 正点原子 I.MX6U嵌入式Linux驱动开发指南 以及 广大工程师们在互联网上分享的学习笔记(一样东西学的人多的时候所带来的优势) 例如这里我用…

CloudCompare——使用CSF算法进行点云高程归一化

目录 1.算法原理2.软件操作2.1 CSF算法2.2 生成CSF网格2.3 平滑网格(可选)2.4 计算点云到网格的距离2.5 将计算得到的距离赋值给高程 3.结果展示3.1 原始点云3.2 归一化结果 1.算法原理 点云高程归一化的关键在于获取原始点云地面数据的DEM。可选取CSF算法提取样地点云地面DEM。…

【C语言】C语言经典小游戏:贪吃蛇(下)

文章目录 一、游戏前准备二、游戏开始1、游戏开始函数(GameStart)1)打印欢迎界⾯(WelcomeToGame)2)创建地图(CreateMap)3)初始化蛇⾝(InitSnake)4…

循序渐进 Android Binder(一):IPC 基本概念和 AIDL 跨进程通信的简单实例

Binder 给人的第一印象是”捆绑者“,即将两个需要建立关系的事物用某些工具束缚在一起。在 Android 中,Binder 是一种高效的跨进程通信(IPC)机制,它将可以将运行在不同进程中的组件进行绑定,以实现彼此通信…

ISBN书号查询接口如何用PHP实现调用?

一、什么是ISBN书号查询接口 ISBN数据查询接口是一项图书信息查询服务。它基于全球通用的ISBN编码系统,帮助用户快速获取图书的详细信息,包括书名、作者、出版社、出版时间、价格、封面等关键字段。 该接口广泛应用于电商平台、图书馆管理系统、二手书…

Linux(信号)

目录 一 什么是信号 二 Linux中的信号 1. 查看信号:kill -l 2. 自定义信号的处理方式 2.1 API 2.2 demo 3. 理解信号的发送 4. 信号产生的方式 三 信号保存 四 捕捉信号 1. 先来说说硬件中断: 1. 谁调度操作系统? 2. 理解时间片…

[Windows] Simple Live v1.8.3 开源聚合直播 :支持哔哩哔哩 虎牙 斗鱼 抖音

Simple Live 是一款基于 AllLive 项目 开发的开源聚合直播 APP,支持 哔哩哔哩、虎牙、斗鱼、抖音 等主流平台,具备 无广告、低占用、弹幕互动 等核心优势。其核心功能包括:全平台覆盖:一站式聚合多平台直播资源,无需切…

第十天:Java反射

反射 反射就是:加载类,并编写代码获取类中的成员变量,方法,构造器等。 注意:反射,注解,动态代理就是用来学习框架做框架的,在平时业务开发需求上很少用到。 1 反射学什么&#xf…