建筑兔零基础人工智能自学记录101|Transformer(1)-14

article/2025/6/19 6:01:04

Transformer

谷歌提出,一组编码-解码器

可以同时处理,通过位置编码来处理单词

实质是token词语接龙(只是有不同的概率)

token对应向量

Transformer简述

 文生图就需要用到transformer黑箱

 

token

 

内部层次

中间主要是embedding matrix嵌入矩阵、attention注意力模块、multilayer perception多层感知机(MLP)

attention注意力模块内部是互相交流的、multilayer perception多层感知机(MLP)内部是并行不交流的

 

 

   

本质就是线性代数

 

 

 

实质通过矩阵运算

 有不同的矩阵

 嵌入矩阵

 如何推测的举例:1、男人之于女人≈国王之于王后

 如何推测的举例:2、妈妈之于爸爸≈ 女人之于男人

                             3、希特勒+意大利-德国≈ 墨索里尼(从轴心国领导人/意大利两个角度找到)

                             4、寿司+德国-日本≈ 油煎香肠

 点积是表达两个向量是否相近的方式,通过运算结果正负判断

 

 context size就是一次处理向量的数量

 

所以当context size较少时,gpt会出现遗忘了之前说的

解嵌入矩阵

 softmax

补充:另一个transformer介绍,不是很生动。所以只看了开头。

 

 

 


http://www.hkcw.cn/article/ckYYHYtWhX.shtml

相关文章

网线水晶头接法与8根线芯作用解析

网线的正确接法至关重要,它直接影响网络的稳定性与传输速度。而了解每根线的作用,更是深入掌握网络布线知识的关键。常见的网线为非屏蔽双绞线(UTP),内部包含 8 根不同颜色的线芯,两两相互缠绕,…

【GESP真题解析】第 2 集 GESP 三级样题卷编程题 1:逛商场

大家好,我是莫小特。 这篇文章给大家分享 GESP 三级样题卷编程题第 1 题:逛商场。 题目链接 洛谷链接:B3848 逛商场 一、完成输入 根据输入格式描述,输入一共有三行,第一行为整数 N,数据范围: 1 ≤ N ≤ 100 1 \le N \le 100 1≤N≤100,使用 int 类型。 第二行为 N …

Nacos实战——动态 IP 黑名单过滤

1、需求分析 一些恶意用户(‏可能是黑客、爬虫、DDoS ؜攻击者)可能频繁请求服务器资​源,导致资源占用过高。针对这种问题,可以通过IP‏ 封禁,可以有效拉؜黑攻击者,防止资源​被滥用,保障合法…

基于Web的濒危野生动物保护信息管理系统设计(源码+定制+开发)濒危野生动物监测与保护平台开发 面向公众参与的野生动物保护与预警信息系统

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

流媒体协议分析:流媒体传输的基石

在流媒体传输过程中,协议的选择至关重要,它决定了数据如何封装、传输和解析,直接影响着视频的播放质量和用户体验。本文将深入分析几种常见的流媒体传输协议,探讨它们的特点、应用场景及优缺点。 协议分类概述 流媒体传输协议根据…

通过mqtt 发布温湿度

参考 用HAL库改写江科大的stm32入门例子-补充DHT11_江科大stm32安装hal库-CSDN博客 老夫上课的时候 ,这部份讲的比较多 ,出发点是 安利 “单总线”的具体使用。 这里无非是引入dht11 库, 使用前初始化 然后通话dht11库的方法 读取数据 &…

ApiHug 1.3.9 支持 Spring 3.5.0 + Plugin 0.7.4 内置小插件升级!儿童节快乐!!!

有用内置小插件 - ApiHug小插件,大用途https://apihug.github.io/zhCN-docs/how/005_helpful_inner_plugin SDK: [1.3.9-RELEASE] - 2025-06-01 Move the router auto-processing to an internal plugin for enhanced flexibility.Translate the OAS to json sch…

CTFHub-RCE 命令注入-无过滤

观察源代码 判断是Windows还是Linux 源代码中有 ping -c 4 说明是Linux 查看有哪些文件 127.0.0.1|ls 发现除了index.php文件外,还存在一个可疑的文件 打开flag文件 我们尝试打开这个文件 127.0.0.1|cat 19492844826916.php 可是发现 文本内容显示不出来&…

Mysql库的操作和表的操作

Mysql库和表的操作 库的操作1.查看数据库列表2.创建数据库3.使用数据库4.查看当前在那个数据库中5.显示数据库的创建语句6.修改数据库7.删除数据库8.备份和恢复数据库9.查看数据的连接情况(简单来说就是查看有多少人使用你的数据库) 表的操作1.创建表2.查看表结构3.修改表本身(…

Excel如何分开查看工作表方便数据撰写

首先我这里有2class和3class两个工作表 接下来我们点击视图 按照顺序分别点击新建窗口和全部重排 ### 然后就是这样 接下来就OK了

C++23 已弃用特性

文章目录 1. std::aligned_storage 与 std::aligned_union1.1 特性介绍1.2 被弃用的原因1.3 替代方案 2. std::numeric_limits::has_denorm2.1 特性介绍2.2 被弃用的原因 3. 总结 C23 已弃用特性包括:std::aligned_storage、std::aligned_union 与 std::numeric_lim…

MySQL事务和索引原理

目录 1. MySQL事务原理 1.1. 事务的基本概念 1.2. 事务隔离的实现机制 1.3. 事务的启动方式 2. 索引的原理 2.1. 索引的作用 2.2. 索引常用模型及适用场景 2.3. InnoDB中的索引结构 2.4. 索引维护 2.5. 覆盖索引 2.6. 联合索引和最左缀原则 2.7. 索引下推 1. MySQL事…

第十一章 Java基础-继承

文章目录 1.继承来源2.继承特点3.子类能继承父类中哪些内容1.继承来源 是为了解决代码的重复冗余。

【11408学习记录】考研英语写作提分秘籍:2013真题邀请信精讲+万能模板套用技巧

邀请信 英语写作2013年考研英语(一)真题小作文题目分析写作思路第一段:第二段:锦囊妙句1:锦囊妙句2:锦囊妙句3:锦囊妙句5:锦囊妙句6:锦囊妙句9:锦囊妙句14&am…

汽车电子笔记之:有关汽车电子AUTOSAR的一些名词解释

目录 1、概述 2、基础概念 2.1、SPEM 2.2、SPEC 2.3、SIP包 2.4、SLP 2.5、HLP 2.6 、AUTOSAR方法论 2.6.1、ECU Extruct 2.6.2、ECU Configuration Values(EcuC) 2.6.3、Software Component Deion 2.6.4、Measurement and Calibration S…

ASP.NET Core OData 实践——Lesson8增删改查原始类型Property(C#)

大纲 支持的接口主要模型设计控制器设计数据源查询(GET)查询基础类型的原始类型属性查询基类类型Entity的基础类型属性的值查询基类类型Entity的派生类型属性的原始值 查询派生类型Entity的基础类型属性查询派生类型Entity的属性值查询派生类型Entity的派生类型属性的原始值 新…

PCIE之Lane Reserval通道out of oder调换顺序

参考:测量小百科 | PCIe通道位置翻转(Lane Reversal)技术 参考:PCIe学习笔记(3)链路初始化和训练_pcie 有序集 lane-CSDN博客 案例上都是按照x4或者x8交叉,对于x2也是有办法交叉的,如果4lane的顺序并不是…

LXQt修改开始菜单高亮

开始菜单红色高亮很难看 mkdir -p ~/.local/share/lxqt/palettes/ mkdir -p ~/.local/share/lxqt/themes/ cp /usr/share/lxqt/palettes/Dark ~/.local/share/lxqt/palettes/Darker cp -p /usr/share/lxqt/themes/dark ~/.local/share/lxqt/themes/darker lxqt-panel.qss L…

MIT 6.S081 2020 Lab6 Copy-on-Write Fork for xv6 个人全流程

文章目录 零、写在前面一、Implement copy-on write1.1 说明1.2 实现1.2.1 延迟复制与释放1.2.2 写时复制 零、写在前面 可以阅读下 《xv6 book》 的第五章中断和设备驱动。 问题 在 xv6 中,fork() 系统调用会将父进程的整个用户空间内存复制到子进程中。**如果父…

使用langchain实现RAG(检索增强生成)

概述 本文将从零开始实现一个langchain应用程序, 该应用支持读取pdf文档并embedding编码到Chroma数据库, 当用户提问时, 可以从网络搜索结果和本地向量数据库中收集数据, 传递给第三方LLM大模型, 所有使用到的工具完全免费 将使用如下技术或工具: python3.9langchainChroma …