BERT***

article/2025/7/28 0:39:38

​1.预训练(Pre-training)​

是深度学习中的一种训练策略,指在大规模无标注数据上预先训练模型,使其学习通用的特征表示,再通过​​微调(Fine-tuning)​​ 适配到具体任务

2.sentence-level(句子级任务)​​和​​token-level(词元级任务)​

自然语言处理(NLP)中,​​sentence-level(句子级任务)​​和​​token-level(词元级任务)​​是根据任务处理的文本粒度划分的两类任务。

在自然语言处理(NLP)中,Feature-based (Elmo) 与 Fine-tuning (GPT) 是两种使用预训练语言模型的策略。它们的主要区别在于 如何将预训练模型应用到下游任务 中。

在自然语言处理(NLP)中,​​sentence-level(句子级任务)​​和​​token-level(词元级任务)​​是根据任务处理的文本粒度划分的两类任务。它们的区别主要体现在输入输出的形式和应用场景上:


​1. Sentence-Level(句子级任务)​

​定义​​:以​​整个句子或句子对​​作为输入,输出是对句子整体属性的预测或分类。
​特点​​:

  • 输入是一个完整的句子(或两个句子的组合)。
  • 输出是句子级别的标签或分数。
  • 通常用于理解句子的语义、情感或关系。

​典型任务​​:

  • ​文本分类​​(如情感分析、主题分类)
    • 输入:"这部电影太精彩了!"
    • 输出:正面情感
  • ​自然语言推理(NLI)​
    • 输入:"句子A:猫在沙发上。句子B:沙发上有一只动物。"
    • 输出:蕴含(Entailment)
  • ​句子相似度​
    • 输入:"句子A:天气真好。句子B:今天阳光明媚。"
    • 输出:相似度0.9(0-1范围)

​BERT中的应用​​:

  • 使用[CLS]标签的最终隐藏状态作为整个句子的表示,接分类器输出结果。

​2. Token-Level(词元级任务)​

​定义​​:以​​句子中的每个词或子词(Token)​​为处理单元,输出对每个Token的预测或标注。
​特点​​:

  • 输入是一个句子,但需要对每个Token单独处理。
  • 输出是Token级别的标签序列。
  • 通常用于细粒度的语言分析。

​典型任务​​:

  • ​命名实体识别(NER)​
    • 输入:"马云在杭州创立了阿里巴巴。"
    • 输出:[B-PER, I-PER, O, B-LOC, O, O, B-ORG]
  • ​词性标注(POS Tagging)​
    • 输入:"我爱自然语言处理"
    • 输出:[代词, 动词, 名词, 名词, 名词]
  • ​问答任务(QA)​
    • 输入:"问题:谁写了《哈利波特》? 上下文:J.K.罗琳是《哈利波特》的作者。"
    • 输出:答案跨度"J.K.罗琳"(定位起始和结束Token的位置)。

3.Feature-based (Elmo) 与 Fine-tuning (GPT)

Feature-based(基于特征的方法,如 ELMo)

  • 核心思想
    使用预训练模型(如 ELMo)提取每个词的上下文表示作为“静态特征”,然后将这些特征作为输入提供给一个单独训练的下游模型(如 BiLSTM+CRF)。

  • 过程如下

    1. 用预训练好的语言模型(如 ELMo)生成文本的上下文嵌入(embeddings)。

    2. 将这些嵌入作为特征输入到任务特定的模型中(如文本分类器、NER模型等)。

    3. 只训练下游模型的参数,ELMo参数保持不变(有时可以微调,但本质上是特征提取)。

Fine-tuning(微调方法,如 GPT/BERT)

代表模型:GPT、BERT、T5、LLAMA 等

  • 核心思想
    将整个预训练模型和下游任务模型作为一个整体进行端到端训练。

  • 过程如下

    1. 将下游任务的数据输入预训练模型(如 GPT/BERT)。

    2. 在其顶层添加一个或多个任务特定的层(如分类器)。

    3. 使用任务数据对整个模型进行微调,包括预训练模型本身。

4.BERT

1.BERT结构

1.输入

BERT的输入由三部分嵌入(Embedding)相加组成:

  1. ​Token Embeddings​​(词嵌入)

    • 使用​​WordPiece分词​​(30,000词表),解决未登录词(OOV)问题。
    • 特殊标记:
      • [CLS]:分类任务的聚合表示(位于序列开头)。
      • [SEP]:分隔句子对(如问答中的问题和答案)。
      • [MASK]:预训练时用于掩码语言模型(MLM)。
  2. ​Segment Embeddings​​(句子嵌入)

    • 区分句子A和句子B(如问答对、句对任务),用E_AE_B表示。
  3. ​Position Embeddings​​(位置嵌入)

    • 使用可学习的位置编码(而非Transformer的固定正弦/余弦函数),支持最长512个Token的序列。

2.BERT通过两个无监督任务预训练:

​(1) 掩码语言模型(Masked Language Model, MLM)​

  • ​方法​​:随机掩盖15%的输入Token,其中:
    • 80%替换为[MASK]
    • 10%替换为随机Token。
    • 10%保持不变(缓解预训练-微调不一致)。
  • ​目标​​:基于上下文预测被掩盖的原始Token。

​(2) 下一句预测(Next Sentence Prediction, NSP)​

  • ​方法​​:给定句子A和B,预测B是否是A的下一句(50%正例,50%随机负例)。
  • ​目标​​:学习句子间关系,提升问答(QA)、自然语言推理(NLI)等任务性能。

2.Bert用途 

语言模型(Language Model, LM) 的目标是:给定前面的词序列,预测下一个词的概率。

Transformer 本身只是一个神经网络架构,包含以下两种主要模块:

  • Encoder:用于建模整段输入(如 BERT)

  • Decoder:用于按序生成词(如 GPT)

Transformer 结构能不能用来做语言模型?
Encoder-only(如 BERT)❌ 不能做自回归语言模型(会信息泄露)
Decoder-only(如 GPT)✅ 可以做语言模型(逐词生成)
Encoder-Decoder(如 T5)✅ 可用于生成任务,也能做语言建模(但更常用于翻译、摘要)
  • BERT 不是用来生成句子的(不像 GPT);

  • 它做的是填空、理解,不会从左到右一步步生成;

  • BERT 的核心用途是做“理解”类任务,是为各种 NLP 下游任务提供语义理解的预训练模型。

应用举例用 BERT 怎么做
1️⃣ 文本分类情感分析、垃圾邮件检测将整段文本喂给 BERT,取 [CLS] 向量接全连接层做分类
2️⃣ 序列标注命名实体识别(NER)、分词每个词有一个表示,接一个分类器预测标签(如人名、地名)
3️⃣ 句子对判断语义相似度、句子关系判断把两个句子拼在一起,让 BERT 判断是否相关
4️⃣ 问答系统(QA)给你一段文章,问“谁是美国总统”BERT 提取答案的起止位置
5️⃣ 多轮对话理解对话状态跟踪、意图识别同样是对语言的“理解”

http://www.hkcw.cn/article/xWrbJorcDK.shtml

相关文章

在Mathematica中使用WhenEvent求解微分方程

WhenEvent[event,action]指定当事件event触发时,方程在 NDSolve 及相关函数中执行的操作action。 模拟一个每次弹起后保持95%速度的弹跳球 NDSolve[{y[t] -9.81, y[0] 5, y[0] 0, WhenEvent[y[t] 0, y[t] -> -0.95 y[t]]}, y, {t, 0, 10}]; Plot[y[t] /. %…

Nature:多模态大模型LLMs如何驱动多组学与生命科学研究新范式?

高通量组学技术的快速进步引发了生物数据的爆炸式增长,远超当前对分子层面规律的解析能力。在自然语言处理领域,大语言模型(LLMs)通过整合海量数据构建统一模型,已显现突破数据困境的潜力。 Nature的这篇文章中&#x…

ubuntu20.04安装教程(图文详解)

Ubuntu 24.04 LTS,代号 Noble Numbat,于 2024 年 4 月 25 日发布,现在可以从 Ubuntu 官方网站及其镜像下载。此版本将在 2029 年 4 月之前接收为期五年的官方安全和维护更新。 关于 Ubuntu 24.04 LTS 的一些关键点: 发布日期&am…

Linux中Shell脚本的常用命令

一、设置主机名称 1、通过修改系统文件来修改主机名称 [rootsakura1 桌面]# vim /etc/hostname sakura /etc/hostname:Linux 系统中存储主机名的配置文件。修改完文件后,在当前的shell中是不生效的,需要关闭当前shell后重新开启才能看到效…

Redisson学习专栏(二):核心功能深入学习(分布式锁,分布式集合,原子操作与计数器,事件与监听)

本文是“Redisson学习专栏”第二篇,聚焦其核心分布式功能实现原理与最佳实践 文章目录 前言:分布式系统核心能力实践一、分布式锁:高并发下的守卫者1.1 可重入锁 (Reentrant Lock)1.2 公平锁 (Fair Lock)1.3 联锁 (MultiLock)1.4 红锁 (RedLo…

学习路之PHP--easyswoole_panel安装使用

学习路之PHP--easyswoole_panel安装使用 一、新建文件夹二、安装三、改配置地址四、访问 IP:Port 自动进入index.html页面 一、新建文件夹 /www/wwwroot/easyswoole_panel 及配置ftp 解压easyswoole_panel源码 https://github.com/easyswoole-panel/easyswoole_panel 二、安…

基于分布式状态机的集装箱智能道口软件架构方法

集装箱码头对进出场道口的通过能力始终是要求最高的,衡量道口的直接指标为道口通行效率,道口通行效率直接体现了集装箱码头的作业效率以及对外服务水平,进而直接影响到码头的综合能力。所以,码头普遍使用智能道口实现24小时无人值…

2014药柜设计问题

1 题目描述 D题 储药柜的设计 储药柜的结构类似于书橱,通常由若干个横向隔板和竖向隔板将储药柜分割成若干个储药槽(如图1所示)。为保证药品分拣的准确率,防止发药错误,一个储药槽内只能摆放同一种药品。药品在储药槽中的排列方式如图2所示。…

c# 获取电脑 分辨率 及 DPI 设置

using System; using System.Collections.Generic; using System.Diagnostics; using System.IO; using System.Runtime.InteropServices;/// <summary> /// 这个可以 /// </summary> class Program {static void Main(){//设置DPI感知try{SetProcessDpiAwareness(…

2025年渗透测试面试题总结-匿名[校招]红队攻防工程师(题目+回答)

安全领域各种资源&#xff0c;学习文档&#xff0c;以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具&#xff0c;欢迎关注。 目录 匿名[校招]红队攻防工程师 1. 00截断的原理 2. Java回显通用思路及JDK差异 3. Redis利用姿势及环境差异 …

高级数据结构与算法期末考试速成记录

高级数据结构与算法期末考试速成记录 0.分治中的一些知识点 Master公式&#xff08;又称主定理&#xff0c;Master Theorem&#xff09;是一种用于快速求解分治递归算法时间复杂度 的数学工具&#xff0c;适用于递归式形如以下形式的算法&#xff1a; T ( n ) a T ( n b ) …

Telerik生态整合:Kendo UI for Angular组件在WinForms应用中的深度嵌入(一)

Telerik DevCraft包含一个完整的产品栈来构建您下一个Web、移动和桌面应用程序。它使用HTML和每个.NET平台的UI库&#xff0c;加快开发速度。Telerik DevCraft提供完整的工具箱&#xff0c;用于构建现代和面向未来的业务应用程序&#xff0c;目前提供UI for ASP.NET MVC、Kendo…

深入浅出程序设计竞赛(洛谷基础篇) 第十四章 搜索

文章目录 前言例14-1 四阶数独前置知识&#xff1a; 例14-2八皇后例14-3 kkksc03考前临时抱佛脚例14-4 马的遍历前置知识 例14-5 奇怪的电梯例14-6 Meteor Shower S习题14-1.1 选数例14-1 四阶数独前置知识&#xff1a; 例14-2八皇后例14-3 kkksc03考前临时抱佛脚例14-4 马的遍…

图书管理系统的设计与实现

湖南软件职业技术大学 本科毕业设计(论文) 设计(论文)题目 图书管理系统的设计与实现 学生姓名 学生学号 所在学院 专业班级 毕业设计(论文)真实性承诺及声明 学生对毕业设计(论文)真实性承诺 本人郑重声明:所提交的毕业设计(论文)作品是本人在指导教师的指导下,独…

【Java基础-环境搭建-创建项目】IntelliJ IDEA创建Java项目的详细步骤

在Java开发的世界里&#xff0c;选择一个强大的集成开发环境&#xff08;IDE&#xff09;是迈向高效编程的第一步。而IntelliJ IDEA无疑是Java开发者中最受欢迎的选择之一。它以其强大的功能、智能的代码辅助和简洁的用户界面&#xff0c;帮助无数开发者快速构建和部署Java项目…

医疗IT系统绝缘监测及故障定位,绝缘监测技术在医院关键区域的应用

医院作为重要的公共设施&#xff0c;其供配电系统的可靠性和安全性直接关系到患者的生命安全。为确保医院电力系统的稳定&#xff0c;GB/T 16895.24《建筑物电气装置》对医疗场所按用电的安全等级进行了细致的分类&#xff0c;并针对不同的类别推荐相应的电力系统配置。其中&am…

进程间通信及管道(理论)

目录 进程间通信介绍 进程间通信目的 进程间通信发展 进程间通信分类 管道 什么是管道 匿名管道 实例代码 用fork来共享管道原理 管道读写规则 管道特点 命名管道 创建一个命名管道 匿名管道与命名管道的区别 命名管道的打开规则 进程间通信介绍 进程间通信目的 数据传输&#…

如何安全地清洁 Windows10/11PC上的SSD驱动器

“我在 Windows 10 电脑上安装了新的 SSD&#xff0c;我要删除旧的 SSD 驱动器。但我不知道如何清洁电脑上的 SSD 驱动器。我想清除其中的所有内容。” 那么&#xff0c;您想知道如何在 Windows 10/11 PC 上清洁 SSD 驱动器吗&#xff1f;也许您只是想释放宝贵的空间并提高性能…

换ip是换网络的意思吗?怎么换ip地址

在数字化时代&#xff0c;IP地址作为我们在网络世界的"身份证"&#xff0c;其重要性不言而喻。许多人常将"换IP"与"换网络"混为一谈&#xff0c;实际上两者虽有联系却存在本质区别。本文将澄清这一概念误区&#xff0c;并详细介绍多种更换IP地址…

智能化能源管理系统在“双碳”背景下的新价值

安科瑞刘鸿鹏 摘要 2022年已并网的储能项目中,用户侧并网占比为8.36%,其中工商业储能规模为占比为98.6%。随着各省市的峰 谷价差拉大,部分省市可实现两充两放,工商业储能会更 加具有经济性,加上限电政策的影响,工商业储能将在 2023-2025年逐渐发展成主要的增长点&#xff…