大模型备案中语料安全详细说明

article/2025/8/13 20:41:03

《AIGC安全要求》针对语料安全,在语料来源授权合法、安全评估核验、不良语料类型三个方面提出了重点要求,具体要求包括:

1、授权合法

语料的来源需要有合法的、明确的授权,确保其符合“授权、同意、告知”的合法性原则。根据语料的来源属性分类,具体的要求梳理如下:

语料来源

含义

合规要求

开源语料

是训练数据的主要来源,指开放的,任何人得以获取的语料

应具有该语料来源的开源许可协议或相关授权文件,建议重点关注:
(a)Robots协议;
(b)协议明确“个人已拒绝授权采集的个人信息”。

自采语料

是指自行生产或直接从互联网采集的语料

应具有采集记录,不应采集他人已明确不可采集的语料

商业语料

是自采语料的对应概念,指通过与第三方语料提供方进行交易获得的语料

应有具备法律效力的交易合同、合作协议等,且当交易方或合作方不能提供语料来源、质量、安全等方面的承诺以及相关证明材料时,不应使用该语料,这就要求相关方对交易方或合作方所提供的语料、承诺、材料进行审核

使用者输入语料

是指将使用者输入的信息作为语料

应具有使用者授权记录

2、安全评估与核验

对于采集的语料,需要严格控制违法不良信息的比率。语料采集前,需要进行针对违法不良信息进行安全评估,采集后输入语料库之后需要进行再次核验。

具体而言,如采集前评估得出违法不良信息超过5%,则该来源不得被采集;如若采集后核验违法不良信息超过5%,则该来源不得被使用。虽然两步走的设置看似天衣无缝,但从部分企业的尽调结果来看,相应管控和筛查的工作目前仍未到位。语料安全作为生产资料的重要组成部分,评估不当很可能导致紧随其后的产品研发环节就出现问题。

除此以外,还需要遵循在内容过滤、知识产权、个人信息、标注安全等方面的合规要求:

语料来源合规要求

因此,企业需要在首次安全评估之后保持对语料来源的持续敏感度。并在之后的操作处理中进行持续性的内容过滤,采取关键词、分类模型、人工抽检等方式过滤违法不良信息。

对于涉及知识产权和个人信息的语料,还应当设置专门的负责人和管理策略,在使用之前注意该语料是否存在侵犯他人权利的情况,并与相关方提前协商,告知有关风险或取得其授权同意,并取得正式性的记录文件;要求语料提供方提供语料来源、质量安全等承诺以及相关证明材料并进行审核。

3、不良语料类型

对于具体需要规避的语料类型,《AIGC安全要求》附录A列举了涉及语料及生成内容安全的类型,共分为5类31种,制定了特别的安全需求:

不良语料类型

需要特别关注的是,本次不良语料类型特别提出了针对“特定服务类型”的安全需求。

例如,针对医疗建议类的算法和问答建议,当前不少医疗健康产品和服务当中,开发了智能健康管家等功能,涉及根据用户的健康分析报告,提出对应的诊疗分析、用药建议等,对于这一类功能,需要特别谨慎对待其是否可能出现非专业性、误导性的用药和诊断结论,否则可能导致“无病呻吟”或“病急乱投医”的情况。

例如,针对金融投资建议类的算法和分析建议,需要遵循银行、保险、金融等方面对于投资者、投保人的合法权益保护,避免违反相关的监管规定,为了业务竞争而向投资者、投保人等通过AI作出涉及不正当竞争、违反金融风险管控的分析或违规引导。


http://www.hkcw.cn/article/vkGHZXMljd.shtml

相关文章

汽车安全:功能安全FuSa、预期功能安全SOTIF与网络安全Cybersecurity 解析

汽车安全的三重防线:深入解析FuSa、SOTIF与网络安全技术 现代汽车已成为装有数千个传感器的移动计算机,安全挑战比传统车辆复杂百倍。 随着汽车智能化、网联化飞速发展,汽车电子电气架构已从简单的分布式控制系统演变为复杂的移动计算平台。现…

【云安全】以Aliyun为例聊云厂商服务常见利用手段

目录 OSS-bucket_policy_readable OSS-object_public_access OSS-bucket_object_traversal OSS-Special Bucket Policy OSS-unrestricted_file_upload OSS-object_acl_writable ECS-SSRF 云攻防场景下对云厂商服务的利用大同小异,下面以阿里云为例 其他如腾…

[MongoDB] 认识MongoDB以及在Windows和Linux上安装MongoDB

初次学习,如有错误还请指正 目录 MongoDB简介 体系结构 数据模型 MongoDB的特点 Windows中的安装 Linux系统中的安装启动和连接 MongoDB简介 MongoDB是一个开源、高性能、无模式的文档型数据库,当初的设计就是用于简化开发和方便扩展,…

iOS —— UI 初探

简介 第一次新建时,你可能会好奇。为什么有这么多文件,他们都有什么用? App 启动与生命周期管理相关 文件名 类型 作用 main.m m 程序入口,main() 函数定义在这里 AppDelegate.h/.m h/m App 启动/进入后台/退出等全局事…

【设计模式-3.4】结构型——代理模式

说明:说明:本文介绍结构型设计模式之一的代理模式 定义 代理模式(Proxy Pattern)指为其他对象提供一种代理,以控制对这个对象的访问,属于结构型设计模式。(引自《设计模式就该这样学》P158&am…

C++: STL简介与string类核心技术解析及其模拟实现

目录: 一.STL二.string类一、创建对象的6种构造方式二、常用接口解析1. 容量操作2. 元素访问3. 修改操作4. 字符串操作 三.string模拟实现一、设计基础:类结构与资源管理二、拷贝控制:深拷贝的三种实现1. 传统深拷贝2. 现代写法(推荐&#xf…

【复杂网络分析】什么是modularity?

在复杂网络研究中,modularity(模块化程度或模块度) 是衡量网络社区结构(即节点分组为紧密连接的社区,而社区间连接稀疏)的重要指标。它由Mark Newman和Michelle Girvan于2004年提出,广泛用于评估…

模型训练相关的问题

与模型训练相关问题 损失函数Cross entropy loss的含义训练数据有脏数据,怎么处理?loss一直不收敛,怎么排查?连续值的特征怎么处理后输入到机器学习模型当中损失函数Cross entropy loss的含义 在深度学习中,可以看作通过概率分布q ( x )(预测概率)表示概率分布p ( x ) …

【项目记录】登录认证(下)

1 过滤器 Filter 刚才通过浏览器的开发者工具,可以看到在后续的请求当中,都会在请求头中携带JWT令牌到服务端,而服务端需要统一拦截所有的请求,从而判断是否携带的有合法的JWT令牌。 那怎么样来统一拦截到所有的请求校验令牌的有…

Portainer安装指南:多节点监控的docker管理面板-家庭云计算专家

背景 Portainer 是一个轻量级且功能强大的容器管理面板,专为 Docker 和 Kubernetes 环境设计。它通过直观的 Web 界面简化了容器的部署、管理和监控,即使是非技术用户也能轻松上手。Portainer 支持多节点管理,允许用户从一个中央控制台管理多…

基于微信小程序的垃圾分类系统

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,没有什么华丽的语言&#xff0…

【前端面经】百度一面

写在前面&#xff1a;面经只是记录博主遇到的题目。每题的答案在编写文档的时候已经有问过deepseek&#xff0c;它只是一种比较普世的答案&#xff0c;要学得深入还是靠自己 Q&#xff1a; <html><style>.a {background-color: red;width: 200px;height: 100px;}…

智能体觉醒:AI开始自己“动手”了-自主进化开启任务革命时代

1. 智能体&#xff1a;AI从“工具”到“伙伴”的关键跃迁 1.1 什么是智能体&#xff1f; 智能体&#xff08;Agent&#xff09;是AI的“进化版”——它不再局限于生成文字或图像&#xff0c;而是能像人类一样“规划任务”“调用工具”甚至“协同合作”。例如&#xff0c;一个…

STM32软件spi和硬件spi

核心观点 本文主要介绍了SPI通信的两种实现方式&#xff1a;软件SPI和硬件SPI。详细阐述了SPI通信协议的基本概念、硬件电路连接方式、移位示意图、时序基本单元以及四种工作模式。同时&#xff0c;对W25Q64模块进行了详细介绍&#xff0c;包括其硬件电路、框图以及操作注意事…

MongoDB数据库命令

目录 一、数据库操作 二、集合&#xff08;表&#xff09;操作 三、文档&#xff08;记录&#xff09;CRUD 操作 1、插入文档 2、查询文档 3、更新文档 4、删除文档 四、聚合操作 1、单目的聚合操作 2、聚合管道 3、MapReduce编程 五、索引管理操作 六、用户权限管…

当前最新IDEA社区版安装当前最新的tomcat插件:集成SmartTomcat,提升开发效率

当前最新IDEA社区版安装当前最新的tomcat插件&#xff1a;集成SmartTomcat&#xff0c;提升开发效率 【下载地址】当前最新IDEA社区版安装当前最新的tomcat插件 该项目为开发者提供了详细的指南&#xff0c;帮助在IntelliJ IDEA社区版中安装SmartTomcat插件&#xff0c;以便更高…

Docker 实战——部署 Nginx 镜像容器、Tomcat 镜像容器、MySQL 镜像容器

#设置基础镜像 FROM dadoha/centos7.4.1708 #维护该镜像的用户信息 MAINTAINER zhangsan #安装相关依赖包 RUN yum clean all ; yum -y install proc-devel net-tools gcc zlib zlib-devel make openssl-devel wget #下载并解压nginx软件包 RUN wget http://nginx.org/d…

Nginx和Tomcat实现负载均衡群集部署应用

&#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f427;Linux基础知识(初学)&#xff1a;点击&#xff01; &#x1f427;Linux高级管理专栏&#xff1a;点击&#xff01; &#x1f510;Linux中firewalld防火墙&#xff1a;点击&#xff01; ⏰️创作时间&…

Linux中使用Docker容器构建Tomcat容器完整教程

&#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f427;Linux基础知识(初学)&#xff1a;点击&#xff01; &#x1f427;Linux高级管理防护和群集专栏&#xff1a;点击&#xff01; &#x1f510;Linux中firewalld防火墙&#xff1a;点击&#xff01; ⏰️创作…

一文读懂Nginx应用之 Keepalived+Nginx+Tomcat实现高可用负载均衡集群

目录 一、概述 二、环境规划 三、Nginx服务、Tomcat服务安装部署 (一)、Nginx服务安装部署 (二)、Tomcat服务安装部署 1、Tomcat01应用服务器部署应用程序 (1)、tomcat_8081服务 (2)、tomcat_8082服务 2、Tomcat02应用服务器部署应用程序 (1)、tomcat_8081服务 (2)、…