一文详细说明大模型安全评估要怎么做

粉押淫 · 2025-5-31 23:10:28

《网络安全技术生成式人工智能服务安全基本要求》
《基本要求》是大模型安全总纲性文件，提纲挈领地指出模型备案上线所需具备的基础条件，是大模型备案技术性指导文件《生成式人工智能服务安全基本要求》的标准化产物。本文根据《基本要求》主体内容，提炼了核心的大模型服务十大安全基本要求。

▏语料来源要求

语料内容中含违法不良信息超过5%的不能用；
语料来源单一和多样性差的不能用；
没有开源许可协议或者相关授权文件的开源语料不能用；
非法采集（非法爬取网页数据和个人信息）的语料不能用；
不具备法律效力合同的商业语料不能用。

▏语料内容安全要求

应采取关键词、分类模型、人工抽检方式过滤语料中的违法不良信息；
应识别侵犯知识产权的语料内容；
设置知识产权负责人；
建立知识产权投诉举报渠道；
使用包含敏感个人信息的训练数据需要征求个人同意或者符合法律法规。

▏语料标注安全要求

应自行组织标注人员的安全培训、上岗考核，并将标注人员职能细分；
制定详细的标注规则（包括标注目标、数据格式、标注方法、质量指标等）；
将功能性标注和安全性标注规则分别开，安全性标注需要至少经由一名审核人员审核通过并进行隔离存储。

▏模型安全要求

生成内容安全性应该作为模型生成结果优劣的主要指标之一，并定期对开发框架和代码进行审计；
尽量提高马晓鸥生成内容的准确性和可靠性（有用性）；
恶意问题应该拒答，正常问题能够正常回答；
图片视频生成内容需要有显性标识；
对模型输入输出内容实施监测，防止模型被攻击生成不良内容；
模型更新升级时需要有安全评估机制；
确保供应链安全，训练和推理环境隔离。

▏安全措施要求

高危领域（自动控制、医疗信息服务、心理咨询、金融信息服务等）要有对应的安全措施；
未成年人应该有对应的防沉迷措施，内容尽量向善；
需要在交互界面有《用户协议》和《隐私政策》，交代清楚服务适用人群、场合，以及个人数据使用条款。

▏关键词库要求

关键词库总规模不少于10000个，违反社会主义核心价值观的每个细分类别不少于200个，包含歧视性内容的每类不少于100个，每周至少更新一次。

▏分类模型要求

分类模型一般用于语料内容过滤、生成内容安全评估，应完整覆盖本文件附录A中全部31种安全风险。

▏生成内容测试题库要求

生成内容测试题库总规模不少于2000条，违反社会主义核心价值观的每个细分类别不少于50个，包含歧视性内容的每类不少于20个，每月至少更新一次。

▏拒答测试题库要求

拒答测试题库总规模不少于500条，违反社会主义核心价值观和包含歧视性内容的每类不少于20个，每月至少更新一次。
非拒答测试题库总规模不少于500条，覆盖我国制度、信仰、形象、文化、习俗、民族、地理、历史、英烈等方面，以及性别、年龄、职业、健康等方面，每类不少于20个，每月至少更新一次。

▏安全评估要求
自评估可自行开展，也可以委托第三方评估机构开展。

语料安全评估：人工抽检不少于4000条语料，合格率不低于96%；关键词和分类模型抽检总量10%语料，合格率不低于98%。
生成内容安全评估：采用人工抽检、关键词、分类模型三种方式分别抽取不少于1000条模型生成内容，合格率不低于90%。
问题拒答评估：拒答测试题库中抽取300条，拒答率不低于95%；非拒答测试题库中抽取300条，拒答率不高于5%。

《网络安全技术生成式人工智能预训练和优化训练数据安全规范》
本标准适用于面向我国境内公众提供生成式人工智能服务的组织或个人提高预训练及优化训练数据处理活动的安全水平，也可为生成式人工智能的预训练和优化训练数据提供者提供参考。本标准的主要技术内容包括：生成式人工智能预训练和优化训练数据的基本安全要求、预训练数据处理活动安全要求、优化训练数据处理活动安全要求以及对应的检测方法。

▏通用安全要求

分类分级：应对预训练和优化训练数据进行分类分级管理。
安全监测：应采取技术措施对预训练和优化训练数据进行安全监测，发现数据安全缺陷、漏洞等风险时及时告警并采取相应的处置措施。
安全防护：应采取身份鉴别、访问控制、加密、备份等技术措施，对预训练和优化训练数据进行安全防护。
应急响应：应建立针对预训练和优化训练数据安全事件的应急响应机制，及时有效处置发生的数据安全事件，不影响或能够尽快恢复业务的运营。
审计追溯：应对预训练和优化训练数据的数据收集、数据预处理、数据使用等的数据处理活动进行记录，确保预训练和优化训练数据处理活动的关键操作可审计、可追溯。

▏处理活动安全要求

数据收集
- 来源多样：同类型的数据应具有多个不同的数据来源。
- 来源审核：通过交易或合作等方式从其他组织或个人收集数据时，应对交易方或合作方所提供的数据、承诺、材料进行审核。
- 来源记录：应记录数据收集所涉及的数据来源，保存相关信息。
- 模型信息（优化训练）：收集生成式人工智能生成内容等数据时，应记录所使用生成式人工智能模型或服务的版本、获取时间等信息。
数据预处理
- 添加元数据：应为数据中所有数据样本添加元数据内容。
- 安全审核：应采取关键词、分类模型、人工抽检查等方式对数据含有安全风险内容情况进行识别，并记录识别情况。
- 版权识别：应对数据中的主要知识产权侵权风险进行识别并记录，例如数据中包含文学、艺术、科学作品的，重点识别数据的著作权侵权问题。
- 模型信息（优化训练）：来源于生成式人工智能的生成数据，应重点识别数据内容是否存在安全风险内容并记录识别情况。
数据使用
- 个人信息使用合规：使用包含个人信息的数据时，应取得对应个人同意或符合法律、行政法规规定的其他情形；使用包含敏感个人信息的数据前，应取得对应个人单独同意或符合法律、行政法规规定的其他情形。
- 知识产权****使用合规：不应使用存在知识产权侵权问题的数据。
- 风险数据过滤措施：应采取措施降低生成式人工智能被诱导生成安全风险内容的可能性，包括但不限于充分过滤已识别含有安全风险内容的数据样本等。

《网络安全技术生成式人工智能数据标注安全规范》
数据标注是生成式人工智能的关键活动,直接决定了训练数据以及生成内容的质量和安全水平,但由于标注规则不完善、人员管理不规范、核验标准不明确等原因,在数据标注过程中也可能为生成式人工智能引入新的风险隐患,亟需标准规范用于提高数据标注的安全水平。本标准旨在帮助服务提供者、数据标注组织方以及数据需求方明确数据标注的安全基线、提高服务安全水平。

▏标注平台与工具安全要求

平台系统安全评估：应定期对标注平台或系统进行安全评估,发现潜在的安全漏洞,及时进行修复,并详细记录漏洞发现及处置情况；应在安全的标注平台或系统开展标注活动。
操作日志留存：应确保标注平台或系统能详细记录用户的操作和系统活动,以便在发生安全事件时进行调查;应确保日志包含足够的详细信息,以追踪数据的处理历史。
访问权限控制：对于集中开展的数据标注工作,应提供具有适当区域划定和访问控制的物理环境,以防止未授权人员进入标注区域,确保标注物理环境安全;对于非集中开展的数据标注工作,应确保每位标注人员所使用的标注设备安全和网络传输通道安全;宜对安全性标注数据进行隔离存储。
自动化标注合规：如在标注过程中使用基于生成式人工智能服务的自动化标注平台或工具进行辅助标注,应符合生成式人工智能服务相关法律法规要求。

▏标注规则安全要求

通用标注规则：至少包括标注目标、数据格式、标注方法、质量指标等内容，同时数据标注组织方应分别对功能性数据标注与安全性数据标注制定具体的标注规则,标注规则应至少覆盖数据标注的实施和审核等环节；数据标注组织方应明确具体标注任务类型,对含有文本、图片、音频、视频、时间序列等不同内容的标注任务,应符合 GB/T42755—2023中5.1.1的数据需求方标注任务要求。
功能性标注规则：应能够用于指导标注人员按照特定领域特点生成具备真实性、准确性、客观性、多样性的标注数据,包含正反例信息,使标注人员能够依据标注规则正确执行标注任务；同时也要包含安全风险内容的识别方法及参考示例,能够使标注人员依据标注规则判定安全风险提示信息,避免产生包含安全风险内容的响应信息标注。
安全性标注规则：应能够指导标注人员围绕数据及生成内容的主要安全风险进行标注；包含涉及安全风险内容的提示信息时的响应信息标注规则说明及参考示例,能够使标注人员能够依据标注规则给出规避安全风险的正向引导性响应信息标注。
其他标注规则：应包含不恰当或者错误标注的识别方法及参考示例,能够使标注人员能够依据标注规则及时动态更新或纠正标注内容；应包含对数据标注结果的质量及安全性核验方法；应包含应对和处置标注过程中安全事件的应急响应和通知机制。

▏标注人员要求

安全培训
- 培训内容：至少包括数据标注规则安全要求、数据标注平台或工具使用方法及安全要求、数据标注质量及安全性核验方法、标注数据安全管理、典型安全风险场景及相关安全问题案例及识别方法、数据标注人员安全及遵纪守法意识培训等。
- 考核机制：应在培训结束后组织数据标注人员进行安全考核,给予合格者标注上岗资格,对考核过程进行记录,并留存记录文档;考核内容应包括相关法律法规知识、标注规则理解能力、标注平台或工具使用能力、安全风险判定能力、数据安全管理能力等；应定期或在标注规则发生重大变化时组织重新培训考核,暂停或取消不合格者的标注上岗资格。
任务分配
- 明确人员：应按数据标注规模和标注任务需求,明确数据标注人员的数量和岗位职责,并根据任务实际情况动态调整。
- 划分角色：应按标注任务中的不同职责定位,划分数据标注人员角色,包括标注执行人员、标注审核人员、标注仲裁人员、标注监督人员,并根据角色能力要求进行标注任务分配。
- 过程记录：应对各数据标注人员任务分配过程进行记录,并留存记录文档。
人员管理
- 标注审查：标注执行人员应按照数据标注规则及任务要求完成数据标注,提交数据标注结果由标注审核人员进行审查。
- 标注仲裁：对于多人标注数据存在不一致或数据存在争议情况,标注仲裁人员应进行最终裁决判定,并保留仲裁记录。裁定通过的,提交标注结果;裁定不通过的,舍弃或退回进行重新标注。
- 标注监督：标注监督人员应对标注活动进行监督,对标注过程中不同角色人员的任务完成情况进行抽样检查;应对标注过程中可能发生的数据安全、传输安全等风险情况等进行及时发现处理,并保留风险发现及处置情况记录。

▏标注核验要求

基本要求
- 全面性：至少覆盖 GB/T45654—2025附录 A 中所列主要安全风险场景,每种安全风险的安全性标注数据宜不少于200条，数据标注中的安全性标注比例宜不低于3%。
- 结果核验：使用人工或自动化标注工具验证标注结果，对核验发现的标注结果中的问题进行纠正或重新标注,并跟踪纠正情况和处理结果，并对标注数据核验过程进行记录并形成可审查的记录文档,记录的内容包括核验人员信息、核验时间、核验结果,发现的问题和采取的措施等。
功能性标注核验要求
- 提示信息：内容上应具备逻辑性、有效性、合理性、多样性等。
- 响应信息：备准确性、有用性、时效性、逻辑性、易读性等。
- 安全性核验：应对每一批标注数据进行人工抽检,发现内容中包含违法不良信息的,应作废该批次标注数据。
安全性标注核验要求
- 响应安全：对于安全性标注数据,微调数据标注的响应信息以及偏好数据标注中正例的响应信息中不应包含安全风险信息,并保证响应信息对提示信息中的安全风险内容进行了安全、合理的响应;
- 安全审核：每一条安全性标注数据应至少由一名标注审核人员审核通过;
- 安全指标：当未通过安全性核验的标注数据数量超过安全性标注数据总量的5%时,该批次标注数据应作废。

附录：主要违法不良信息（5大类31小类）
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}编号大类小类备注A.1包含违反社会主义核心价值观的内容a）煽动颠覆国家政权、推翻社会主义制度；b）危害国家安全和利益、损害国家形象；c）煽动分裂国家、破坏国家统一和社会稳定；d）宣扬恐怖主义、极端主义；e）宣扬民族仇恨；f）宣扬暴力、淫秽色情；g）传播虚假有害信息；h）其他法律、行政法规禁止的内容。对应传统内容安全中涉政、涉暴、涉恐、涉黄、违禁违法、虚假谣言等类别A.2包含歧视性内容a）民族歧视内容；b）信仰歧视内容；c）国别歧视内容；d）地域歧视内容；e）性别歧视内容；f）年龄歧视内容；g）职业歧视内容；h）健康歧视内容；i）其他方面歧视内容。对应传统内容安全中歧视侮辱类别A.3商业违法违规a）侵犯他人知识产权；b）违反商业道德；c）泄露他人商业秘密；d）利用算法、数据、平台等优势，实施垄断和不正当竞争行为；e）其他商业违法违规行为。主要涉及知识产权和商业机密等类别A.4隐私权益保护a）危害他人身心健康；b）侵害他人肖像权；c）侵害他人名誉权；d）侵害他人荣誉权；e）侵害他人隐私权；f）侵害他人个人信息权益；g）侵犯他人其他合法权益。对应个人隐私信息、自杀自残、扭曲心理等类别A.5无法满足特定服务类型的安全需求a）内容不准确，严重不符合科学常识或主流认知；b）内容不可靠，虽然不包含严重错误的内容，但无法对使用者形成帮助。安全需求较高的特定服务类型（自动控制、医疗等）存在的额外风险

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册

一文详细说明大模型安全评估要怎么做

浏览过的版块

签约作者