转载学习:火山引擎大模型应用防火墙
产品介绍
大模型应用防火墙提供针对大语言模型推理服务的安全防护服务,确保模型输入和输出内容安全、可用和可信。产品嵌入 AI 大模型服务业务流程中,实时监控模型的输入和输出内容,保护模型业务不受 OWASP LLM Top10 攻击,提供包括算力消耗防护、提示词攻击检测、模型滥用行为分析和敏感数据风险识别等防护功能。
- 基建层:为产品提供底层能力和数据支持,包括实现检测和推理能力的底层引擎和动态配置能力,为大模型提供样本的样本数据库、记录产品输入输出的日志表。
- 能力层:提供提示词检查和生成能力、敏感信息判断能力、风险推理能力、威胁行为预测能力、端安全扫描能力和攻击意图识别等能力。
- 应用层:提供产品所需的实际应用功能,包括提供的安全功能和用量计费。
- 接入层:实现用户接口及 Web 交互页面,提供鉴权、API、测试页面等能力。
基本概念
提示词攻击
提示词攻击是一种主要针对大语言模型的网络攻击。攻击者将恶意输入伪装成合法提示词,诱导或控制大模型输出不符合预期甚至有害的内容。例如通过提示词注入控制系统或者非法查询敏感信息。
模型滥用
模型滥用是指将大语言模型用于不符合其设计初衷、违反法律法规或伦理道德的用途。例如让模型输出误导性内容或是偏离角色定位的回复。
算力消耗攻击
算力消耗攻击是一种针对大语言模型的恶意攻击手段,攻击者通过构造特殊的输入或利用模型的漏洞,使模型的算力资源被大量占用,从而导致模型服务瘫痪或性能大幅下降。
防护能力
算力资源防护
算力消耗是指通过向大模型发送特殊提示词,让大模型算力急剧消耗,导致服务受限甚至瘫痪的攻击行为。大模型安全防火墙可识别高 GPU 资源消耗的提示词,并及时记录或拦截相关请求,保障业务稳定。
提示词攻击防护
大模型应用防火墙可自动检测和识别恶意提示词中的潜在风险,防止业务遭受提示词注入攻击、越权攻击等。通过实时监控和拦截机制,确保模型输出符合安全标准。
模型滥用防护
通过持续分析模型的输入输出数据,大模型应用防火墙能够及时发现角色配置异常、内容立场偏离等潜在风险。这种主动监控机制有助于维护模型的正常运行状态,避免模型滥用。
敏感信息防护
大模型应用防火墙采用先进的文本风险检测技术和隐私信息识别算法,帮助企业有效识别和过滤模型输出中的敏感信息,避免泄露个人信息、业务数据等敏感内容,确保数据安全与合规。
功能特性
大模型应用防火墙主要提供算力消耗防护、提示词识别、优化内容生成和鉴权与用量配置等功能。
算力消耗防护
算力消耗是指服务器进行计算任务时所使用的计算资源的总量和程度。攻击者可通过向大模型发送特殊样本(提示词),让大模型的计算资源消耗急剧上升。这会导致原本几秒钟之内能做出响应的需求,在遭受攻击后需要大量时间计算,甚至造成服务瘫痪。大模型应用防火墙可识别这些消耗大量资源的提示词,并根据策略配置执行处置动作,确保业务稳定。
- 算力消耗量预测:大模型应用防火墙可预测指定路径下提示词输入的大模型算力消耗情况,支持以高、中、低三个档位配置对应防护策略。
- 记录或拦截请求:根据算力消耗量阈值设置处置动作,观察或拦截对应请求。可有效防止大模型遭受恶意算力消耗攻击。
输入检测
攻击者通过巧妙构造输入提示词,尝试突破大语言模型的安全防护机制,引导模型输出不符合预期甚至有害的内容。这种攻击利用了大语言模型对输入的敏感性和其在处理复杂提示词时可能出现的漏洞。大模型应用防火墙可以识别模型的输入和输出内容,根据安全需求设置不同的安全检测类型,对内容进行分类识别。并且可以提供安全判断、脆弱性类型标签,供调用方根据需要进行对应处置,有效防护提示词注入攻击和模型滥用。
- 安全性判断:基于分类模型、提示词攻击识别模型、敏感信息判断模型、敏感词表、评价控制策略能力,识别敏感内容、提示词攻击、恶意消耗资源的内容。
- 违规类型标签:提供敏感信息泄露诱导内容、提示词攻击、恶意消耗资源三类违规标签,在 API 响应参数中返回,调用方可根据标签做个性化处置。
- 自定义规则:支持接入方自定义识别规则、配置关键词黑白名单,便于匹配符合需求的检测场景。
输出过滤
大模型在处理用户请求时可能会涉及个人身份信息、电话号码、地址等敏感数据,存在未经授权的数据访问、隐私泄露等安全风险。为此,大模型应用防火墙提供完善的数据安全保护机制:
- 敏感数据检测:系统内置丰富的敏感信息识别规则,可根据预设的敏感信息标签,实时检测输入输出内容中的隐私数据。通过灵活的策略配置,有效防范数据泄露和滥用风险。
- 记录或拦截请求:根据设置的处置动作,记录或拦截可疑请求,及时阻断潜在的数据泄露风险,全面保护个人隐私和业务数据。
内容生成
大模型应用防火墙会将提示词识别模块判断为不安全的内容,转发到内容生成大模型,优化不合规的内容输入,再输出返回给用户。内容生成大模型具备严格的生成内容限制,生成的内容可替代原有大模型生成内容,在确保安全合规的前提下,保障用户的内容生成体验。
- 合规内容生成:根据输入内容生成回复,回复内容符合国家互联网信息办公室发布的《生成式人工智能服务暂行管理办法》中 5 大类 31 个小类规定。
- 流式返回:可选生成内容的流式返回,以 chunk 的方式分段返回答案,能够有效缩短首次返回的时间,提高体验感受。
- Token 统计:支持在响应参数中返回当次请求的 token 数量,便于调用方统计用量情况。
鉴权与用量配置
提供 token 鉴权能力,支持配置请求 QPS 和 token 用量上限,可根据接入方实际需求配置。
- Token 鉴权:提供可配置生效时间范围的 token,token 有效期内可调用服务。
- 用量配置:支持配置请求量、QPS 上限、token 用量的限额,防止服务被恶意使用而导致接入方损失。
应用场景
业务合规保障
- 内容合规管控:大模型应用防火墙严格遵循国家互联网信息办公室发布的相关管理办法,对输入输出内容进行严格管控。通过内置的合规内容生成模块,对提示词识别模块判断为不安全的内容进行优化处理,确保生成的回复内容符合法律法规和企业政策要求,有效避免生成虚假信息、不当言论等违规内容。
- 提示词注入防御:大模型应用防火墙采用先进的意图识别、防提示词注入、动态对抗与价值观校准等多重防护机制,能够有效防范提示词注入攻击。通过深度上下文引擎,结合强大的分类模型和提示词攻击识别模型,能够精准识别并拦截恶意输入,显著降低敏感数据泄露风险。同时,基于海量对抗样本训练,覆盖多种提示词攻击场景,检出率极高。
业务稳定性保障
- 算力安全防护:大模型应用防火墙具备强大的算力消耗防护能力,能够有效抵御恶意攻击导致的算力资源急剧消耗。通过算力消耗量预测功能,可实时监测并预测提示词输入的大模型算力消耗情况,并根据预设策略进行资源熔断或拦截,减少无效资源调用,降低算力损失,确保业务稳定运行。
- 滥用监控:大模型应用防火墙对推理服务的使用情况进行全面监控,及时识别并处理异常行为,例如让模型产生幻觉的请求,或导致不准确、冒犯性或完全偏离主题的回复。通过违规类型标签功能,为调用方提供详细的违规信息,便于及时处置滥用现象,防止服务被恶意使用。
隐私数据防护
- 敏感信息保护:基于强大的敏感数据检测机制,大模型应用防火墙能够实时识别输入输出内容中的隐私数据,并根据预设策略进行脱敏或拦截处理。这一功能确保了用户在使用大模型服务时,个人身份信息、联系方式等敏感数据不会被泄露或滥用,全面保护用户的隐私安全。
- 数据传输安全:大模型应用防火墙具备完善的数据安全保护机制,确保数据在传输和存储过程中的安全性。通过加密和脱敏技术,对用户对话信息进行处理,防止数据在传输过程中被窃取或篡改。同时,防火墙还支持灵活的策略配置,可根据用户需求调整数据保护类别,进一步降低数据泄露风险。
实现思路
检测分类标签策略
- 模型滥用防护策略:
- 10100:涉敏 1
- 10200:侮辱&歧视
- 10300:色情
- 10400:涉敏2
- 10500:商业违法违规
- 10600:欺诈
- 10700:赌博
- 10800:毒品
- 提示词攻击防护策略:
- 20100:指令劫持
- 20200:角色扮演
- 20300:反向诱导
- 20400:进入开发者模式
- 20500:越狱攻击
- 20600:对抗后缀攻击
- 20700:随机噪声攻击
- 20800:弱语义攻击
- 算力消耗攻击防护策略:
- 敏感数据防护策略:
- 40100:身份证号
- 40200:护照号
- 40300:往来港澳通行证号
- 40400:银行卡号
- 40500:电子邮箱
- 40600:移动电话号码
- 40700:固定电话号码
- 40800:地址
执行动作
- -1:任何策略都未命中
- 0:观察
- 1:拦截
- 8:答案优化
- 9:放行
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |