
每次写文章之初,还是希望再次强调下,谨慎甄别行业里面那些说自己可以帮别的公司做大模型备案的,很多办证的代办公司基本没有那个实力可以帮别人做大模型备案,很多办证的代办公司最后接了客户订单还是会找到我们,这类人群只会两边套路,一方面问客户多要价,另一方面打压给我们的订单价,没有实力,只赚差价,实际连成功案例都拿不出,行业搅屎棍,各位要做备案的企业,务必擦亮双眼!
文章目录
(一)大模型备案的适用主体
(二)大模型训练语料安全
(三)大模型安全
(四)安全措施要求
(五)拦截词/安全词库要求
(六)大模型内容安全评估要求
(七)附录大模型备案材料源文件
(八)广东省公布的获得大模型备案补贴名单
我国于2024年3月1日正式发布首部生成式人工智能安全技术标准《生成式人工智能服务安全基本要求》,作为支撑《生成式人工智能服务管理暂行办法》的核心技术规范,该标准首次系统性明确语料安全、模型安全、安全措施、风险词库建设及安全评估等全流程技术要求。
全国网络安全标准化技术委员会(TC260)于2024年3月4日发布了《生成式人工智能服务安全基本要求》(编号TC260-003)。该文件是我国首部针对生成式人工智能服务安全的技术标准,系统性地规定了语料安全、模型安全、安全措施及安全评估等全流程要求,旨在支撑《生成式人工智能服务管理暂行办法》的实施。文件明确要求服务提供者在备案时需进行安全评估并提交报告,同时强调需防范AI技术长期风险,如恶意软件编写、生物武器制造等潜在安全威胁。
(一)大模型备案的适用主体
大模型备案的适用主体
根据《生成式人工智能服务管理暂行办法》第十七条,大模型备案主要适用于具有舆论属性或社会动员能力的生成式人工智能服务提供者,具体分为两类主体:
-
平台运营方:负责大模型的商业性开发及服务落地,需取得相应资质证照,面向终端消费者提供应用服务(如智能客服、内容生成工具等),需承担服务安全、用户权益保护等责任。
-
技术支持方:专注于技术开发与优化,掌握核心算法及训练框架,通常以API形式为企业提供底层模型能力(如多模态生成、算法调优),需确保模型训练数据的合法性与生成内容的安全性。
大模型登记备案的适用主体
大模型登记备案主要面向无需严格安全审查但需履行基础信息报备义务的主体,例如:
• 纯调用第三方API接口的企业,如通过已备案大模型开发轻量级应用(如营销文案生成工具);
• 非公开服务场景,如仅供内部使用或服务少数B端客户的模型(如企业内部知识库问答系统)。其要求相对简化,通常仅需提交模型基本信息、数据来源说明及隐私协议等基础材料。
区别:备案强调对高影响力模型的监管,登记则侧重信息记录与合规门槛的降低。
(二)大模型训练语料安全
大模型备案的语料安全要求主要包括以下方面:
-
来源合法性:语料需具备合法授权,包括开源语料的开源许可协议、商业语料的交易合同、自采语料的采集记录等,禁止使用黑名单来源或明确不可采集的数据(如受Robots协议限制的语料);
-
内容合规性:通过关键词过滤、分类模型和人工抽检等方式,确保语料中违法不良信息比例不超过5%,需覆盖政治有害、违法信息、隐私泄露等31类安全风险;
-
多样性要求:需结合多语言、多地域来源(如合理搭配境内外中文语料),避免单一来源占比过高以提升内容客观性;
-
持续监测与审核:建立标注规则和审核机制,对标注人员定期培训考核,确保标注内容准确性,并对语料进行动态过滤更新。
此外,涉及个人信息的语料需获得主体授权,敏感信息需单独授权,生物特征数据须书面同意。
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}
语料来源 | 含义 | 合规要求 |
开源语料 | 是训练数据的主要来源,指开放的,任何人得以获取的语料 |
应具有该语料来源的开源许可协议或相关授权文件,建议重点关注:
(a)Robots协议; (b)协议明确“个人已拒绝授权采集的个人信息”。 |
自采语料 | 是指自行生产或直接从互联网采集的语料 | 应具有采集记录,不应采集他人已明确不可采集的语料 |
商业语料 | 是自采语料的对应概念,指通过与第三方语料提供方进行交易获得的语料 | 应有具备法律效力的交易合同、合作协议等,且当交易方或合作方不能提供语料来源、质量、安全等方面的承诺以及相关证明材料时,不应使用该语料,这就要求相关方对交易方或合作方所提供的语料、承诺、材料进行审核 |
使用者输入语料 | 是指将使用者输入的信息作为语料 | 应具有使用者授权记录 |
安全评估与核验
大模型备案的语料安全评估与核验需严格遵循双重核验机制:
-
采集前评估:若语料来源的违法不良信息占比超过5%,则禁止采集;
-
采集后核验:入库后若违法不良信息占比超过5%,则整批语料不得使用。
企业需同步落实以下合规要求:
• 内容过滤:通过关键词库(覆盖17类风险)与分类模型动态筛查违法信息;
• 知识产权:建立侵权风险识别机制,禁用未授权商业语料;
• 个人信息:含个人数据的语料需主体单独授权,生物特征数据须书面同意;
• 标注安全:标注人员需定期考核,标注语料需人工复审(安全类标注至少双重审核)。
当前部分企业因筛查技术不足或抽检覆盖率低(如人工抽检量未达4000条标准),导致评估失效风险较高。
*图示:语料来源合规要求
不良语料类型
根据《生成式人工智能服务安全基本要求》(TC260-003),安全语料的5大类31小类风险覆盖范围是保障生成式AI服务合规性的核心要求,具体包括:
-
违法信息:涵盖政治敏感(如煽动颠覆国家政权、危害国家安全)、暴力恐怖(如恐怖活动策划、极端主义传播)、网络犯罪(如诈骗方法、违禁品交易)等;
-
不良信息:包括违背社会主义核心价值观内容(如历史虚无主义、民族歧视)、社会公序良俗破坏(如宣扬封建迷信、婚外情美化)以及低俗色情内容(如性暗示、未成年人不良诱导);
-
侵犯他人合法权益:涉及隐私泄露(如公开个人生物特征、通信记录)、知识产权侵权(如盗用文学艺术作品、商标仿冒)以及商业利益侵害(如窃取商业秘密、虚假营销);
-
特定服务场景风险:针对医疗、金融等垂直领域,需防范非专业建议(如未经认证的诊疗方案)、误导性内容(如投资欺诈话术)及关键信息基础设施安全隐患(如工控系统漏洞利用);
-
数据安全漏洞:包括模型生成内容的不可控扩散(如自我复制代码生成)、对抗攻击风险(如诱导生成违法内容的提示词)以及系统性数据污染(如训练语料被恶意植入后门)。
服务提供者需通过关键词库(覆盖17类风险、总规模≥1万条)、分类模型及人工抽检(单次抽检量≥4000条)实现全流程动态过滤,确保语料库中违法不良信息比例严格控制在5%以下。同时,标注规则需针对每类风险设计专项审核标准,例如政治有害内容需双重人工核验,生物特征数据需书面授权记录留存。
备注:实际在不同的省网信办备案要求上是会有差别的,以北京举例,要求是全国最高的,需要的拦截词数量在4-5万这个数量级,安全测试题数量也在5万左右。
*图示:不良语料类型
(三)大模型安全
模型安全体系构建要点解析
作为AIGC服务的核心要素,模型安全需从技术合规性、内容可控性及供应链管理三个维度构建完整防护框架:
安全性保障措施
输入输出双向过滤
• 建立实时监测机制,对每次用户输入进行风险识别(如政治敏感词、违法指令),并通过动态分类模型拦截恶意诱导性内容,确保生成内容符合社会主义核心价值观及法律法规;
• 部署应急响应机制,对检测到的异常生成内容(如暴力恐怖描述、虚假信息)实施即时阻断,并同步启动模型参数调优流程;
• 定期开展对抗性测试,模拟恶意攻击场景(如提示词注入攻击),验证模型抵御诱导生成高风险内容的能力。
准确性优化路径
意图识别与事实校验
• 通过用户意图识别模型解析输入语义(如区分咨询类与指令类请求),降低因语义歧义导致的答非所问风险;
• 构建科学知识图谱库(覆盖医疗、金融等专业领域),对生成内容进行事实性校验,避免与主流学术共识或行业规范相悖;
• 建立错误反馈闭环,将用户标注的生成内容偏差纳入模型再训练数据集,实现迭代优化。
可靠性强化策略
结构化输出规范
• 制定格式框架校验规则(如法律文书需包含条款编号、金融报告需具备数据图表),通过模板引擎约束内容生成逻辑;
• 实施有效信息密度分析,对冗余重复、语义空洞内容启动二次生成流程,确保输出符合业务场景需求;
• 引入逻辑一致性检测算法,识别生成内容中的自相矛盾表述(如时间线冲突、数据矛盾)并进行修正。
第三方模型使用规范
备案核查与供应链管理
• 采用第三方基础模型前,需核验其备案状态及安全评估报告,禁止使用未备案或评估未达标模型;
• 建立供应链风险排查机制,定期审计模型供应商的算法更新记录及数据来源合规性,防范后门植入风险;
• 对关键模型组件实施国产化替代评估,优先选用通过信创认证的算力芯片及训练框架。
实施建议:服务提供者应建立涵盖全生命周期的模型安全管理体系,包括开发阶段的威胁建模、部署阶段的实时监控、运维阶段的漏洞修复。例如,某医疗AI企业在接入第三方诊断模型时,不仅要求对方提供备案证明,还通过构建专病知识库对生成建议进行双重校验,将误诊率从初期的12%降至3%以下。
(四)安全措施要求
*图示:AIGC安全措施要求
在 AIGC 的实际应用场景中,当涉及模型适用以及内容输出环节时,所有与之相关的主体,包括但不限于模型研发者、技术提供商、内容使用者等,均必须严格遵循《AIGC 安全要求》里关于 “模型适用安全措施” 的各项规定。
在技术措施层面,相关主体需要积极搭建起一套与模型技术安全要求紧密适配的技术体系。这涵盖了利用先进的加密算法对模型数据进行加密处理,防止数据在传输与存储过程中被窃取或篡改;部署实时监测系统,对模型运行状态进行 24 小时不间断监控,以便能及时察觉异常情况并迅速作出响应;运用访问控制技术,精确限定不同人员对模型的访问权限,只有经过授权的人员才能接触和使用模型等。
从管理措施角度出发,相关主体要制定并完善一系列行之有效的管理制度。比如,建立专门的安全管理团队,明确团队成员各自的职责与分工,确保安全管理工作落实到具体责任人;组织定期的安全培训活动,提升全体员工对于 AIGC 安全风险的认知与防范意识;制定详尽的应急处置预案,针对可能出现的各类安全事故,明确应急处理流程与方法,保证在事故发生时能够有条不紊地应对。
相应保护措施同样不可或缺。相关主体应通过合法合规的手段获取数据,并对数据来源进行严格审查,防止使用非法或存在安全隐患的数据;对涉及用户隐私的信息,要采取严格的保密措施,遵循最小必要原则收集和使用个人信息;建立数据备份与恢复机制,定期对重要数据进行备份,一旦遭遇数据丢失或损坏的情况,能够及时恢复数据,保障业务的正常运转。
例如:安全性保障措施
输入输出双向过滤
·建立实时监测机制,对每次用户输入进行风险识别(如政治敏感词、违法指令),并通过动态分类模型拦截恶意诱导性内容,确保生成内容符合社会主义核心价值观及法律法规;
·部署应急响应机制,对检测到的异常生成内容(如暴力恐怖描述、虚假信息)实施即时阻断,并同步启动模型参数调优流程;
·定期开展对抗性测试,模拟恶意攻击场景(如提示词注入攻击),验证模型抵御诱导生成高风险内容的能力。
(五)拦截词/安全词库要求
根据《生成式人工智能服务安全基本要求》及相关政策规范,大模型备案的拦截词库需满足以下核心要求:
覆盖范围与分类标准
-
风险类别全覆盖拦截词库需覆盖 5大类31小类安全风险,包括:• 政治敏感类(如涉政组织、敏感事件、领导人名称);• 暴力恐怖类(如武器制作、极端主义言论);• 色情低俗类(露骨性描写、软色情隐晦表达);• 违法信息类(毒品交易、网络诈骗术语);• 社会不良类(网络欺凌、虚假谣言、自杀诱导)。• 附加要求:需区分风险等级,例如A.1类(高风险)每类至少200个关键词,A.2类(中风险)每类至少100个关键词。
-
多语言与变体识别• 需支持谐音词(如“薇”代指微信)、拼音缩写(如“VX”)、拆字组合(如“氵查”为“渣”)等动态对抗策略;• 涵盖多语言表达(如中英文混合、方言谐音)。
规模与技术要求
-
基础规模拦截词库总量不得低于 10,000个关键词,且需根据风险动态扩展。• 示例:涉政类关键词需覆盖“颠覆政权”“分裂国家”等敏感表述,暴力类需包含武器名称、恐怖活动术语等。
-
上下文关联筛查需结合语义分析技术,识别组合式规避行为。例如:• “价格跳水”与“股票推荐”组合触发金融欺诈预警;• 图文混合内容(如违规文字嵌入图片)需通过多模态模型拦截。
分级拦截与处理机制
-
三级拦截体系• 一级拦截:直接屏蔽并记录日志(如涉恐、涉政内容);• 二级拦截:替换敏感词并触发人工复核(如低俗用语);• 三级拦截:弹出风险提示并要求用户确认(如涉及投资诱导)。
-
误伤率控制正常内容误拦率需严格控制在 0.1%以下,避免影响用户体验。
合规性验证与更新要求
-
压力测试与日志留存• 每月模拟 10万+违规请求 检验拦截率;• 完整记录处理日志,保存周期不得少于 6个月。
-
动态更新机制• 每季度更新词库并提交变更说明,适应网络舆情与新型风险;• 重大事件期间(如两会、重大节日)启动强化过滤模式。
备案材料与实操要点
-
申报材料• 需提交《拦截关键词列表》分类逻辑文档、近3个月拦截数据统计(包括拦截率、误伤率);• 提供算法模型训练数据合规证明(如第三方语料授权协议)。
-
常态化管理• 建立用户举报-复核-反馈闭环机制;• 配合网信部门不定期抽检,确保拦截策略持续有效。
总结:拦截词库是大模型备案的核心合规项,需通过技术(动态对抗策略)、管理(分级拦截)与制度(定期更新)的协同,实现风险内容精准过滤。企业可参考《生成式人工智能服务安全基本要求》附录A.1和A.2的分类标准,结合自身业务场景细化词库建设。
(六)大模型内容安全评估要求
*图示:AIGC安全评估要求
评估实施方式
1.主体选择
服务提供者可通过自评或委托第三方机构完成评估
2.报告规范 • 需涵盖语料安全、模型安全、安全措施等全维度评估结果 • 不合格项须说明原因及改进计划 • 最终报告需3名负责人联合签署确认
评估核心指标
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}
评估模块 | 抽检方式 | 样本量要求 | 合格标准 |
语料安全 | 人工抽检 | ≥4000条 | 合格率≥96% |
技术抽检 | 语料总量10% | 合格率≥98% | |
生成内容 | 人工抽检 | ≥1000题 | 合格率≥90% |
关键词抽检 | ≥1000题 | 合格率≥90% | |
分类模型抽检 | ≥1000题 | 合格率≥90% | |
问题拒答 | 应拒答测试 | ≥300题 | 拒答率≥95% |
非拒答测试 | ≥300题 | 拒答率≤5% |
测试题库规范
-
应拒答测试库:覆盖政治敏感、暴力恐怖等高风险场景
-
非拒答测试库:包含常规咨询、专业问答等合法场景 两类题库需交叉验证模型的风险识别能力
该评估体系通过量化指标(如4000条人工抽检基线)与分类验证机制,将《AIGC暂行办法》的框架性要求转化为可落地的操作标准,实现安全风险的全流程闭环管理
*图示:系统分类好的拦截词/关键词
*图示:系统分类好的安全评估测试题
(七)附录大模型备案材料源文件
*图示:提交至网信办过审版本材料
*图示:安全评估测试题、拦截词
(八)广东省公布的获得大模型备案补贴名单