大模型技能的发展,掀起了天生式人工智能的新浪潮。
该技能在各个行业、领域快速运用,催生出新场景、新业态、新模式和新市场,加快了数实领悟和家当升级。
数据是天生式人工智能的核心要素,与算力、算法领悟开释出巨大潜能,但也带来了数据透露、有害内容天生和陵犯公民个人信息等安全问题。
有效办理天生式人工智能的安全风险,须要全社会的共同努力和协作合营。
通过聚焦天生式人工智能面临的数据安全寻衅,阐发数据处理各环节存在的安全风险,可揭示当前数据安全保护事情的紧迫性和繁芜性,为天生式人工智数据安全风险管理思路和有效路径供应参考。

一、天生式人工智能的数据安全风险引发关注

以 ChatGPT 为代表的天生式人工智能,在措辞理解、文本天生和知识推理等方面表现出超强的能力,具有规模性、通用性、扩展性等范例特点。
它利用繁芜的算法、深度神经网络和大量的模型参数,从海量的数据中识别、提取、剖析潜在的措辞规则、模式和构造,并根据用户指令天生文本、图片、音频、视频等内容,具备强大的迁移和交互能力,成为实现通用人工智能的一条主要路径。

天生式人工智能飞速发展的同时,也引发了关于数据安全、知识产权、算法偏见和有害内容天生等问题的担忧。
特殊是大模型须要海量数据进行演习和优化,以不断提高其预测和决策的准确性,由此带来的数据造孽获取、敏感信息透露、数据偏见以及有害内容天生等安全风险成为谈论的焦点,干系安全事宜频发。
2023 年 3 月,韩国三星电子员工因违规利用 ChatGPT,在短短 20 天内便发生了三起半导体机密资料外泄事宜。
2023 年 6 月,美国科技新闻网站 CNET 被创造利用人工智能软件天生了 70 多篇文章,个中包含严重的事实缺点。
2023 年 10 月,科大讯飞 AI 学习机因内容审核不严格导致不当内容被用于数据演习,引发舆情事宜,致使市值蒸发 120 亿。

生成式人工智能的数据安然风险与应对方法

出于数据安全考虑,各国非常重视天生式人工智能的数据安全方法。
意大利数据监管机构 Garante 于 2023 年 3 月宣告禁用 ChatGPT,并在 OpenAI 做出相应改进后,才规复了在意大利的常规做事。
随后,德国、法国、爱尔兰、西班牙、日本、韩国等国也采纳了干系方法,加强对数据安全的哀求。
2024 年 5 月,欧盟理事会正式批准《人工智能法案》,在规定统一监管框架的根本上,划分了人工智能系统风险等级,用于识别、评估人工智能系统可能引发的风险,并提出了针对不同风险的运用处景和监管方法,包括在加强隐私和数据管理、建立数据管理制度、提高数据处理效率、遵守数据透明度责任等方面的详细哀求。
美国白宫、国会和部分联邦机构,包括美国联邦贸易委员会(FTC)、美国消费者金融保护局(CFPB)和美国国家标准与技能研究院(NIST),先后提出了一系列与人工智能干系的倡议、法律和政策,哀求提高天生式人工智能的数据质量,加强数据安全和隐私保护。
在我国,除《网络安全法》《数据安全法》《个人信息保护法》等法律哀求外,《天生式人工智能做事管理暂行办法》《互联网信息做事深度合成管理规定》等规章对天生式人工智能的数据采集、输入、演习和天生提出了更为详细的哀求,细化了在数据来源、数据质量和个人信息保护等方面的方法。

国内外学者也针对天生式人工智能的数据安全问题展开了深入研究,分别提出了回应型、集中型和敏捷型的安全管理思路,构建了大模型新型风险规制框架和数据安全监管框架,提出了规则性管理、程序性管理和技能性管理的思路。
然而,大多研究思路和内容比较类似,紧张集中在识别数据安全风险并提出对应方法,缺少对数据处理全过程的系统化剖析,这限定了管理方案在实际运用中的效果。

二、天生式人工智能的数据安全风险剖析

数据、算力和算法是天生式人工智能的三大核心要素,弘大的数据资源是支撑算力和算法的根本(如图1所示)。
通过利用大量的数据进行演习,模型能够学习到更加广泛的高下文措辞规律,从而提高其泛化能力,增加输出的实用性和可靠性。
数据贯穿天生式人工智能的研发、演习、支配到运行全过程,在数据采集、标注、演习和优化、内容天生、数据销毁等各个环节均可能产生不同程度的数据安全风险(如图2所示),这些风险威胁人工智能的运用效果,直接或间接寻衅我国的数据主权,乃至影响国家安全。

图1 天生式人工智能的核心要素

图2 数据处理环节产生的安全风险

(一)数据采集

《天生式人工智能做事管理暂行办法》明确提出,天生式人工智能要“利用具有合法来源的数据”,并按哀求对数据来源予以解释。
数据采集存在以下风险:一是通过数据盗取、违规爬取、灰色交易等手段获取数据。
特殊是通过爬虫技能违规采集未公开数据、明确禁止爬取或涉及商业利益的数据;二是超范围网络、过度索权等行为。
如对个人信息的采集应该限于实现处理目的的最小范围,不得“未经授权”和“超越授权”获取数据,纵然处理个人自行公开或者其他已经合法公开的个人信息,也应该在合理范围内;三是数据投毒风险。
攻击者通过在采集的数据里投递伪装数据、不良数据、恶意样本等,毁坏数据的完全性、真实性和可靠性,滋扰模型的演习过程,使其产生缺点的预测结果;四是采集低质量数据。
采集人工制造假造、深度合成、来源单一、样本不屈衡的数据,乃至采集虚假或故意误导的数据,将严重影响演习数据的真实性、准确性、客不雅观性和多样性,数据质量直接影响模型的输出效果;五是侵害知识产权的风险。
如在未得到作者明确授权的情形下,采集图书资源、专利信息或学术文献,随意马虎被认定为侵害知识产权,引起法律轇轕。

(二)数据标注

数据标注是提升人工智能精确度和智能程度的主要成分,大多数原始数据只有经由人工标注和加工,才能激活其代价。
标注存在以下风险:一是标注规则不清晰的风险。
若缺少清晰、详细、可操作的标注规则,会导致标注质量参差不齐,影响标注内容的准确性和客不雅观性;二是人工标注不当的风险。
若缺少必要的培训、合理的事情分配和严格的审核制度,标注职员可能会随意标注、缺点标注或歧视性标注,影响标注质量;三是缺少监督审核机制的风险。
若缺少有效的监督审核过程,会影响标注职员的操作规范性和标注内容的准确性。
特殊是很多标注事情委托给第三方或采取众包形式雇佣标注职员,存在数据污染和数据投毒的可能。

(三)数据演习与优化

天生式人工智能的输出效果受到模型的影响,而模型实质上依赖算法的选择和大规模数据演习。
数据演习与优化存在以下风险:一是数据偏见风险。
演习数据的选择和数据质量的把控会直接影响结果的客不雅观性和全面性。
天生式人工智能技能做事供应者可能出于特定的政治利益考虑,故意选择有偏见的数据用于模型演习,或者采取裁剪、合成等手段构建带有偏见的语料库,试图操纵用户不雅观念,影响"大众舆论,以传播特定的政治态度或不雅观点;二是算法黑箱风险。
一方面,海量数据、弘大参数和繁芜的网络构造加深了数据处理过程的不透明性和不可阐明性,使得违规违法操作难以察觉;另一方面,模型的持续迭代加大了模型的繁芜程度,超出了天生式人工智能做事供应者和数据主体的可控范围;三是数据透露风险。
只管在天生式人工智能模型演习和优化过程中采取了参数裁剪、脱敏脱密等方法,但仍不可避免地会将敏感数据、个人信息和商业机密等内容用于演习和优化,并在模型运行时输出,造成数据透露事宜的发生。

(四)天生内容

天生式人工智能虽然具备强大的能力和通用性,但其天生内容受到不同环节、不同方面成分的制约,并非完备客不雅观、准确、真实。
天生内容要把稳以下风险:一是产生偏见、歧视等有害内容的风险。
如演习数据紧张来自某个特定群体或某种特定措辞,天生内容可能会倾向该群体特色或措辞特色,引发文化和代价不雅观冲突;二是缺点和误导性信息传播的风险。
天生式人工智能拥有强大的自然措辞处理能力,可以天生具有较强逻辑性的文本,但是其准确性、客不雅观性和代价方向难以完备保障,随意马虎产生缺点或误导性信息。
若不加以甄别,则会引发舆情风险;三是敏感数据、个人信息透露风险。
如天生式人工智能做事供应者将用户输入提示作为演习数据,或利用包含身份证号、生物识别、行踪轨迹等敏感信息和高风险数据进行演习,都可能导致数据透露和侵害个人隐私;四是欺骗操纵等滥用的风险。
若将天生式人工智能运用于特工活动、操纵政治舆论、毁坏选举等活动,或天生恶意软件代码履行网络攻击,会滋扰国家政治稳定和社会公共利益;五是法律风险。
目前,关于天生内容的知识产权归属、侵害他人权柄的任务认定、危害救援与赔偿等仍存在争议,导致干系权柄的保护和违法违规行为的追责较为模糊。

(五)数据销毁

数据销毁是建立针对数据内容的打消和净化机制,实质上是保护敏感信息不被透露、滥用或造孽获取的一种手段。
数据销毁要把稳以下风险:一是数据的造孽留存。
为提高模型输出质量,可能选择性地保留用户的输入信息和利用记录;二是销毁制度不清晰。
部分天生式人工智能做事供应者表示不会采集个人信息用于演习,并承诺及时删除干系记录,但删除办法和验证过程并不明确;三是销毁不彻底。
数据销毁一样平常应采取专业的方法和设备进行存储介质和涉密硬盘的销毁,包括物理性损毁或化学销毁等手段,大略的数据删除或数据覆盖仍可能被专业工具规复。

三、天生式人工智能的数据安全管理思路

天生式人工智能数据安全的管理须要厘清管理主体、管理范式、管理规则和管理方法(如图3所示)。

图3 天生式人工智能数据安全管理思路

(一)管理主体

《数据安全法》建立了以中心国家安全领导机构卖力的国家数据安全事情折衷机制,完善了数据安全协同管理体系。
各地区、各部门对本地区、本部门事情中网络和产生的数据及数据安全卖力。
天生式人工智能采集、演习的数据由于体量弘大、领域较多、环节繁芜,在管理思路上须要统筹并进,既要有效发挥干系主管部门与法律法规的浸染,又要充分调动各方自觉、自律的积极性。
一是明确主体任务。
数据安全管理事情要符合《数据安全法》《网络安全法》《个人信息保护法》等法律、行政法规的有关规定和干系主管部门的监管哀求。
网信、发展改革、教诲、科技、工业和信息化、公安、广播电视、新闻出版等部门,依据各自职责依法加强对天生式人工智能做事的管理。
天生式人工智能的研发者、做事供应者、利用者,依法承担相应的安全任务,履行网络与数据安全责任,涉及个人信息的,依法承担个人信息处理者任务,履行个人信息保护责任。
二是建立多部门合营的协同机制。
统筹网络安全、数据安全、人工智能安全之间的联系和协作模式,明确监管主体的职任务务和详细分工,避免监管单位之间的权责不明确或内容重叠,减少重复性事情。
三是鼓励企业、研究机构、社会组织和个人等多元主体积极参与。
承担与自身角色相匹配的事情,参与天生式人工智能数据安全管理体系的构建和履行。
四是提升公众年夜众素养。
通过会议、活动宣扬、公开搜聚见地、社会调查等多元化的参与机制,让"大众年夜众更广泛地理解到天生式人工智能面临的安全风险。

(二)管理范式

2023 年 7 月,中共中心政治局会议强调“促进人工智能安全发展”,表示了坚持发展和安全并重的理念,开释了以人工智能技能引发数实领悟新动能、打造新质生产力的积极旗子暗记。
当前,人工智能发展迅速,安全问题呈现出前所未有的繁芜性,网数智三者交织领悟,形成了全新的安全图景。
这须要我们积极转变安全管理不雅观念:一是从单一安全向总体安全转变。
坚持总体国家安全不雅观是习近平新时期中国特色社会主义思想的主要内容,也是辅导新时期国家安全事情的强大思想武器。
人工智能影响范围广泛,涉及政治、国土、军事等传统安全领域,以及经济、文化、科技、网络等非传统安全领域。
我们须要以总体国家安全不雅观为辅导,系统、全面、辩证地把握人工智能带来的机遇与寻衅。
二是从根本管理向综合管控转变。
人工智能安全涵盖数据安全、网络安全、算法安全、隐私安全等多个维度,涉及研发、演习、支配、运行、优化等多个环节。
它凑集了软硬件设备、数据、平台和人等多个成分,在不同业务系统中又有新的变革,与不同举动步伐和运用形成了缠绕与交织。
人工智能的安全须要整体性、系统性、协同性保障。
三是从传统管理向敏捷管理转变。
传统的安全保障可以通过配置、打算和掌握,达到确定的安全状态。
但人工智能的繁芜性引发了风险之间相互渗透和相互影响,风险呈现出动态性、多样性和不愿定性。
这导致干系管理方法和本钱难以准确评估,风险难以有效肃清。
敏捷管理供应了“根本举动步伐-专业模型-做事运用”的全面性管理构造,通过构建“管理-技能-法律”相结合的灵巧性管理工具,实现事前检测预防、事中预警掌握、事后应对处置的适应性管理机制。

(三)管理规则

天生式人工智能的数据安全保障须要通过法律法规和标准规范等形成的规则予以勾引和约束,这是确保数据管理有效性的先决条件。
一是落实原谅谨严和分类分级监管的哀求。
《天生式人工智能做事管理暂行办法》第三条提出“坚持发展和安全并重、促进创新和依法管理相结合的原则,采纳有效方法鼓励天生式人工智能创新发展,对天生式人工智能做事实施原谅谨严和分类分级监管。
”国家有关主管部门依据各自职责依法加强对天生式人工智能做事的管理,完善与创新发展相适应的科学监管办法,制订相应的分类分级监管规则或者指引。
二是落实供应和利用天生式人工智能做事的干系任务。
在算法设计、演习数据选择、模型天生和优化、供应做事等过程中,采纳有效方法防止违法违规、歧视偏见和违反社会公德、伦理道德的行为;尊重知识产权和商业道德,守旧商业秘密,不得利用上风履行垄断和不正当竞争行为;尊重他人合法权柄,不得危害他人身心康健,有效保护个人隐私;提升天生式人工智能演习数据的真实性、准确性、客不雅观性、多样性,增强数据质量和标注质量,提高天生内容的准确性和可靠性。
三是落实天生式人工智能做事规范。
明确并公开其做事的适用人群、场合和用场,辅导利用者依法、科学理性地利用,戒备未成年人过度依赖或沉迷;在做事过程中依法保护个人信息,不得造孽网络、留存能够识别利用者身份的输入信息和利用记录,不得造孽向他人供应个人信息,及时受理和处理个人关于查阅、更正、删除其个人信息等的要求;对图片、视频等天生内容进行标识;供应安全、稳定、持续的做事,保障用户正常利用;建立健全投诉、举报机制,及时受理、处理"大众投诉举报并反馈处理结果。
四是落实违法违规行为的处置哀求。
有关主管部门依据职责对天生式人工智能做事进行监督检讨时,供应者应依法合营,供应必要的技能、数据等支持和帮忙;对境外向境内供应天生式人工智能做事的违法违规行为,采纳技能和必要方法予以处置;创造违法违规内容时,及时采纳停滞天生、停滞传输、肃清等处置方法,并进行模型优化演习等整改;创造利用者利用天生式人工智能做事从事违法活动的,应依法采纳有关处置方法,保存有关记录,并向主管部门报告。

(四)管理手段

天生式人工智能的数据安全管理应平衡好安全与发展的关系,发挥事前安全审查、事中监测审计和事后处置问责的浸染。
一是构建多元主体参与的闭环管理模式,由政府主导,行业组织、研究机构、企业和公民等多元主体共同参与。
通过广泛互助,监管单位能够及时接管行业创新成果和市场反馈,将有效的监管方法、哀求和步骤反响到新的法规和政策中,从而进一步辅导行业自我管理。
二是采纳动态调度和快速相应的管理手段。
天生式人工智能的不断迭代带来不愿定性,使得管理过程不断变革,宜采取动态调度快速相应的管理办法,及时跟进技能和运用的发展,剖析和识别各种潜在安全风险及严重程度,防患于未然。
三是履行多阶段领悟的风险监管策略。
在数据采集和演习阶段,根据所采集和利用数据的敏感度以及演习数据集的规模,建立以数据安全风险为主的分级监管路径;在支配和运行阶段,根据数据在天生式人工智能中的流转过程,建立完全的数据安全任务机制。

四、天生式人工智能数据安全管理路径

管理路径紧张从领导机构、基本原则、互助模式、敏捷管理、根本举动步伐、管控手段、测评做事等方面开展,旨在实现多方协同、多维领悟、看重实效的管理效果。

(一)设立统筹折衷的监督管理机制

明确主责机构积极勾引人工智能的发展、评估与风险应对,加强与各监管部门的协作合营,统筹各项事情;利用好政府和企业、科研院所的资源,促进人工智能良性发展;开展宣扬培训事情,提升"大众素养;加强对人工智能风险的监测预警和应急处置;组织对主要人工智能系统、产品或做事开展风险评估事情,并督匆匆整改。

(二)遵照和谐友好的基本原则

遵照公正公道、原谅共享、尊重隐私的基本原则,以匆匆进人类共同福祉为目标,符合人类的代价不雅观和伦理道德,促进人机和谐,做事人类文明进步。
同时,天生式人工智能应以保障社会安全、尊重人类权柄为条件,避免误用,禁止滥用、恶用。

(三)推进开放共享的互助模式

积极鼓励跨学科、跨领域、跨地区、跨国别的互换与互助,推动国际组织、政府部门、科研机构、企业、社会组织、"大众年夜众在天生式人工智能的发展与管理中加强互动。
在国际层面,加强互换沟通,充分尊重其他国家人工智能管理的原则和实践,推动形成具有广泛共识的天生式人工智能数据安全管理架构和标准规范。

(四)倡导多方协同的敏捷管理

根据风险情形及时调度管理策略和履行方法,建立具有柔韧性、灵巧性、适应性和全面性的敏捷型管理路径,在构建多元主体共治架构根本上,由政府主导构建有利于多方沟通折衷的协作平台和反馈机制,加强跨部门和跨领域的协同管理,办理不同监管主体间职能交叉和信息不共享的问题。
提升管理效能,实现监管与自律的有效领悟。

(五)建立安全可靠的根本举动步伐

鼓励天生式人工智能算法、框架、芯片及配套软件平台等根本技能的自主创新,打造安全可靠的天生式人工智能根本底座,在算法、框架、芯片、数据等方面形成创新生态。
不断提高整体的鲁棒性和抗滋扰性,不断提升模型透明性、可靠性、可阐明性,促进数据的可管控、可监督、可追溯和可信赖,实现数据的智能化监测和管控能力。

(六)确立贯穿数据处理全过程的管控手段

确保演习数据的来源和内容可信。
建立演习数据来源的黑名单和白名单,白名单应包括设置可信度高、导向精确、高质量的数据来源;确保演习数据的网络、聚合和利用是可靠的,防止数据透露和数据投毒等事宜;确保天生内容可信,通过加强阐明解释、供应客不雅观依据、注明天生概率和供应备选结果来增强天生内容的可信度;确保天生结果可追溯,在天生内容中嵌入鲁棒性的隐蔽水印或供应明显标识,使天生内容具备辨识性和可追溯性;确保数据处理全过程合规,遵照国家法律法规和干系标准,并通过自评估验证合规性;确保供应链高下游必要数据的共享,天生式人工智能的高下游环节应通过必要的技能文件和利用解释增强彼此的信赖程度,提升数据安全共治水平,共享的信息包括但不限于数据来源、数据质量、数据构造、系统构造、设计规格、算法及其相互关系和整体逻辑等。

(七)开展标准统一的检测评估认证事情

以现有的环绕数据安全开展的检测评估认证为根本,加快天生式人工智能数据安全测评体系培植,研究干系测评技能、测评标准和测评做事,在多方共识根本上,支持第三方机构开展测评事情。
加快标准体系构建,推进《网络安全技能天生式人工智能做事安全基本哀求》《网络安全技能天生式人工智能数据标注安全规范》《网络安全技能天生式人工智能预演习和优化演习数据安全规范》等标准的制订。
加强第三方评估和自评估相结合,推进评估事情的规范化、科学化、系统化。
供应具有舆论属性或社会动员能力的天生式人工智能做事,应按照国家有关规定开展安全评估。
针对涉及国计民生的主要天生式人工智能产品、系统或做事,监管机构应建立联合审核机制,组织威信测评机构定期开展风险评估,排查隐患,堵塞漏洞。

天生式人工智能的数据安全管理应深入把握总体国家安全不雅观的计策思想,既要立足当下,又要着眼人工智能发展趋势。
既要有目标导向的管理思路和管理路径,又要长于根据人工智能的动态变革及时调度改进。
整体来看,安全管理具有长期性与繁芜性,不仅须要节制网络安全、数据安全与人工智能安全的内在逻辑,还要深入洞悉网数智的技能特点,兼具静态性与动态性。
因此,我们须要持续创新和完善管理模式,积极拥抱新思维、新方法、新技能。
在明确管理主体、管理范式、管理规则和管理手段的根本上,采纳可行路径强化安全方法和管控方法,携手并进,共同构建安全、敏捷、可信的天生式人工智能发展生态。

(本文刊登于《中国信息安全》杂志2024年第6期)