生成式人工智能背景下数据安全的刑法保护困境与应对-以ChatGPT为视角的展开.pdf
《生成式人工智能背景下数据安全的刑法保护困境与应对-以ChatGPT为视角的展开.pdf》由会员分享,可在线阅读,更多相关《生成式人工智能背景下数据安全的刑法保护困境与应对-以ChatGPT为视角的展开.pdf(9页珍藏版)》请在咨信网上搜索。
1、ChatGPT是基于大型神经网络语言模型并通过强化学习进行训练,能够实现与用户深度交流的生成式人工智能。在人工智能背景下,现行刑法尚不足以抵御生成式人工智能带来的数据安全风险。生成式人工智能对数据的海量获取需求,与刑法中的数据控制保护理念存在天然矛盾;生成式人工智能因其存在自由意志的现实可能性,对传统刑事责任主体的范围也发起了挑战。故应从两方面着手提升刑法对新形势下数据安全的保护能力:一方面刑法对数据安全的保护应从数据控制保护模式转向数据利用保护模式,包括建立非法获取行为的出罪机制、规制数据滥用行为,以及建构专门的数据安全刑法保护体系;另一方面,应考虑人工智能体成为刑事责任主体的可能性,对其自
2、由意志支配下实施的数据侵害行为进行自我答责。【关键词】ChatGPT;生成式人工智能;数据安全;数据控制;数据利用2022年11月,由美国人工智能研究实验室OpenAI研发的人工智能聊天机器人程序ChatGPT(Ch a tGenerative Pre-trained Transformer)正式上线。作为生成式人工智能(Generative Artificial Intelligence)的最新成果,ChatGPT依靠其强大的自然语言模型,不仅能通过自然语言与用户进行深度沟通,还能完成语言翻译、修改代码甚至文章写作等任务,颠覆了原有的人机交互体验的机械性与被动性而受到广泛关注。然而,突破性技
3、术在为人类社会创造新机遇的同时,也带了来新的风险。上线短短几个月,ChatGPT的存在就对学术专业领域发起了挑战,使用ChatCPT撰写论文和完成测试。同时,ChatGPT的出现也降低了网络犯罪的门槛。网络安全公司CheckPoint就曾利用ChatGPT生成能携带恶意载荷、编写巧妙的网络钓鱼电子邮件。在ChatGPT的帮助下,攻击者只需要对网络安全和计算机科学知识有基本了解,即可生成有一定质量的代码实施网络攻击。1)此外,不法分子还可能利用ChatGPT生成的高质量内容实施违法犯罪活动。国内已经出现用户利用ChatCPT生成的虚假新闻进行广泛传播而引发舆情的事件,甚至招致警方介人调查。2)由
4、此可见,ChatCPT等生成式人工智能的发展将对人类社会伦理与法律制度带来不小的冲击与挑战,引发人们对生成式人工智能法律风险的思考。生成式人工智能对数据具有高度依赖性,与现行刑法对数据安全的保护机制有着天然冲突。笔者试以ChatCPT的运行模式为视角,*李振林,法学博士,华东政法大学刑事法学院副教授。潘鑫媛,华东政法大学刑事法学院硕士研究生。【基金项目】本文系国家社科基金重大项目“网络时代的社会治理与刑法体系的理论创新”(项目编号:2 0&ZD199)的阶段性研究成果。【1】参见安全双刃剑:ChatGPT是黑客新工具还是防护利器?,载微信公众号“虎符智库”,2 0 2 3年2 月16
5、日。【2】参见朋友圈疯传,假的!是ChatCPT写的!警方已介人调查,载微信公众号“浙江之声”,2 0 2 3年2 月17 日。26犯罪研究2 0 2 3年第2 期理论研究分析生成式人工智能背景下数据安全的刑法保护困境,探索未来刑法对数据安全保护的应然路径,以期最大程度地实现数据安全保护与人工智能产业发展之间的平衡。一、生成式人工智能的运行原理与数据安全隐患生成式人工智能,是可以基于现有数据生成新颖内容的人工智能。以往互联网的内容生成主要分为“专业生成内容”(Professional Generated Content)与“用户生成内容”(User Generated Content)两种模式
6、。生成式人工智能的出现带来了“人工智能生成内容”(Artificial Intelligence Generated Content,A IG C)这一全新模式。如果说过去关于AICC成为互联网内容生产主力的结论只停留在理论推演层面,那么ChatGPT的出现则让这种推论距离现实更进一步。笔者试以ChatCGPT作为生成式人工智能的典型范例,探讨生成式人工智能的运行模式和对现行法律框架下的数据安全形成的天然挑战。(一)生成式人工智能的运行模式及关键技术ChatGPT可以与用户在同一语境中联系上下文展开多轮对话,能主动质疑对话的正确性、承认自身错误并及时纠正错误,具有相当高的智能性与自主性。1.运
7、行模式AIGC背后的生成主体并非人类,而是人工智能。因此,了解AIGC背后人工智能生成内容的运行模式是理解生成式人工智能的关键。以ChatGPT为例,它在技术路线上采用了一种“自然语言处理+搜索引擎集成”的架构。3)OpenAI认为,未来的人工智能应拥有一个与任务无关的超大型语言模型(LargeLanguage Model,LLM),可以从海量的数据中学习各种知识,以生成一切的方式解决各种实际问题。除此以外,人工智能应能够听懂人类的命令,便于人类使用。4)ChatGPT的火爆证实了这一思路的可行性。用户输人指令后,生成式人工智能通过LLM,联系上下文对用户指令进行准确解读,同时生成创新内容,并
8、以接近人类使用习惯的表达完成对人类的输出。简言之,ChatGPT整个外部运作流程可被归纳为:资料搜集、数据取一加工整合成大语言数据库一命令的接收和算法运转一结果输出。5)2.关键技术“准确理解指令+创新内容合成+人类偏好数据输出”的组合是生成式人工智能大受欢迎的前提。ChatGPT被认为采用了“大数据+大算力+大算法=智能模型”的逻辑,是人类活动与新技术的结合。6)这种能够生成逻辑文本的自然语言智能模型主要依托以下关键技术来实现。其一,生成式预训练模型。ChatCPT使用了基于CPT-3.5架构的大型神经网络语言模型,通过强化学习进行训练。GPT-3.5是生成式预训练模型(Generative
9、Pre-trainedTransformer,G PT)通过进化与发展得出的新成果,是在预先对既有文本数据进行无监督地自主学习训练的基础上,构建起高度类似人类表达逻辑与习惯的语言算法模型。2 0 16 年,OpenAI训练出了GPT-1,采用自回归语言模型对用户输人指令进行语义理解,即按语序将每个词与句子中其他所有单词的关联度进行计算以保证语义的准确性与逻辑性。在此之后,GPT-2、CPT-3延续了相同的计算原理,只不过通过增加参数量和训练的数据量进一步【3)参见邓建鹏、朱成:ChatGPT模型的法律风险及应对之策,载新疆师范大学学报(哲学社会科学版)2 0 2 3年第5期,第4 1页。【4】
10、参见朱光辉、王喜文:ChatGPT的运行模式、关键技术及未来图景,载新疆师范大学学报(哲学社会科学版)2 0 2 3年第4期,第18 0 页。【5参见李士林、黄诚:约束抑或变革:ChatGPT的法律风险分析及应对,载微信公众号“知产财经”,2 0 2 3年3月7 日。【6 参见张夏恒:ChatCPT的逻辑解构、影响研判及政策建议,载新疆师范大学学报(哲学社会科学版)2 0 2 3年第5期,第2 0页。27理论研究犯罪研究2 0 2 3年第2 期提高了自回归语言建模的性能。其二,人类反馈强化学习。如前所述,GPT对既有语料的训练是在无监督的状态下进行的,这是由其所属的AIGC的性质决定的,AIG
11、C正是通过“生成式对抗网络”(GenerativeAdversarialNetworks,GAN)来实现表达训练。GAN包含生成器与判别器两个部分。生成器通过对收集的样本数据进行再整合与再创造达到无限接近样本数据的效果;判别器通过训练提升对真实样本数据的辨别能力以识破生成器制造的新数据。但这种训练方式是在完全机器自主、缺乏人工监督的环境下进行的,可能导致生成的内容失真或带有偏见。因此,OpenAI在ChatCPT的训练过程中加人了“人类反馈强化学习”(R e i n f o r c e me n t Le a r n i n g f r o m H u ma n Fe e d b a c k,
12、R LH F)的训练方法。RLHF的训练过程共分为三个阶段:第一阶段为选择合适的预训练语言模型,在无监督状态下通过自主训练得到一段数据。第二阶段为根据第一阶段产生的数据训练打分反馈模型(RewardModel)。具体做法是从GPT-3.5中抽取部分数据进行人力标注,并将第一阶段生成的数据对照标注后的答案进行打分。第三阶段是让反馈模型与原模型进行对抗强化训练,机器可以通过反馈模型认识到自身答案与人类偏好答案的区别,并不断重复前两个阶段进行纠正。这种加人了人类反馈的训练不仅能使ChatGPT在表达方式上更接近人类的语言习惯,还能引导其回答内容符合人类价值观。其三,基于神经网络的语言模型。OpenA
13、I假定生物智能就是大脑通过对下一个时间点进行不断预测,在预测结果与实际情况之间不断对比修正中发展的。那么,OpenAI的GPT系列就可以通过模拟人类大脑的预测方式来加强人工智能的深度学习。目前,GPT-3的模型拥有17 50 亿个参数,可以把它们看作17 50 亿个大脑神经元突触连接,使其根据以前看到过的字,来预测下一个可能出现的所有字的分布概率。7)深度学习可以通过算法从原始数据中提取模式并自动构建特征,使机器在无人类干预的情形下从数据中发掘出有价值的内容。8)大量的模型参数和海量的文本语料可以帮助GPT捕捉更多数据从而进行更加准确的预测,当预测出的分布概率和实际统计的分布概率一致的时候,模
14、型总体预测的准确率将达到最高。(二)生成式人工智能引发的数据安全隐忧通过对生成式人工智能运作原理的了解,可以看出数据是算法和算力的基础,生成式人工智能所能引发的安全风险严格来说都与数据安全相关。根据我国数据安全法第3条第3款的规定,数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。由此可见,数据安全包含数据控制安全与数据利用安全两层含义。前者侧重于保护数据主体对于数据的控制力,体现的是一种赋权理念;后者侧重于保护数据在各个处理阶段的安全,体现出自由利用的理念。9)生成式人工智能对数据安全的侵害具体体现在以下四个方面:第一,数据过度采集。Chat
15、CPT等生成式人工智能最大的特点在于其内容生成能力,这种能力来源于对海量数据的“挖掘”功能。从GPT-1时期的1.17 亿到GPT-3时期的17 50 亿,ChatGPT的模型参数量在迭代中呈爆发式增长趋势。10)除了挖掘数据建立巨大的语料库外,生成式人工智能在日常的训练中也需要大量的数据。此外,类似ChatCPT这样基于用户需求与用户进行上下文互动的语言生成模型,在对用户既往数据的收集方面会体现出更强的倾向性与依赖性。通过对用户的浏览记录、社交数据、地理【7】参见ChatGPT来了,法宝人工智能研究院告诉你真相,载微信公众号“北大法宝”,2 0 2 3年2 月14 日。【8】参见焦和平:人工
16、智能创作中数据获取与利用的著作权风险及化解路径,载当代法学2 0 2 2 年第4 期,第12 9 页。【9】参见于改之:从控制到利用:刑法数据治理的模式转换,载中国社会科学2 0 2 2 年第7 期,第58 页。10参见许鑫、刘伟超:ChatGPT热潮中的冷思考:警惕信息工具用于认知对抗,载文化艺术研究2 0 2 3年第1期,第7 4 页。28理论研究犯罪研究2 0 2 3年第2 期追踪数据等网络空间内的海量信息进行分析,生成式人工智能才能精准预测用户在一定范围内的个人特性,生成更容易令用户满意的回答内容。可以说,收集的数据越多,互动的程度越高,用户的体验感也会越强,但这种几乎无止境的收集方式
17、对于现行数据安全规范而言无疑是巨大的挑战。第二,数据泄露。ChatCPT涉及对个人数据和商业数据的处理工作。在个人或公司员工使用ChatGPT的过程中,其收集到的个人信息和商业秘密信息在很大概率上会被用于ChatGPT不断的训练和模型优化中。这并非设计者有意为之,生成式人工智能的算法模式就在于此。但是,如此算法模式不可避免地会引发人们对个人信息以及商业秘密泄露的担忧。事实上,GPT-2在训练过程中就已经发生过生成式人工智能不当输出用户隐私信息的情况。11)微软和亚马逊也正是出于数据安全方面的考虑,才先后禁止公司员工向ChatCPT发送公司机密信息。第三,数据伪造。AIGC的生成性能决定其具有被
18、用于制作虚假的文本、音频、视频等深度伪造内容的风险。深度伪造(DeepFake),是指“人工智能算法在神经网络识别和视听数据生成转化中的处理技术”12】,目前主要被运用于AI换脸、人脸合成、视频生成等场景。目前GPT4以及百度的“文心一言”均已具备图像处理能力。随着AIGC的进一步发展,深度伪造技术未来可能会从视频、音频、文字等多角度伪造某一个体的语言及行为模式。这样生成的虚假信息一旦被用来实施违法犯罪行为,势必会造成无法预料的严重后果。第四,数据偏见。人工智能偏见来源众多,常见的有数据偏见与算法偏见。数据偏见既可以是数据本身蕴含的偏见,也可以是基于某种目的有针对性地收集、标记数据而产生的偏见
19、。算法偏见是指故意或非故意地将某个计算机程序设计为可作出有偏见的决定。13)即使是被OpenAI称为“最先进的人工智能系统”的CPT-4,其所生成的内容也无可避免存在偏见性。14)现阶段相关研究主要聚焦于算法偏见,较少涉及数据偏见及其风险的研究。15】生成式人工智能的训练材料来自于人类的作品,因此它也有可能继承人类作品中包含的带有偏见的因素,并运用于与他人的对话之中,进而在无形中传播数据偏见。二、生成式人工智能场景下刑法对数据安全保护的错位困境为保护数据安全,规制数据使用行为,我国陆续出台了数据安全法网络安全法和个人信息保护法等专门法律规范。相比之下,刑事法律规范并未将数据安全法益作为单独的法
20、益进行针对性保护,而更倾向于透过数据直接保护其背后存在的具体法益。在生成式人工智能背景下,刑法对获取数据行为的过分控制与生成式人工智能的运行原理相悖。不仅如此,生成式人工智能是否能成为刑事责任主体也存在争议,导致当其超越算法和程序作出侵害数据安全行为时,其中的刑事责任分配亦不明确。(一)刑法对数据安全的规制现状现行刑法对数据安全主要采取两种保护模式:一种是在条文中将数据直接规定为犯罪对象,如非法获取计算机信息系统数据罪和破坏计算机信息系统罪等;另一种是如侵犯公民个人信息罪、侵犯商业秘密罪、泄露国家秘密罪等,将数据作为信息传递的媒介之一,从而得到刑法的间接保护。有观点将数据11 See Nich
21、olas Carlini,Privacy Considerations in Large Language Models,https:/ on 2023-3-7.12熊波:“深度伪造”的扩张化刑事治理风险及其限度,载安徽大学学报(哲学社会科学版)2 0 2 0 年第6 期,第10 6 页。13参见杨庆峰:数据偏见是否可以消除?,载自然辩证法研究2 0 19 年第8 期,第10 9 111页。14参见CPT-4:能读图解题讲冷笑话比上一代更准确安全但仍存在偏见性和“幻觉”,载新民晚报2 0 2 3年3月16 日,第4 版。15参见陈吉栋:人工智能法的理论体系与核心议题,载东方法学2 0 2 3年
22、第1期,第6 6 页。29理论研究犯罪研究2 0 2 3 年第2 期犯罪限于以数据为对象、侵害数据安全法益的非法获取、删除、修改、增加数据的行为。1 6)笔者认为,基于我国对数据安全保护尚不周延的现状,对数据犯罪的内涵认定不宜过于狭窄。应将上述两种保护模式与数据有关的犯罪均划人数据犯罪的范畴,以保护其背后承载的公民人身财产权利、社会秩序、公共安全等法益。从行为类型上看,刑法主要对5 类侵害数据的行为进行规制:窃取、收买或以其他方法非法获取行为,如非法获取计算机信息系统数据罪等;篡改(包含修改、删除和增加)、隐瞒、销毁行为,如破坏计算机信息系统罪等;编造、传播行为,如编造并传播证券、期货交易虚假
23、信息罪等;非法提供、泄露行为,如侵犯公民个人信息罪、泄露内幕信息罪等;利用行为,如内幕交易罪、利用未公开信息交易罪等。如此看来,刑事立法规制似乎涵盖了数据活动的所有阶段。但事实上,刑法所保护的数据范围相当狭窄。前端方面体现在对数据采集技术,如生物识别信息技术的研发和运用尚缺乏刑法规制;后端方面体现在对数据利用行为的刑法规制不足,其对象仅限于针对证券、期货交易有重大影响的内幕信息、未公开信息以及商业秘密等,这意味着刑法并不对利用其他类型信息的行为进行单独保护。可见,当前刑法治理的重心在于中端对数据的非法获取行为,1 7)而不在于前端的数据采集技术研发和运用行为或后端的数据滥用行为。(二)生成式人
24、工智能对现行刑法规范的冲击1.生成式人工智能发展需求与数据控制保护理念的天然矛盾如前所述,数据安全实质上分为数据控制安全与数据利用安全。显然,我国刑法重视对数据中端获取行为的规制,将数据主体对数据的占有视为一种排他的绝对权利,体现了对数据控制安全的保护。在人工智能时代,尤其是生成式人工智能场景下,数据的真正价值在于其流动性。当数据汇入模型架构之后,在某种程度上就实现了数据共享。ChatCPT等生成式人工智能是在这种数据共享的基础上对数据进一步加工,再将加工后的数据继续投人到与用户的交流中,实现自我修正。而刑法却拘泥于对数据的静态保护,过分强调数据主体在数据获取阶段的控制权,忽视了数据的动态流转
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生成 人工智能 背景 数据 安全 刑法 保护 困境 应对 ChatGPT 视角 展开
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。