2023年生成式人工智能道德&合规风险白皮书.pdf
《2023年生成式人工智能道德&合规风险白皮书.pdf》由会员分享,可在线阅读,更多相关《2023年生成式人工智能道德&合规风险白皮书.pdf(54页珍藏版)》请在咨信网上搜索。
1、2023年11月道德&合规风险白皮书如何理解和应对生成式人工智能 引发的数据合规风险02 生成式人工智能道德&合规风险白皮书引言4生成式人工智能概述5生成式人工智能相关法规浅析111.2 生成式人工智能的研究趋势62.2 中国本土法律191 2 1.3 生成式人工智能应用领域91.1 生成式人工智能的发展历程52.1 外国法111.2.1 大模型对齐和幻觉2.1.1 美国2.2.1 生成式人工智能的伦理道德问题讨论2.2.2 我国生成式人工智能的法律基线和合规要点19241.3.1 市场规模总览1.2.2 提示工程和检索增强2.1.2 英国1.3.2 多模态应用,赋能生产力:从数据类型划分1.
2、2.3 通用人工智能和代理2.1.3 欧盟1.3.3 聚焦个性化场景,创造业务价值:从行业划分1.2.4 快速起步使用生成式人工智能2.1.4 其他国家生成式人工智能法律发展简介2.1.5 总结6117129714981618102.2.3 总结2703 生成式人工智能道德&合规风险白皮书生成式人工智能的数据合规浅析凯捷提供的服务28503 4 3.1 生成式人工智能的数据合规要点3.2 生成式人工智能的数据合规技术手段28363.1.1 数据隐私保护原则3.2.1 网络安全3.2.3 生成式人工智能引发的伦理道德风险和应对措施3.1.2 数据在生成式人工智能中的角色3.2.2 数据全生命周期
3、合规3.2.4 生成式人工智能的全生命周期合规3.2.5 生成式人工智能安全评估和算法管理3.1.3 数据采集与预处理的合规性3.1.4 模型训练与验证的合规性措施3.1.5 数据评估与调整的合规性3.1.6 输出结果的合规性2837452938464831323335引用材料关于作者52545 6 已经成为科技和商业界的前沿领域,为我们带来了前所未有的创新和机会。成式智能技术的快速发展不仅提了产,还在医疗、教育、娱乐、融和众多其他领域中掀起了场命。成式智能的解决案预计在 2-5年能达到全球认可的成熟度,率先采成式智能技术的企业将从重塑的业务模式和流程中获益最多。96%的企业将成式AI列为层级
4、规划向。多数受访管(78%)认为成式AI可以使产品和服务设计下更效。引言 04 生成式人工智能道德&合规风险白皮书 凯捷咨询认为成式智能的量将全重塑未来商业架构的DNA,例如成式智能将改变企业和客户的沟通交流模式、使数据和保障隐私的式以及向潜在客户营销的式,可以将作流程由我服务(Self-serving)转变为动成(Self-generating),并且利互联的情境化数据增强组织能等。凯捷咨询始终关注成式智能的商业应落地,专注于提供定制化解决案。凯捷研究院(CRI)发布凯捷成式智能主题系列报告:解锁成式智能的价值。为了解企业管理层对成式智能的看法以及应情况,我们对全球来13个国家的1000家企
5、业进了调研。报告显示,在全球受访的企业中,尽管成式智能在不同业和领域中都有应,但企业仍临些障碍。预训练模型的底层数据缺乏明确性、可能存在偏以及缺乏包容性等问题,会给企业带来法律和声誉险,甚定义的内部模型也可能出现“幻觉”和数据泄露的问题。凯捷咨询坚信应当负责任地使成式智能,遵守相关规范约束。本书旨在提供有关成式智能的全概述,以帮助组织了解并遵守相关合规要求。我们将讨论成式智能的定义、应领域、法律法规、伦理原则和最佳实践,以帮助您在成式智能领域的作中确保合法性、公平性和透明性。论您是技术专家、法务从业者还是决策者,这份书都将为您提供宝贵的参考,助您在成式智能的世界中保持合规并取得成功。在当今数字
6、时代,成式智能(GenAI)在此小节,我们将通过时间线图引导我们回顾生成式人工智能技术的关键事件,帮助理解生成式人工智能技术的演化,为合规和伦理讨论提供基础。生成式人工智能概述1 1.1 生成式人工智能的发展历程05 生成式人工智能道德&合规风险白皮书(资料来源:公开资料整理)1970s201220141950195719611980s2000s201720182023 阿兰图灵(Alan Turing)在论文“Computing Machinery and Intelligence”中提出了知名的图灵测试。在图灵测试中,人类需要判别对某些问题的答案由人类或机器生成;当人类无法判别机器和人类在
7、这些回答上的区别时,可以认定机器拥有了人工智能。弗兰克罗森布拉特(Frank Rosenblatt)提出了感知器,旨在对人类的神经元进行模拟,通过改变节点权重参数来模仿人类大脑学习的机制,为后续神经网络的发展奠定了基础。约瑟夫维森鲍姆(Joseph Weizenbaum)创造了第一个对话机器人 ELIZA。作为最早的一批生成式人工智能应用,它能基于规则将输入词语匹配到预设的对话脚本,为用户生成模仿心理治疗师的回复。由于缺乏算力和数据导致的 AI 研究缓慢进展,以及对 AI 能力不切实际的预期,第一次AI寒冬来临,表现为科研经费和课题的减少。例如 Neocognitron、RNN 和后向传播机制
8、的研究为后续的卷积神经网络与隐藏层神经元的训练机制奠定了基础。2014年由Ian Goodfellow提出的对抗生成网络(GAN,Generative Adversarial Network),其中包含一个生成网络和判别网络。经过上千轮的大量训练和对抗,生成网络最终能够产生判别网络无法分辨的高分辨率的合成图像。其它同时期的方法,例如VAE和扩散模型等,也极大提升了图像生成的拟真度和精度,并将生成式AI的应用范围扩大到语音合成、视频处理、无人驾驶场景和交互问答等领域。随着互联网时代的到来和大量数据的产生,学者们利用更强大的硬件设备提出了基于统计学的传统机器学习方法(决策树、SVM和贝叶斯网络等)
9、,储存并处理这些海量数据,并开始初步探索其商用价值:例如手写字体识别、基于用户特征的贷款决策、分辨钓鱼邮件等。2010年代,硬件技术的飞速发展和大数据的普及推动了深度学习方法的发展。2012年 ImageNet 项目带来了 CNN 和图像识别领域的突破性进展;而2015年,DeepMind 的强化学习模型 AlphaGo 击败了围棋世界冠军李世石,引起了全世界对人工智能领域的再度关注。Google Brain著名的论文Attention is all you need中引入了自注意力机制(self-attention)用于加速序列数据的特征提取,以及包含编码器和解码器的Transformer架
10、构,在序列到序列(seq-2-seq)的文字理解和生成任务达成了全新的能力标杆。其影响力跨越文字(BERT,T5,RoBERTa)、图像(ViT,ImageGPT)和音频(Wav2Vec2,HuBERT,Whisper)领域。OpenAI在2018年发布了基于大量预料预训练的生成式模型(110M参数),并在2019年发布了GPT-2(1.5B参数),2020年发布了GPT-3(175B参数)和2022年的ChatGPT和GPT-3.5 Turbo,最后在2023年发布了目前最强大的大语言模型GPT-4。GPT系列模型使用了数十TB的文本数据,在超过10000块A100高性能显卡进行训练,并在训
11、练过程中引入了人在回路强化学习(Reinforcement Learning from Human Feedback),开启了生成式人工智能的新时期。-在生成式人工智能的研究中,最关键的问题之一是如何使通用人工智能与人类的价值和意图保持一致,这被称为对齐问题。大语言模型的本质是数学模型,而不是知识模型,即神经网络根据用户提示和上下文计算每个词汇符号的概率分布,逐步生成句子,但其生成的文本有时与用户的意图不符甚至完全相反。1.2 生成式人工智能的研究趋势1.2.1 大模型对齐和幻觉 将其描述为“我们如何设计一个能满足人类期望来行动的代理人”。然而,这个问题中缺少对于代理人的具体描述和定义。因此,
12、在Sam Bowman后续的定义中,对齐问题变为了“如果人工智能系统拥有某些重要的能力,人类如何利用人工智能来可靠可信地完成目标”。而缺乏对人类期望定义,以及对模型对齐这一目标的追求将人们引入了提示工程这一新兴研究领域。一个常见的现象是,在用户刻意或无意的某些特定提示词下,大语言模型会在回答中参杂毫无根据或胡编乱造的“假事实”。这类毫无根据的错误回答可能会引导用户产生错误认知,甚至在极端情况下表现出对特定群体的偏见或敌意。这些幻觉现象的来源通常是模型训练数据中未被验证或恶意生成的语料、训练过程中未被准确定义的目标函数、或特定具有误导性的提示词输入。当对问题于2021年提出时,Kenton等 0
13、6 生成式人工智能道德&合规风险白皮书1.2.2 提示工程和检索增强1.2.3 通用人工智能和代理 通用人工智能(Artificial General Intelligence,AGI)是人工智能领域科研的神圣目标,旨在让人工智能系统能够自主学习并完成复杂的任务。们开始研究如何使用自主工作或半监督的代理(Agent)来完成复杂的任务。代理的核心组件在于为模型接入例如计算器、API和搜索引擎的函数工具,使其拥有与世界交互的能力,通过多轮思维链和结果传递,帮助用户完成复杂的代理任务。以ToolLLM项目为例,研究人员训练了一个能够跨越49个领域的16000多个现实世界RESTful API的代理模
14、型,该代理模型基于Llama基座模型,被称为ToolLLaMA,能够熟练掌握泛化的复杂任务分解和未见API调用的能力。基于大语言模型对自然语言的理解能力,人 在与大语言模型同时兴起的提示工程研究领域中,科研人员致力于设计和优化对大语言模型的提示词以理解大语言模型的能力边界,并提升大语言模型在推理任务和其它复杂场景任务中的表现。最具代表性的提示工程方法包括少样本提示(Few-shot Prompting)、自我一致性(Self-consistency)、思维链(Chain of Thoughts)、最少到最多提示(Least-to-most Prompting)、和检索增强生成(Retrieva
15、l-Augmented Generation)等。在思维链方法中,提示模型在生成回答时还输出其思考的过程,这有助于模型在回答中包含有逻辑的思考步骤,从而生成更易于理解和准确的答案。自我一致性的方法更为直观,模型会根据简单提示生成多个基于思维链方法的答案,然后选择最一致的答案作为结果。检索增强生成是当前采用最广泛的知识增强方法之一。它通过匹配结构化和非结构化数据中的知识片段,把最符合当前提示的知识片段注入到提示词中,辅助大语言模型生成有根据的回答。思维链和最少到最多提示等提示方法在某些语言模型指标上,甚至能超过经过特别精细人工标注数据训练的模型,通过低成本的提示词优化,达到了出色的模型性能。检索
16、增强生成方法更是避免了对模型进行昂贵的微调和重新训练以获得有关特定领域的知识,从而显著优化了模型的幻觉现象,证明了提示工程的必要性和可用性。07 生成式人工智能道德&合规风险白皮书1.2.4 快速起步使用生成式人工智能能被透明化管理和运维的服务器上。HuggingFace是目前最大的数据科学开源社区;包括微软、Meta AI等科技公司和Stability AI、BigScience、智谱AI等科研机构的开源模型参数都能在该社区上找到,而无数的开发者正在使用他们的私有数据对这些基础模型微调,并将掌握了不同垂直领域知识和能力的模型重新贡献到社区中。最知名的开源中文大语言模型之一,ChatGLM是由
17、清华大学基于GLM(General Language Model)训练的项目;其6B参数的版本经过约1TB的中英双语数据训练,能够完成文案写作、信息抽取、角色扮演、评论比较等中文语言任务,并且INT4量化版本的模型可以在大部分消费级显卡上运行甚至微调。因此,对于有私有化模型需求的企业和商用场景,这类开源的大语言模型成为了首选。克服了高性能计算的成本,并在服务器上配置环境和部署模型后,企业可以完全掌握大模型运行中消耗、运算和产生的数据,确保敏感数据的隐私和安全。08 生成式人工智能道德&合规风险白皮书 根据凯捷研究院的调查,在生成式人工智能快速普及的当下,全球超过95%的企业领导层正在探索利用这
18、个强大的工具提升生产力并创造更多商业价值的可能性。现在最便捷的大模型应用是基于非开源的大语言模型服务。例如OpenAI、PaLM、文心一言等大语言模型的文字生成能力需要通过官方提供的API接口进行访问,让开发者快速将大语言模型能力嵌入自己的应用中,避免了训练和部署模型涉及的大量储存和算力成本,并能通过服务提供商假设的高性能计算设备,快速获得强大且持续更新的文字理解和生成能力。然而大语言模型服务在费用、访问频次、隐私考虑上的限制。当开发者将大语言模型服务嵌入至高访问量的应用中时,基于文字token数量收费的潜在高成本是无法忽视的一环。而在例如金融、保险或医疗行业中涉及敏感用户数据的应用场景中,将
19、用户数据上传至第三方的API请求服务也面临着无数的数据合规考虑。因此,大部分企业在涉及大语言模型应用的时候,会考虑将开源的大语言模型私有化部署到09 生成式人工智能道德&合规风险白皮书1.3 生成式人工智能应用领域 1.3.1 市场规模总览1.3.2 多模态应用,赋能生产力:从数据类型划分 目前生成式人工智能产业正处于培育摸索期,大部分技术还未在实际生产过程中大规模使用,商业应用场景边界和商业模式还有待探索,用户体验仍需优化。随着大模型技术发展、垂类数据的积累、用户需求的识别细化和产业生态的完善,生成式人工智能的应用层走向垂直化和业务场景趋向多样化,生成式人工智能市场有望进入万亿级规模。按照生
20、成数据类型或者模态划分,生成式人工智能的应用涵盖了文字、图像和音频等领域。生成式人工智能技术可以用于参与数字内容创作,突破传统内容创作的数量约束,有着更为流畅和高效的人机交互模式,减少了重复性的任务负担,实现生产力解放。中国生成式人工智能产业市场规模预测(来源:量子位-中国AIGC产业全景报告暨AIGC-P7)(数据来源:公开资料整理)1.3.3 聚焦个性化场景,创造业务价值:从行业划分10 生成式人工智能道德&合规风险白皮书 随着人工智能算法的迭代、算力的进步和数据的增加驱动生成式人工智能的技术变革,生成式人工智能模型的大范围连续对话能力、生成内容质量、语言理解能力和逻辑推理能力上都得到大幅
21、提升。相比通用大模型,垂直大模型深耕特定行业和应用场景如医疗行业和金融行业,凭借其专业化和精准化的优势,更容易解决特定领域的问题,创造业务价值,实现商业变现。垂直大模型主要通过“预训练大模型+微调”的开发方式,只需针对具体任务对大模型进行二次开发,降低了企业应用的开发门槛。(数据来源:公开资料整理)11 生成式人工智能道德&合规风险白皮书 2022年10月4日,美国白宫科技政策办公室发布了自动化系统的开发、使用和部署蓝图,又称生成式人工智能权利法案蓝图。不同于欧盟的生成式人工智能法案草案,该蓝图并不具有法律约束力,而是列出了五项原则,旨在最大限度地减少生成式人工智能系统的潜在危害。另外,美国国
22、家标准与技术研究院(NIST)于 另一方面,美国一些州已颁布立法,规范了在各类背景下使用生成式人工智能的情况,包括:美国关于生成式人工智能立法现状 随着我们对生成式人工智能技术进行了全面概述,现在我们将转向更深入的话题,探讨与生成式人工智能合规密切相关的法规问题。各国积极制定相关法规,目的是更好地管理生成式人工智能的使用,确保其对社会和个体产生积极、合法的影响,并且符合伦理要求。通过这一深入的法规解析,我们将更全面地了解如何在不断演变的生成式人工智能领域中维护合规性,构建可信的人工智能系统。生成式人工智能相关法规浅析2 2.1 外国法2.1.1 美国阿拉巴马州规定了使用面部识别技术(FRT)匹
23、配结果来确定刑事调查或逮捕的潜在原因。蒙大拿州限制了执法部门在特定情况下使用FRT,并禁止持续的面部监控。科罗拉多州限制了州和地方机构在没有意向通知、问责报告和对产生法律效力的决定进行有意义的人工审查的情况下使用面部识别服务(FRS)。爱达荷州已制定规定,对审前风险评估算法的使用进行了约束,要求提高透明度,并取消了审前风险评估工具的商业机密保护,以确保相关信息不受保密限制。路易斯安那州和德克萨斯州已宣布,使用深度伪造技术来模仿未成年人是非法的。康涅狄格州的法律要求州机构对所有使用生成式人工智能的系统进行年度审查和持续评估,以确保不存在非法歧视或差别影响的情况。2022年8月18日发布了生成式人
24、工智能风险管理框架的第二稿,目前处于征求意见阶段。该框架的初版可以追溯到2022年3月,并以2021年12月的概念文件为基础。生成式人工智能风险管理框架旨在帮助公司评估和管理与开发或部署生成式人工智能系统相关的风险。12 生成式人工智能道德&合规风险白皮书 2021年10月,美国平等就业机会委员会启动了一项倡议,以确保在招聘和其他就业决策中使用生成式人工智能和其他技术驱动工具符合联邦反歧视法。人工智能导致歧视性结果的能力,特别是以不明显或不易识别的方式导致的歧视性结果,以及相关的已知和未知后果,已导致全球各地采取措施,实施更严格的监督,以防止人工智能在就业中被滥用。如果算法识别出申请人的身体残
25、疾、精神健康或其他不明显的临床诊断,则可能触发美国残疾人法。例如,雇主对显示震颤的数据的审查可被视为与残疾有关的调查,因为震颤可能显示出某些神经系统疾病,如脑瘫或中风。与此同时,一些专家学者把重点放在创新和前瞻性的非立法建议上。例如,一些人认为,企业应该借鉴金融领域企业十多年来成功实施的模型风险管理框架。该框架的支持者认为,公司和开发人员可以有效地管理与生成式人工智能相关的风险,通过使用从金融行业吸取的经验教训,并经过测试和时间的既定流程。尽管法律和监管领域仍处于起步阶段,许多科研组织和顶尖的科技企业已经开始了自我监管,以促进负责任的生成式人工智能开发和部署,并帮助防止生成式人工智能工具提供可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 生成 人工智能 道德 合规 风险 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。