生成式人工智能及其教育应用的基本争议和对策.pdf
《生成式人工智能及其教育应用的基本争议和对策.pdf》由会员分享,可在线阅读,更多相关《生成式人工智能及其教育应用的基本争议和对策.pdf(13页珍藏版)》请在咨信网上搜索。
1、生成式人工智能及其教育应用的基本争议和对策苗逢春1,2(1.北京师范大学互联网教育智能技术及应用国家工程实验室,北京1000875;2.联合国教科文组织总部,巴黎75007)摘要本文是对联合国教科文组织生成式人工智能教育与研究应用指南的系列解读第二篇,着重讨论生成式人工智能及其教育应用引发的基本争议。“基于工作过程”技术缺陷,生成式人工智能已引发加速数据贫穷、技术不透明导致服务辖区内治理缺失、未经许可搜集训练用数据、模型架构不可解释、基础模型不理解真实世界、生成的信息污染互联网、强势价值观投射、助长违法性深伪等多重争议。生成式人工智能会对平等、包容、学习主体能动性、价值观及语言文化多样性、知识
2、建构的多元性等教育核心价值产生直接而深远的冲击,而这些核心价值应被秉承为考证生成式人工智能教育适用性的逻辑基点。决策者和实践者应遵循“优先管制、确保包容、引导应用”的逻辑路径,强化全系统监管法规和执法能力,确保教育生成式人工智能生态系统安全可信、自主可控、本地适用,进而通过能力建设和实践指导等措施引导合理的教育应用实践。关键词生成式人工智能;内容加工;训练数据集来源;公平、包容及语言文化多样性中图分类号 G434文献标识码 A文章编号 10072179(2024)010004122022 年 11 月,美国开放人工智能研究中心(OpenAIArtificialIntelligenceResea
3、rchCenterINC,OpenAI)发布了第三代聊天生成式预训练转换模 型(Chat Generative Pre-trained Transformers,ChatGPT)ChatGPT-3,开启了生成式人工智能(GenerativeAI)从研发转向商用和民用的新历史时期。在 ChatGPT 发布近一年时间里,其引发的影响及管制反弹主要体现为四个方面。1)垄断与多元。OpenAI、谷歌公司和 Meta 公司的生成式人工智能平台形成了贯穿基础模型、网络基础设施和文图音视内容加工等领域的垂直垄断。同时,其他大型公司和开源大模型社群等发起了基础模型开源化、平台选择多元化、语言文化多样化的研发追
4、赶与生态布局抗衡。2)应用与替代。生成式人工智能在商业领域迅速推广,引发相关行业工作岗位快速自动化。3)争议与治理。生成式人工智能的安全和伦理威胁从理论忧患浮现为实际法律案例,形成坚信其积极变革潜力和忧虑其潜在人文威胁之间的对立,加速中国、美国、欧盟等国家和经济体的针对性立法。4)愿景与现实。迅速涌现的生成式人工智能正在颠覆和变革教育等社会服务领域,但与该技术对本土学生尤其是未成年人的教育适用性和实用性的理性研判之间存在明显断层。其中,社会各界对生成式人工智能可能引发的安全及伦理忧患众说纷纭、莫衷一是。联合国教科文组织2023 年 9 月发布的生成式人工智能教育与研究应用指南(简称指南)(Mi
5、ao,2023)首次在对该类技术的工作原理进行溯源的基础上,系统总结了八个有关生成式人工智能的基本争议,进而揭示了争议对生成式人工智能教育应用的根本影响。指收稿日期2023-11-16修回日期2023-11-17DOI 编码10.13966/ki.kfjyyj.2024.01.001作者简介 苗逢春,研究员,北京师范大学,联合国教科文组织总部部门主任,研究方向:人工智能与教育、数字学习政策、未来数字学校(f.miaounesco.org)。引用信息 苗逢春(2024).生成式人工智能及其教育应用的基本争议和对策J.开放教育研究,30(1):4-15.第30卷第1期开放教育研究Vol.30,No
6、.12024年2月OpenEducationResearchFeb.20244南针对性地提出应对这些基本争议的公共治理策略、生成式人工智能教育应用的政策和引导主体适用的人机互动应用的实践框架。本研究是对指南的第二篇解读,聚焦于系统总结和剖析生成式人工智能及其教育应用的基本争议,并针对这些争议的起因和责任主体提出治理对策和实践应用建议。本研究的相关解读基于三个相互关联的基本假设:第一,人工智能科技创新、人工智能的安全可信性、包容平等的社会应用不应成为三难悖论(trilemma),人类应追求三维同频共振;第二,生成式人工智能对全社会及教育平等与包容、学习主体能动性、价值观及语言文化多样性、知识建构
7、的多元性等教育核心价值的威胁最为直接和深入,这些核心价值应成为考证生成式人工智能教育适用性的逻辑起点;第三,生成式人工智能的教育应用应遵循“优先管制、确保包容、引导应用”的逻辑。一、争议的技术起因对生成式人工智能教育应用争议的讨论须以其工作原理、技术缺陷及其对社会的显性和潜在影响为依据。(一)生成式人工智能工作原理及其训练用数据来源和语言分布指南从人工智能对人类思维表征符号系统模拟的角度界定生成式人工智能:生成式人工智能是基于人类思维符号表征系统表达的提示工程(promptengineering)自动生成内容的人工智能技术。生成式人工智能技术对借助各类符号表征系统呈现的内容进行模式识别和内容生
8、产方面的性能日益强大,目前已能贯通文字、语音、声音、图像、视频、计算机编码等格式进行模式识别,并借助上述符合表征系统生成新内容。文本生成式人工智能使用人工神经网络技术的通用文本转换器,通常被称为“大语言模型”(LargeLanguageModel),是一种利用从互联网网页内容、社交媒体对话和其他在线媒体收集数据进行训练的内容生成深度学习模型。文本或语音生成式预训练转换模型,可以对训练用数据集的各类句法模式进行识别和学习,然后经过反复训练、测试和优化,获得根据提示、通过重复执行事先确认的模式生成内容或提供答案的能力。其关键技术环节包括:1)将提示指令分解为人工智能可处理的文本最小单位字节(tok
9、en)后,输入到生成式预训练转换器中;2)转换器根据从训练数据集中确认的语言模式,预测特定单词或短语在特定语境出现的概率,通过统计模型预测的拟合度组合为连贯反应的词语及其连缀方式(即句法),并借此预测后续最有可能使用的单词或短语;3)将预测产生的单词或短语转化为可阅读的文本(或可理解的声音)。可理解的文本或声音经过“护栏技术”(guardrails)过滤明显违法或不合标准的不良输出,并通过处理技术提高句法的拟人化程度和可理解性。上述过程不断循环重复,直到完成一个完整的响应。图像或音乐生成式人工智能多采用生成对抗网络(generativeadversarialnetworks,GANs)人工神经
10、网络技术,并可与变分自编码器(variationalauto-encoders)技术结合使用。也有图像生成式人工采取扩散模型(diffusionmodels)等无监督生成模型。例如,生成对抗网络模型由两个对抗器组成,即生成器(generator)和判别器(discriminator)。生成器针对提示识别图像或音乐要素组合模式并生成随机图像或音乐片段,判别器对比生成的图像或音乐与真实图像或音乐(或范例)之间的拟合度。生成器随后根据判别器的对比结果调整其使用的参数以便生成更优化的图像。通过千百次不断的迭代训练,生成器创作的图像或音乐越来越逼真。生成式预训练转换器的功能依赖于模型架构、训练方法和预训
11、练数据集的质量、数量和模型使用的参数。其中,参数是决定人工神经网络系统如何加工输入和产生输出的数值,它通过界定训练中的数据对模型的内容要素进行编码。参数的定义和数量决定预训练转换器的性能和应用表现。GPT-3 使用了约 1750 亿个参数,而 GPT-4 使用的参数据称达 1.8 万亿。从模型架构的成熟度、所用的参数规模、内容处理和生产能力、语言覆盖范围等方面考量,占全球垄断地位的大模型包括OpenAI 的 ChatGPT 系列产品、Meta公司的“羊驼”大语言模型(Alpaca)和Meta 大语言人工智能模型(简称 Llama 大模型)、谷歌公司“诗人”大语言模型(Bard,基于谷歌的 Pa
12、LM2 基础模型)和“双子座”多模态大模型(Gemini)。已有生成式人工苗逢春.生成式人工智能及其教育应用的基本争议和对策OER.2024,30(1)5智能模型的训练用数据集主要包括通过爬虫软件读取互联网网页信息、社交媒体对话信息、在线图书馆图书资料和互联网百科类平台的百科内容。以 ChatGPT-3 为例,其训练用文本数据(即语料)约 1TB 左右(即语料)约 1TB 左右(Thompson,2023),主要来源包括:自 2012 年以来持续通过“网络爬虫数据集”(commoncrawl)从互联网收集的数据,约占数据总量的 61.75%;通过“红迪”电子布告栏(Reddit)收集的点赞数超
13、过 3 个的社交媒体发帖和讨论数据,约占 18.86%;两个在线图书平台(LibraryGenesis 和 Smashwords)的在线图书,约占 15.9%;维基百科数据,约占 3.49%。目前垄断性生成式人工智能模型的训练用数据集以美国和欧洲国家的语言为主。在 ChatGPT-3 的训练数据集中,英语语料约占 92.65%,欧洲各国语言占比超过 5%,汉语语料占比不到 0.1%。Meta 公司开发的 Llama2 语 料 中,英 语 占 比 有 所 下 降 但 仍 占89.7%,其他占比排前 15 的语言几乎没有改变,汉语语料占比为 0.13%(Touvronetal.,2023)。预训练
14、用数据集和参数的几何级数增长要求超算能力同步加速。在超级计算支撑方面,从 2012 年到2019 年,用于生成式人工智能模型训练的算力的翻倍周期为 34 个月(StanfordUniversity,2019)。(二)生成式人工智能在内容处理范畴的集成性技术跃迁与潜在技术范畴瓶颈生成式人工智能在多种深度学习技术中的综合应用、模型架构的优化、所用参数以千亿级为基点的持续细化、训练用数据的跨平台动态挖掘与叠增、处理海量数据和参数所需计算能力的周期倍增等核心技术和支撑技术领域都取得了集成性的突破。这种集成性技术突破在技术和实践领域产生了“逃逸效应”(runawayeffect,又译为“失控效应”)。首
15、先,生成式人工智能的近期成果表现为人工智能技术在跨符号表征系统数据加工和呈现方面的突破,提升了人类挖掘技术能力,由此加速了人工智能芯片、超算技术、数据加工模型等全领域的技术研发。鉴于其基础性技术突破和影响,斯 坦 福 大 学 学者 2021 年 提 出 的“基 础 模 型”(foundationmodels)概念已被广泛接受(Bommasani,2021)。其次,生成式人工智能已引发网络浏览器和网络搜索引擎等数字基础设施的全面升级,成为最底层国家数据安全和个人数据隐私保护的核心控制节点,并将引发数字管制政策和数字安全设施的全面升级。再次,生成式人工智能为直接和间接以内容生产和内容综述为目的的经
16、济和社会领域提供了提高生产效率的基础工具,将引发大规模的生产方式变革。但生成式人工智能对教育等不以内容生产为目的的行业的效能提升和行业变革能力会有极大的局限性。从可知的技术路线分析发现,生成式人工智能采用的人工神经网络技术取得的成就皆属统计曲线拟合,它不同于人类结合时间、地点和因果关系等的推理智能(Pearl,etal.,2018)。如果生成式人工智能所代表的深度学习技术路线是对人类智能问题解决进行可计算性模拟的正确路径,那么其持续的迭代突破将会产生超越内容加工范畴的通用人工智能逃逸效应,即积蓄足够的技术势能后会全面赶超人类智能的奇点并进入通用人工智能,进入相对脱离人类控制的发展轨道。但据目前
17、可知的基础模型工作原理,生成式人工智能的底层技术似乎还停留在内容综述、借助符号表征系统的内容加工和格式转换范畴,尚未进入模拟人类理解力的技术路线,仍属“范畴性错误”(acategorymistake)(Bishop,2021)。目前取得的技术突破是否属于范畴错误瓶颈前的技术性能跃迁有待观察。二、生成式人工智能的基本争议生成式人工智能的基本争议本质上属于人机互动引发的人文忧患,本研究从人机互动的技术和人文两个维度解析。其中,技术维度是人工智能系统生命周期的主要环节,主要包含以下向度:数据的产生与保存、数据及数据设备的访问权与控制权、基于数据与算法的预测与决策影响的外显行为、智能人机界面及智能设备
18、等实体人工智能。人文维度即人类借助技术以个体存在、社会交往、国家治理以及人类与生态系统互动等的多层次人文活动,主要包括以下彼此关联的向度:人类个体、人与人互动的群体、以主权国家形式存在的人与人关系体、人与环境及生态系统的互动(苗逢春,2022)。在大面积推广使用该技术前,使用者有必要从其训练数据采集、数据使用、基础技术架构、基于模式识别的内容输出等方面加以分析,研判对苗逢春.生成式人工智能及其教育应用的基本争议和对策OER.2024,30(1)6个体、社会和国家的现实威胁和潜在影响。(一)数据生产力挖掘争议:数据贫穷和数字贫穷恶化中共中央、国务院(2022)颁布的关于构建数据基础制度更好发挥数
19、据要素作用的意见是人类进入数据财产和数据产权保护时代的法律标志。从此视域出发,生成式人工智能对个体和商业数据的免费采集使用并借助基于数据训练的技术产品进行商业谋利,会将原本潜藏的数据生产要素跨国跨行业价值挖掘争议推向前台。访问和应用高质量数据、随时生产高质量在线数据和转化数据的能力已成为人工智能时代支撑国家经济发展和个体获得数字发展机会的基本条件。故而,缺乏数据访问机会、不具备数据挖掘所需的技术能力和超算能力的国家或不具备数据应用支付能力的个体将处于“数据贫穷”(datapoverty)(Marwala,2023)的境地。生成式人工智能提供商基于免费数据训练基础模型和借助训练成熟的模型提供有偿
20、服务的数据剥削生产方式会加剧数据贫穷的恶化。生成式人工智能对数据生产要素的挖掘依赖于三个必要条件:人工智能架构设计和训练方法的迭代创新、海量数据集和超级计算能力。目前全球仅美国、中国和欧盟或极少数超大型数字技术公司同时具备参与基础模型竞争所需的必备条件,数据贫穷国家在生成式人工智能领域的差距迅速拉大并被排斥在基础模型核心研发圈外。生成式人工智能的跨领域普及加快了人工智能领先国家和公司数据生成和技术迭代的速度,成为加速数字鸿沟恶性循环的底层技术成因。逆转数据贫穷恶性循环的当务之急,是从国家层面解析和补足转化数据要素生产所需的各层次短板,基于下述“数据贫穷成因分类目录”解构和配给转化数据生产所需的
21、各类生产要素:大数据生产所需的互联网普及率、全民数字素养普及率、数据流量成本可承受性、人工智能创新人才储备和创新激发机制、人工智能芯片及超算能力的可及性和性能、借助本地或国际可信数据训练本地模型的能力等。针对该争议的延伸问题是:如果跨国生成式人工智能提供商从低收入国家搜集使用的数据达到一定规模,是否应通过征收数据使用税等国际立法措施平衡数据生产要素剩余价值的分配机制?在具体立法方面,如何界定和追踪数据要素的使用量、如何计算数据生产剩余价值及其税收标准、如何在鼓励技术创新和保护数据贫穷人口基本利益方面取得平衡等问题,都将是国际数据要素治理的前沿难题。(二)服务辖区内治理争议:生成式人工智能服务辖
22、区内治理失控生成式人工智能系统的跨境服务应接受其服务覆盖区域当地政府治理机构的管制,但生成式人工智能基于技术不透明的跨境服务已引发治理领域的多重争议。首先,垄断生成式人工智能系统提供商拒绝向独立学术机构提供基本的透明性资料并接受基本学术评估(Bommasani,2023)。其次,生成式人工智能的基础性技术多受以美国为主的提供商所在国知识产权保护而不向其服务覆盖的国家开放,导致已有用户所在国家在管制技术系统和应用实践安全性方面面临极大挑战(Lin,2023)。第三,尽管有专家呼吁暂缓生成式人工智能的研发并谋求与公共治理机制同频共振,但资本驱动的人工智能研发迭代节奏远超各国监管法规的起草速度,对各
23、国治理机构应对相关法律和伦理忧患提出了技术不对等的巨大挑战。各国生成式人工智能的治理呈现梯度性制度缺失和滞后:1)通用数据隐私保护法尚未形成覆盖全球的完整图谱。截至 2023 年 7 月,全球只有 137个国家制定并颁布数据隐私保护的法律框架,近三分之一的国家无基本数据隐私保护法(UNCTAD,2023)。2)整体性国家人工智能战略缺失。指南颁布前,约 67 个国家制定了国家人工智能战略规划。指南颁布后,卢旺达和多米尼加共和国发布各自的人工智能战略。3)国家人工智能伦理治理框架制定滞后。调研发现,截至 2023 年 7 月,全球仅约 40 个国家制定了针对人工智能伦理治理的相关政策。4)应对生
24、成式人工智能的立法无力。调研发现,截至 2023 年 7 月,针对生成式人工智能技术合成内容作品能否受知识产权保护进行论证并提出明确管理意见的只有中国、美国和欧盟三个国家或经济体。在指南发布前,只有中国制定并发布了生成式人工智能暂行管理办法。此后,美国政府 2023 年 10 月底发布了关于安全有保障和可信地开发与使用人工智能的行政命令苗逢春.生成式人工智能及其教育应用的基本争议和对策OER.2024,30(1)7(TheWhiteHouse,2023)。欧洲议会 2023 年 7 月启动人工智能法案的起草和谈判程序,并于 2023年 12月通过全球最具有法律绑定效力的人工智能管制法律(Eur
25、opeanParliament,2023)。(三)预训练数据版权争议:未经许可使用内容训练模型生成式人工智能在搜集和使用训练用数据集方面存在未经许可使用个体或机构数据以及版权保护内容的巨大争议。如前所述,生成式人工智能模型主要基于数据爬虫软件从互联网爬取的文本、声音、计算机代码、图像等数据集训练。已有垄断性大模型在爬取数据时大多未事先取得个体和机构的许可,易引发广泛且深刻的知识产权争议和法律纠纷。这种行为已被控违反了包括欧盟公用数据保护条例(EuropeanUnion,2016)在内的数据保护法,已进入法律诉讼的案例集中在新闻媒体行业。2023 年 10 月底,代表 2200 多个新闻出版个体
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生成 人工智能 及其 教育 应用 基本 争议 对策
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。