语言智能视角下的日本人机对...言学知识的融合与应用为核心_毋育新.pdf
《语言智能视角下的日本人机对...言学知识的融合与应用为核心_毋育新.pdf》由会员分享,可在线阅读,更多相关《语言智能视角下的日本人机对...言学知识的融合与应用为核心_毋育新.pdf(12页珍藏版)》请在咨信网上搜索。
1、引言近年来,智能家居、智能导航系统等活用人工智能技术的产品在日常生活中日益增多。这些智能产品因其突出的便利性与高效性而广受消费者青睐,也为业界带来了巨大的经济效益。起源于1956 年达特茅斯会议的“人工智能(ArtificialIntelligence,AI)”在沉浮数十年以后,再次成为学术界的热门话题。达特茅斯会议发起人之一明斯基将人工智能定义为“是使机器做那些人需要通过智能来做的事情”(李德毅,2018:2)。换言之,人工智能主要是利用计算机或由计算机控制的机器,模拟、延伸和扩展人类的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术和应用系统,其核心技术以机器学习(Mach
2、ineLearning,ML)为主。机器学习是从数据中学习规则性、判断标准,继而依据这些规则和标准预测、判断未知数据的人工智能技术,其包含深度学习(Deep Learning,DL)等技术。当前,应用深度学习技术取得重大进展的领域有图像识别、语音识别、预测和自然语言处理等。上文提到的智能导航系统以自然语言处理为依托,属于语言智能(Language Intelligence)的范畴。语言智能是语言信息的智能化,指运用计算机信息技术模仿人类的智能来分析和处理人类语言的过程(周建设等,2017)。语言智能是人工智能领域的关键核心技术之一(周建设,2020;梁晓波、武啸剑,2021),其研究涉及自然语
3、言(Natural Language),即人们日常使用的语言,与语言学密切相关。人工智能如何影响语言学研究,语言学研究又如何促进人工智能朝纵深发展,日渐成为学者们关注的焦点。本文拟从人工智能的核心语言智能入手,论述语言智能与自然语言处理的关系,介绍日本政府颁布的相关语言智能政策,梳理自然语言处理的典型应用人机对话系统及其在日本的研发现状,以期为我国的日语研究及人机对话系统研究提供咨鉴。语言智能视角下的日本人机对话系统研究以语言学知识的融合与应用为核心西安外国语大学 日本文化经济学院毋育新西北师范大学 外国语学院李瑶西安外国语大学 商学院于富喜摘要语言智能是人工智能的关键核心技术之一,人机对话系
4、统是语言智能的典型应用。本文论述了语言智能与自然语言处理紧密相连的关系,介绍了日本语言智能政策中涉足自然语言处理的内容,梳理了日本学界近20年来的人机对话系统研究成果,探讨了日语与人机对话系统的适配性问题。文章总结出日本语言智能研究存在未平衡好应用性研究与展望性研究的关系、未解决好日语与人机对话系统的适配性问题、未注意到不同人群的语言使用特征等问题。关键词人工智能语言智能人机对话系统语用礼貌NIHONGO NOGAKUSHU TO KENKYU语 言 研 究2023年 第1期 总224号84DOI:10.13508/ki.jsr.2023.01.014语 言 研 究2023年 第1期 总224
5、号1语言智能与自然语言处理语言智能基于人脑生理属性、言语认知路径和语义生成规律,利用大数据与人工智能技术对语言信息进行标注、抽取、加工、存储和特征分析,构拟人机语义同构关系,让机器实施类人言语行为(周建设,2020),其离不开计算机对自然语言的处理。自然语言处理(Natural Language Processing,NLP)是利用计算机技术来分析、理解和处理自然语言的技术。它是连接机器与人类沟通的桥梁,旨在实现人机间良好的交流。自然语言处理分为自然语言理解(Natural Language Understanding,NLU)和自然语言生成(NaturalLanguageGeneration
6、,NLG)。前者指机器应具备理解自然语言文本含义的能力,但由于自然语言存在多样性、歧义性、鲁棒性(Robustness)和依赖语境等难点,故NLU至今无法达到人类的语言理解水平;后者则要求机器能以自然语言文本来表达给定的意图、思想等,以跨越人类和机器之间的沟通鸿沟,其包括内容确定、文本结构、句子聚合、语法化、参考表达式生成和语言实现6个步骤。自然语言处理技术的典型应用有情感分析、语音识别、机器翻译和聊天机器人等。1迄今为止,自然语言处理经过了以建立聊天和机器翻译系统等为代表的早期自然语言处理(二十世纪六十至八十年代)、以机器学习(ML)为代表的统计自然语言处理(二十世纪九十年代开始)、以深度学
7、习(DL)为代表的神经网络自然语言处理(2008 年之后)三个阶段(李德毅,2018:166-172)。正如前文所述,语言智能是人工智能领域的关键核心技术之一,而自然语言处理技术在语言智能中占据着不可替代的地位,其在社会生活中越来越扮演着举足轻重的角色。这一点从我国政府颁布的一系列政策性文件也能窥探其重要地位。2017年,国务院印发的 新一代人工智能发展规划 对自然语言处理技术的任务进行了详细论述,即“重点突破自然语言的语法逻辑、字符概念表征和深度语义分析的核心技术,推进人类与机器的有效沟通和自由交互,实现多风格多语言多领域的自然语言智能理解和自动生成”。2020年,国家标准化管理委员会、中央
8、网信办、国家发展改革委、科技部、工业和信息化部五部门联合印发的国家新一代人工智能标准体系建设指南 中指出,关键领域技术(此处着重号为笔者所加)包括“A自然语言处理”“B智能语音”“C计算机视觉”“D生物特征识别”“E虚拟现实/增强现实”“F人机交互”等内容。其中“A自然语言处理”“B智能语音”“F人机交互”与自然语言处理技术密不可分。2日本语言智能政策中的自然语言处理日本是世界上人工智能技术发展水平较高的国家之一(康乐、姚凯博,2022:38)。在2016年日本政府公布的第5个科技发展五年规划第5期科学技術基本計画(20162020)中,就提出以建设“超智能化社会(超社会)”为目标的人工智能战
9、略布局。本节着重介绍2016年后日本政府颁布的一系列政策性文件中有关语言智能的内容。2017年,日本政府公布了 新一代人工智能社会实施战略(次世代人工知能社会実装戦略)审议咨询文件,介绍了自然语言处理技术和脑信息通信技术的社会运用现状、相关课题以及发展方向。重点论述自然语言处理技术的内容包括:(1)聚焦医疗、抗灾、(人机)对话、翻译等民生相关领域的社会现状,强调开发用于解决社会课题、为社会做贡献的自然语言处理应用程序的迫切性;(2)提倡使用自然语言处理技术,在医疗领域开发基于问诊内容的诊断辅助系统;在抗灾领域实现基于新信息传递手段的顺畅信息联动,通过构建风险检测引擎确保居民安全;在对话系统领域
10、,开发车载对话智能体,开发基于对话智能体的业务支持、技能提升支持,实现人与对话智能体的有效协作,实现更智能的日常生活辅助智能体的广泛应用;(3)提出了今后自然语言处理技术面向社会实用化时需要解决的课题,如在服务型应用软件中需对不均衡数据采取应对措施,要活用会话数85语 言 研 究2023年 第1期 总224号据,要提升支持服务型应用软件的基础技术,并解决对话系统、机器翻译等领域的相关问题。2018年,日本政府正式将人工智能列入国家综合创新战略(丁立江,2022:10)。2019年,日本政府公布了 AI战略2019(专家提案):人类生活、产业、地域、政府的全面智能化(AI戦略2019(有識者提案
11、)人産業地域政府全AI),附件中总结的“今后的研究开发重点项目”包括九项内容。其中第一项“可与人类合作的AI(人協調AI)”涉及的四项具体内容即分析并理解人类的决策过程、AI的人机界面、人类与AI的交流、与人类协同发展的AI,其研发目标均涉及自然语言处理技术。第七项“AI促进融合技术(AI for Inclusion Technology)”明确提到的“语言处理技术基础的开发与实操”要求多语言处理技术应实现包括日语、英语和汉语在内的数十种语言的理解与翻译、口语与书面语的有效交流以及知识获取等目标。2021年6月,日本政府又颁布了 AI战略2021:人类生活、产业、地域、政府的全面智能化(AI戦
12、略2021人産業地域政府全AI)。不同于2019年的简要概述,新文件“核心基础研究开发”部分细化了今后的研发重点,将其分为“AI核心-AI的基础理论和技术(AI Core-Basic Theoriesand Technologies of AI)”“AI核心-AI的设备和产品(AI Core-Device and Architecture for AI)”“AI核心-可信赖的AI(AI Core-Trusted Quality AI)”“AI核心-AI的体系构成(AI Core-System Componentsof AI)”四个板块。其中,第一板块就详述了“革新性自然语言处理技术、语音处理技
13、术的研究开发”。具体而言,革新性自然语言处理技术的研究开发包括从大量文本中抽出句子之间存在的因果关系等知识获取技术,实用性语篇处理技术,基于海量数据做出解答的提问应答、假设生成技术,考虑说话者深层动机及意图的对话数据驱动建模;革新性语音识别与合成技术包括从混合语音/非语音、多位说话者或多种语言的音频中自动转写语音内容的技术,可将正确信息作为无压力的自然语音信息进行输出的语音合成技术,参照现实交际中不可或缺的常识、语境、非语音等信息,开发在聊天、日常会话层面的话语中也能正确识别语音的技术(笔者译)。第四板块中“4-3人类共生型AI(人間共生型AI)”包含的实用性语音对话技术与人机交互技术、连接人
14、类与机器的远程基础技术、与人类协同发展的AI、可打破语言障碍进行翻译的AI和通用多语言自动翻译及同声传译技术等均涉及自然语言处理技术,较 AI战略2019中的“语言处理技术基础的开发与实操”,其表述更为详实具体。2022年4月,日本政府进一步修订了该文件,在新文件 AI 战略 2022(AI 戦略2022)中明确提到,NICT(日本信息通讯研究机构)的目标是开发以自然语言处理为基底的对话技术、多语言翻译与语音处理技术、构建并应用以实现无障碍交际为目标的脑认知模型,同时要求这些技术在世界范围内达到领先水平。由上述文件可以看出,日本政府紧跟时代发展,逐步细化了语言智能中自然语言处理领域的研究要点与
15、研究目标,这一举措不但为人工智能领域的技术专家指明了研发的方向,也为语言学家重新审视人工智能时代背景下的语言信息提供了新视角。3自然语言处理的典型应用人机对话系统以智能体(Intelligent Agent)为代表的人机对话系统(Human-machine Dialogue System)是自然语言处理技术的典型应用,其开发、应用是目前人工智能领域的研究热点之一。所谓人机对话系统,就是“模仿人际间对话方式,与用户(User)进行自然对话,从而实现人与计算机之间的信息交流”(曹君阔、陈国莲,2017:1)。人机对话系统的名称就已经定位了其性质:人与机器互相对话的系统。对其进行建构需厘清系统内部的
16、运行机制,即人与机器的话语特征、双方开展对话时应具备的条件、通过何种语言策略推动更加自然的交流等。由其性质可以看出,人机对话系统也是语言智能研究的重点。人机对话系统研究肇始于1950年的图灵测试(The Turing Test)。尽管美国学者魏泽鲍姆早在86语 言 研 究2023年 第1期 总224号1966年就开发出了临床治疗中用于模仿心理医生的人机自然语言交际电脑程序ELIZA(Weizenbaum,1966),但直到二十世纪七十年代以后语言学知识才被引入人工智能领域,其后催生出了研究人与智能体交际行为的“人机交互(Human-agentInteraction)研究领域”。自二十世纪八十年
17、代以来,该领域的研究日趋活跃,产出了ALICE(Artificial LinguisticInternet Computer Entity)、Apple Siri、微软Cortana等众多任务型人机对话系统。“任务型(人机)对话系统主要应用场景为个人助理,通过语音或文字与对话系统进行交互,实现个人事务的查询及代办功能,如天气查询、空气质量查询、定位、短信收发、日程提醒、智能搜索等,从而更便捷地辅助用户的日常事务处理”(车万翔、张伟男,2018:79)。与之相对,“开放域聊天系统”就是“在无限制主题及无明确对话目的的背景下,可基于检索或生成的方法进行人机对话的交互”(陈鑫、周强,2021:1)。
18、近年来,随着开放域聊天系统的兴起,人们对进行持续而有效的人机友好交流的需求日益明显,让机器具备情感也成为现阶段语言智能研究的重点。因此,现阶段人机对话系统应用的总体趋势呈现出通过聊天建立人与机器之间的信任,机器在聊天中对用户进行画像,进而支持后续的场景化任务执行需求等特征(车万翔、张伟男,2018;Srinivasan&Takayama,2016)。同时,人机对话系统领域也开始出现关注人和智能体感情交流、如何建立协作关系的研究(Inaba&Takahashi,2016;小林峻也等,2016)。总体而言,人机对话系统研究的出发点和最终归宿在于最大限度地模拟和逼近“人际”间的自然语言对话,核心问题
19、是探讨如何合理地形式化对话现象,尽可能从对话过程中抽取出最基本的结构规律,使系统所采用的形式框架既能够满足各种情况下语言的表现需要,具有充分的表达能力;同时又可以计算,在工程上具有有效的实现手段(曹君阔、陈国莲,2017:4)。4日本人机对话系统的研究成果近20年来,日本人机对话系统研究呈现出较为多元的发展态势,我们可将其总结为展望性视角和应用性视角。4.1展望性视角日本学术界针对语言智能的展望性研究极少。据笔者管见,目前只有宇佐美真有美博士(宇佐美)提出语言学研究应与人工智能“对话系统”相结合的观点。宇佐美博士为日本国立国语研究所教授,是国际学术界知名的礼貌现象(Politeness,)研究
20、者,其提出的话语礼貌理论(Discourse Politeness Theory,理論)2,不但有专门的研究方法即综合性会话分析法(総合的会話分析)(宇佐美,2015),也有跨文化对比研究方法论如汉日对比研究方法论(毋育新,2019b,2020),另有一系列实证性研究(毋育新,2014;李瑶等,2021;李瑶,2022;李宇霞,2021)证明其具有较强的可操作性,可以说该理论是话语礼貌研究领域较前沿的理论之一。近年来,宇佐美博士敏锐地觉察到日本语言智能研究的短板,即:人工智能研究领域缺少语言学家的积极参与,该领域的研究成果和语言学研究成果“脱轨”,因语言学研究成果不能有效赋能人工智能研究,导致
21、智能体产出的话语难以朝着更自然的方向发展。于是,自2018年起,宇佐美博士积极对接以日本人工智能学会为首的人工智能科研团体与科研机构,开始联合AI技术专家攻克智能体话语中存在的难题,研发以自然语言处理技术为基底,能广泛适配不同用户需求的人机对话系统,具体成果可参见下文4.2的宫本友树等(2018、2019)。经过一系列实证性研究之后,宇佐美(2019)系统回顾了话语礼貌的研究路径,并对现有话语礼貌研究成果的不足之处进行补充说明,在明确话语礼貌研究的意义、功能、问题的基础上,结合当前快速发展的人工智能“对话系统建构”的研究成果,提出将话语礼貌理论中的“基本态(Default,基本状態)”活用于人
22、机对话系统的构想。4.2应用性研究视角不同于展望性成果的乏善可陈,日本国内关87语 言 研 究2023年 第1期 总224号于语言智能的应用性成果偏多,且多涉及人机对话系统中的语言研究,涵盖语言学的诸多侧面。我们从以下三个角度对人机对话系统的相关成果进行简要概括。4.2.1词汇与句法研究如何处理词汇、句法是自然语言处理的经典课题,也是日本学者在语言智能领域探讨的热点之一。关于词汇研究,体词(名词)和用词(动词、形容词)等实词3研究无疑是人机对话系统领域的重点课题。因为人类的智能活动主要是获得并运用知识。知识是智能的基础,而知识由概念组成,概念是构成人类知识世界的基本单元(李德毅,2018:12
23、-22)。我们知道,概念多由实词承担,故而实词方面的研究较多。中野哲宽、荒木雅弘(2015)使用文本离散表示中的word2vec,按照从专有名词、一般名词到其他名词的顺序来提取话题词汇的信息,也就是解析用户话语中使用MeCab的词素后,解析输入的单词,继而根据其结果从学习的文本离散表示中获得信息,使用上述信息生成系统应答,最后通过实验验证了该系统的有效性。浅见一树、杉本彻(2017)为明晰聊天中触发话题转换时联想功能的性质与条件,参考大型语料库 现代日语书面语平衡语料库(現代日本語書言葉均衡)中的词汇表,从出现频率较高的单词中选定8个名词,以其作为诱发性词汇,通过自由联想收集联想词,进而收集与
24、话题词汇具有高余弦相似度的关联词,根据收集到的联想词和关联词与话题词汇之间的语义关系,对联想词和关联词进行分类、比较之后实施了调查这些联想词和关联词是否适用于话题转换的实验,最终探讨了自动获取联想词的方法以实现自然的话题转换。近年来的研究呈现由实词扩大至虚词(助词、助动词)的趋势。如国分芳宏等(2010)提出使用词库来判定术语之间语义距离的方式。具体而言,构建术语标准化或关联词正规化的系统,通过尝试调查助词、助动词来还原省略的主语、赋予“句节意图”,进而实施相关实验验证其有效性。该研究还介绍了词库中术语之间的关系(如同义词、反义词等)以及系统所使用的解析词典中的词汇分类方法。更多的研究涉及叹词
25、等语气表述,如伊藤敏彦(1999)聚焦于自言自语(独話)和对话中存在的语气词(間投詞),从“话语中的语气词对受话者具有何种功能”“语气词在合作性系统的应答句生成过程中是否有效、是否必要”等角度出发,展开实验调查后发现,在语音对话系统中,语气词在确保应答句的生成时间、维护发话权以及作为表示系统正在运行的标志等方面发挥着重要作用。神谷优贵等(2011)发现构建舒适的车载对话系统时,需要系统在驾驶员说话过程中积极附和其话语,也需要系统在适当的时间主动生成附和,该研究以此为出发点,构建了附和词语料库,并基于该语料库提出使用统计学方法检测叹词(感動詞)何时出现最为恰当的方法。关于句法研究,吉野信一郎等(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 智能 视角 日本 人机 知识 融合 应用 核心 毋育新
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。