ChatGPT,赵元任,新文科——一个语言学家的思考.pdf
《ChatGPT,赵元任,新文科——一个语言学家的思考.pdf》由会员分享,可在线阅读,更多相关《ChatGPT,赵元任,新文科——一个语言学家的思考.pdf(15页珍藏版)》请在咨信网上搜索。
1、着眼于C h a t G P T,我们应该认识到,这既是对我们的挑战,也是一个重大的机遇。它预示着语言学的研究范式将发生重大的变革。面对这样一个局面,我们中国语言学家不能等待着这个范式变革发生,然后再跟着跑,而是应该积极地参与到这个转变的过程当中去,做出我们应有的贡献。赵元任先生就是我们学习的楷模。本文从A I领域的两种思路出发,来回顾语言学界认知语言学和生成语言学的较量,也简要地回顾一下作者在这方面所做的一些探索。最后本文提出,新文科背景下的语言学学科建设一定要重视学术风气的培养和学术标准的建立。关键词 C h a t G P T;赵元任;新文科;语言学C h a t G P T C h a
2、 oY u e nR e n N e wL i b e r a lA r t sAL i n g u i s t sR e f l e c t i o nS h e nJ i a x u a nA b s t r a c t C h a t G P Ti s b o t ha c h a l l e n g e a n d a no p p o r t u n i t y f o r u s m a r k i n g a s i g n i f i c a n t t r a n s f o r m a t i o n i n t h er e s e a r c hp a r a d i
3、g mo f l i n g u i s t i c s F a c e dw i t h s u c ha s i t u a t i o n C h i n e s e l i n g u i s t s c a n n o tw a i t f o r t h i s p a r a d i g mc h a n g e t oo c c u r a n d t h e n f o l l o ws u i t I n s t e a d w es h o u l da c t i v e l yp a r t i c i p a t e i nt h ep r o c e s so f
4、 t h i s t r a n s f o r-m a t i o na n dm a k eo u r d u e c o n t r i b u t i o n s M r C h a oY u e nR e n i s am o d e l f o ru s S t a r t i n g f r o mt w op e r s p e c-t i v e s i n t h e f i e l do fA I t h i sa r t i c l er e v i e w s t h ec o m p e t i t i o nb e t w e e nc o g n i t i v
5、 e l i n g u i s t i c sa n dg e n e r a t i v e l i n-g u i s t i c s a n db r i e f l y r e v i e w s s o m e o f t h e a u t h o r s e x p l o r a t i o n s i n t h i s a r e a F i n a l l y t h i s a r t i c l e p r o p o s e s t h a tt h e c o n s t r u c t i o no f l i n g u i s t i c s i n t
6、h e c o n t e x t o f t h en e wl i b e r a l a r t sm u s t a t t a c h i m p o r t a n c e t o t h e c u l t i v a t i o no f a c a d e m i c a t m o s p h e r e a n d t h e e s t a b l i s h m e n t o f a c a d e m i c s t a n d a r d s K e yw o r d s C h a t G P T C h a oY u e nR e n n e wl i b
7、e r a l a r t s l i n g u i s t i c s一、关于C h a t G P TC h a t G P T做到了一些令人惊异的事情,它的语言表演(p e r f o r m a n c e)已经十分接近、在1*作者简介:沈家煊,男,中国社会科学院语言研究所研究员,主要研究方向为理论语言学、句法语义学。电子邮箱:j i a x-u a n s h e n s i n a.c o m。国家语委2 0 2 2年度重大项目“新文科背景下的语言学学科建设研究”(Z D A 1 4 5 7)。中国语言战略 某些方面还超过人类的水平。如果采用图灵测试,看到两篇文章,现在我们会反过
8、来判定,那篇文理通顺的是机器写的,而那篇文理不通的倒可能是某个大学生写的。看到乔姆斯基批评C h a t G P T,说它只是生成语言,没有真正理解语言。恕我谈一点看法:某大学生写出的文章文理不通,你能说他理解语言了吗?我们能脱离语言表演来判定是否理解语言吗?目前C h a t G P T还缺乏语言多样性、语用多样性、变体多样性,但是它会不断发展成长。C h a t G P T的诞生是继个人电脑和互联网之后,将对人类生活产生重大影响的事件,它的发展前景可能超乎我们的想象,甚至有可能对人类自身构成威胁,因此有的A I专家呼吁要暂停或放缓这方面的研究开发。作为一名语言学家,我比较关注语言的多样性。
9、我关心问题的角度是:如果说C h a t G P T的语言表演所做的事情就是“预测下一个词”,那么有-i n g、-e d(表示正在进行、过去发生)和名词复数-s这类标记的英语,跟没有这类标记的汉语相比,这种差异究竟是重要的还是无关紧要的?如果这种差异只是表面的,有一种近似于U G(普遍语法)的东西存在,那么它到底是什么样的?它显然不是乔姆斯基所主张的那种。到目前为止我们对U G还几乎处于无知阶段。如果语言之间的差异是重要的,那么让机器学习和处理的话,哪一种语言更容易些,或者更难一些?C h a t G P T还没有真正跨越不同语言之间的界限,它主要还是基于英语的大模型。拿国产的语言大模型跟C
10、 h a t G P T作比较,比如科大讯飞发布的“星火”模型,说是走的自己的路,而且在某些性能方面要超过C h a t G P T。如果我们重视语言的类型差异,基于汉语的大模型的研制开发,是可以为这个领域的发展做出重要贡献的。最近看到介绍国外一位A I大咖(A n d r e jK a r p a t h y)的文章,他问“一定要分词吗”?说现在是时候抛弃这个历史包袱了。因为分词(专门术语叫t o k e n i z a t i o n)引入了复杂性,使端到端模型容易出错,比如提示词(p r o m p t)如果以空格结尾,结果就大不一样。还有,功能强大的C h a t G P T3.5居然
11、无法完成让它把一个词倒过来写的任务:图1 C h a t G P T对话截图K a r p a t h y所赞赏的一个“很有前途的”替代分词的办法是将字节序列分割成固定大小的p a t c h(语片)(Y ue t a l.2 0 2 3)。这方面我是外行,不好评判。但是我很佩服人家的探索精神,不抱任何成见。科学研究,重要的突破可能就出于某种奇思妙想。联想到汉语,我们本来只分“字”不分“词”,字有固定大小。金宇澄的获奖小说 繁花,全是短句,每句平均5个字,就是每个p a t c h大致5个字。我们的骈体文不就是通篇为固定大小的四字语、六字语吗?西安话里有大量的“把一”四字语:2 C h a t
12、 G P T,赵元任,新文科 沈家煊 特 稿把我一接 把饭一吃 把水一喝 把试一考 把婚一结 把娃一生把休一退 把我一埋 把瓜一杀 把账一结 把天一聊 把货一取有必要把“考试、结婚、退休、聊天”等确定为“词”吗?过去的中文信息处理,为了分词花费了大量的时间精力,得失利弊如何应该检讨。人家分词,所以我们也分词,现在人家提出可以不分词,我们怎么办?只要我们不抱成见,敢于突破,像科大讯飞说的超过C h a t G P T应该是可以做到。C h a t G P T对我们既是挑战,也是机遇。语言学曾经被认为是一门领先的学科,那是在结构主义盛行的年代。国内很多语言学家至今还在为之而感到自豪。我没有这么好的
13、自我感觉,而是有危机感。在A I领域有专家甚至说,“每当我们解雇一名语言学家,我们的系统都会变得更准确”。这不能怪人家,要怪就怪我们自己。事实上,全世界大批聪明的A I人士已经以他们的方式加入到语言研究的队伍中,成为中坚力量,我们语言学家已经落后了,如果还不加反思,不能与时俱进,那就要大大落后了。比如,面对C h a t G P T的面世,我们的语法学家假如还在那儿争论汉语有没有语法主语,这是不是显得有点不合时宜了?二、赵元任赵元任,中国现代语言学之父,是真正的学术大师。他在语言学和音乐领域都有重要建树,还兼通哲学、物理学、数学。最近大家纪念赵元任诞辰1 3 0周年,商务印书馆出版了 赵元任影
14、记之学术篇 好玩儿的大师 和 赵元任日记(4 6卷)。在赵元任的语言学论著中,我经常见到的一句话是:“这未始是不可能的事情。”他对新事物、新技术永远抱有孩童般的好奇心。比如,他给外国同行做报告“英语倒着说”(R e v e r s e dE n g l i s h),亲自演示如何把一个音一个音倒过来念的英语,录在磁带上再倒过来播放,看能不能听懂。如果赵元任还在世,看到C h a t G P T的出现,我想他也一定会热情地拥抱这个新玩意儿,很可能会提几个好玩儿的问题来测试它,或者提出一个新的实验设想来。上面说到C h a t G P T因为分词而无法把e n-c y c l o p e d i
15、a倒过来写。汉语以“字”为基本单位,回文现象很普遍:方鸿渐说,我是众叛亲离,赵辛楣说,你是离亲叛众。(电视剧 围城)我想赵元任会不会拿这个来测试C h a t G P T能不能理解两种说法的差别。当国内有人为西方人说汉语是单音节语而耿耿于怀、愤愤不平的时候,当西方有人说单音节语只是一个神话的时候,赵元任说这是个“最真实的神话”。两种境界立见高下。当有人对汉语“字本位”说大张挞伐的时候,赵元任早就指出,汉语里跟英语“w o r d”相当的单位是“字”,同时又有许多像“词”的单位。现代汉语里单音字仍然相当活跃。最近看到一个实例:过去的聊天机器人经常答非所问,把天聊死,C h a t G P T的出
16、现打破了人机聊天不尴不尬的尬局。上面讲到分词的利弊,这个例子表明,分了词就有可能出错。当有人认为每种语言的音位化方式只有一种可能的时候,赵元任证明,音位化方式对任何语言都不是单答案,而是有多种可能方式的。这个见解连美国的结构主义大师也不能不佩服。3中国语言战略 当我们的语法学家自以为掌握了结构主义的分布理论和方法,满足于“八大词类、六大成分”的时候,赵元任把汉语的形容词归为“广义的动词”的一个次类,并且说是否建立一个包含一个的大类“有时候是个大有选择余地的问题”。我们很多人没有意识到,在认识和运用分布原理上我们还有很大缺陷。我们实际的做法是先认定汉语的实词也是名、动、形、副四分,然后为各类找一
17、些分布特征。要是真的按照结构主义的“发现程序”来,就会得出不同的结论(参看沈家煊2 0 2 2 a)。当我们至今热衷于主谓结构、论元结构的时候,赵元任早就说汉语的主语和谓语是一问一答,汉语是“零句”为根本。这个见识比当今“互动语言学”和“对话语法”的主张早了整整半个世纪。当我们的主流语法学家追随西方“主语话题二分”的理论,还在讨论主语和话题哪个突显的时候,赵元任早就认识到,汉语的主语就是话题,主语的语法意义就是话题。主流派们没有意识到自己的做法是一种认识上的倒退。当我们把方言之间语法上的差异看作语言类型差异的时候,会听能说多种方言而乱真、方言调查的策划者和实践者赵元任说,中国话无论古今、不分地
18、域“只有一个文法”。我们没有意识到,只有从总体上把握汉语的类型特点,方言语法的比较研究才更有成效。见识狭窄的人眼中看到处处是区别,见多识广者则看到的是一致性。当我们还在讨论汉语的语序是否有“宾语提前”“定语后置”的时候,赵元任早就说,汉语的语序极其简单,宾语一律位于动词之后、修饰语一律位于被修饰语之前是没有例外的。我们没有意识到,语法体系的构建必须把握整体格局并考虑简单原则。当斯瓦迪希提出人类语言普遍适用的2 0 0个基本词汇时,赵元任(C h a o1 9 5 5)指出,头5个字里就有3个(A L L、A N D、A T)在汉语的表达带有中国文化和语言的特色。当西方有人说因为汉语没有英语的抽
19、象主语“i t”因而中国没有优先发展出一套自然科学体系的时候,赵元任纵观人类文化史批评了这种说法。读赵元任,发现他处处在比较中西语言的异同,阐明中国语言的特点。这种在语言问题上不卑不亢的精神值得发扬光大。赵元任是语言学家,也是音乐家,口耳辨音精准。他说“唱外国字的时候用外国音,唱中国字的时候用中国音”,说汉语的节奏呈现“高度的单音调”而又不“单调”,说声调和语调的关系好比小波浪跨在大波浪上,这些论说对我们今天认识汉语的韵律、认识韵律和语法的关系,甚至改进聊天机器人的表演,都有重要的指导意义。最为可贵的是,赵元任对语言现象永远保持孩童般的好奇心和兴趣,上面说他把英语倒着说,他还戏作“施氏食狮史”
20、文,巧译 阿丽思漫游奇境记,试编运用方言技巧的歌曲,做实验手脑并用,不断设计实验的新工具,具有不衰的想象力和探索精神。当大家都认为事情就是这样的时候,他告诉你还有另外的可能、另一种选择,常说“这未始是不可的事情”。我读赵元任,时时提醒自己要有问题意识,不要固守成见、倚老卖老、满足于现状。我说过,我们要读索绪尔,读特鲁别茨柯依,读叶斯帕森、雅可布森,读乔姆斯基,读格林伯格、拉波夫,读菲尔墨、莱考夫,但请一定不要忘了读赵元任。现在国内语言学的研究生,还有导师,比过去任何时候都多,我们要站在巨人的肩膀上往上攀登,希望研究生们、导师们以及导师的导师们,跟我一起,大家一起来读赵元任,读懂赵元任。4 C
21、h a t G P T,赵元任,新文科 沈家煊 特 稿三、回顾认知语言学和生成语言学的较量C h a t G P T的成功,预示着语言学的研究范式将发生变革。我们中国的语言学家是消极地等待这个变革的到来然后跟着跑,还是积极地参与到变革的过程中来,做出我们应有的贡献?G e o f f e r yH i n t o n,公认的A I的教父,他在一个采访中说他并不是真正对创建A I感兴趣,他的核心兴趣是理解大脑是如何运作的。如果不了解大脑,我们永远无法理解人类。我们的目标不是让计算机更像我们,而是理解我们。而理解我们的方式是通过构建像我们一样的东西。物理学家费曼说过:你不能理解一件事情,除非你能够
22、构建它。所以H i n t o n说他一直在构建。G e o f f e r yH i n t o n是有人文关怀的,我很佩服他。A I越是发展,越需要文学哲学来平衡。语言学不是没有用或无关紧要,关键是要解放思想,与时俱进。G e o f f e r yH i n t o n说,在A I领域有两种思路。一种是主流A I,另一种是关涉神经网络的。主流A I认为,A I是关于推理和逻辑的,应该基于推理和逻辑制定理论。神经网络的思路则是,应该基于神经元之间的连接变化来学习制定理论,那才是真正管用的,因为大脑就是这样运作的。比如阅读对人来说是非常新近的,我们没有足够的进化时间来适应它,但我们可以学会阅
23、读。所以一定有一种在这种神经网络中学习的方法。神经网络在2 0世纪8 0年代没有真正奏效的唯一原因是,计算机运行速度不够快,数据集不够大。在那个年代,一个重要问题是:没有先验知识,一个拥有大量神经元的大型神经网络,由计算节点和它们之间的连接构成,仅通过改变连接的强度,从数据中学习,这是否可行?主流A I的人认为这完全荒谬,对此嗤之以鼻。他们说,这好像只是个借口:如果我有更快的计算机和更多的数据,一切都会好起来。现在它不起作用是因为我们没有足够数据和计算能力。这种说法被当作对事物无法正常运作的一种狡辩。突然之间,这种方法逆袭成功了,因为计算机运行速度不够快和数据集不够大这两个障碍已经被克服。现在
24、那些曾经坚决反对神经网络的人很快改变了立场,说出了科学家通常不会说的话:“哦,它有效,比我们正在使用的方法更有效,我们会采用这个方法。”这里我想回顾语言学界的两种语言理论 生成语言学和认知语言学 的较量,这跟A I领域的两种思路对应。生成语言学是主流,是符号加规则的思路;认知语言学是非主流,是连通论加百科知识的思路。G e o f f e r yH i n t o n说,符号人工智能的方法擅长机器翻译,如把英语转换成法语。你会认为操作符号是实现这一目标的正确方法。但实际上,神经网络的效果更好。举例来说,我说“奖杯太大了,它放不进行李箱。”你会认为“它”指的是奖杯。法语中,奖杯有特定的性别,所以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ChatGPT 赵元任 文科 一个 语言学家 思考
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。