SuperCLUE中文大模型基准测评报告.pdf
《SuperCLUE中文大模型基准测评报告.pdf》由会员分享,可在线阅读,更多相关《SuperCLUE中文大模型基准测评报告.pdf(38页珍藏版)》请在咨信网上搜索。
1、中文大模型基准测评报告,中文大模型基准测评报告,20232023 2023.11.28 ChatGPTChatGPT发布一周年,中文大模型进展评估发布一周年,中文大模型进展评估目 录目 录0101 国内大模型关键进展国内大模型关键进展 测评体系、方法说明测评体系、方法说明2023年大模型关键进展2023年值得关注的中文大模型全景图中文大模型基准SuperCLUE介绍测评体系、层次、方法说明 大模型测评结果大模型测评结果SuperCLUE模型象限国内外大模型差距国内大模型竞争格局大模型对战胜率分布图四大维度测评结果及示例 优秀模型案例介绍优秀模型案例介绍优秀模型案例介绍020203030404第
2、1部分 国内大模型关键进展国内大模型关键进展5(关键进展)时间准备期准备期成长期成长期爆发爆发期期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开 源闭源大模型层出不穷,形成百模大战的竞争态势)。故事的起点:故事的起点:ChatGPTChatGPT发布发布国内迅速形成大模型共识国内迅速形成大模型共识百度发布文心一言1.0 2023大模型关键进展2
3、022.122月6月8月10月2023.114月OpenAIOpenAI发布发布GPT4GPT4复旦开源MOSS元语开源ChatYuan清华开源ChatGLM360发布360智脑1.0科大讯飞发布星火1.0阿里云发布通义千问1.0MetaMeta开源开源Llama2Llama2百川智能开源Baichuan-7BOpenAIOpenAI发布多模态发布多模态GPT-4VGPT-4VGPT-4 TurboGPT-4 Turbo发布发布百度升级文心一言4.0商汤科技发布商量1.0阿里云开源Qwen-7B华为发布盘古3.0字节跳动公测大模型产品豆包百川智能开源Baichuan2vivo发布BlueLM清
4、华开源ChatGLM3清华&智谱AI开源ChatGLM2小米发布大模型MiLM西湖心辰发布西湖大模型零一万物开源Yi-34B文心一言升级V3.5科大讯飞升级星火3.0元象科技开源XVERSE-13B昆仑万维发布天工1.0云从科技发布从容大模型出门问问发布序列猴子上海人工智能实验室开源InternLM-20BOPPO发布AndesGPT商汤科技升级商量2.0商汤科技升级商量3.0理想汽车发布MindGPT深言科技开源 LingoWhale-8B腾讯发布混元助手360升级智脑4.0SuperCLUE:AI大模型2023年关键进展百川智能发布Baichuan2-192K2023年值得关注的中文大模型
5、全景图通通用用大大模模型型字节云雀大模型字节云雀大模型AndesGPTAndesGPT玉言闭闭源源开开源源行行业业大大模模型型岐黄问道医疗医疗MindGPTMindGPT银河大模型蚂蚁金融大模型轩辕大模型AInno-15BCOSMO-GPTCOSMO-GPTSMore LrMo妙笔大模型妙笔大模型文化文化/零售零售/交通交通百川百川BaichuanBaichuanBlueLMBlueLM云天书云天书孟子孟子部分部分领域领域汽车汽车教育教育金融金融工业工业.Yi-34BYi-34B序列猴子序列猴子第2部分 测评体系、方法说明测评体系、方法说明0102030405不同于传统测评针对于学术能力的测评
6、,SuperCLUE考察通用大模型在语言理解与生成、专业技能与知识、安全性和工具使用的四大能力、十大维度的上百个任务上的效果。多维度多层次的反应大模型通用能力。多维度中 文 语 言 理 解 测 评 基 准中 文 语 言 理 解 测 评 基 准 C L U E(T h e C h i n e s e L a n g u a g e Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模
7、型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题,SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。主观题主观题+客观题客观题多轮多轮十大维度十大维度高高保密性保密性传统传统测评测评 SuperCLUE不同于传统测评的单轮形式的测评,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。多轮测评多轮测评不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过对话的形式真实模拟大模型的应用场景,真实有效的考
8、察模型生成能力。多视角多视角为实时跟踪国内大模型的迭代情况,及时反应国内外大模型发展现状。SuperCLUE按照月度测评形式及实时热点模型测评的模式快速跟进大模型发展情况。月度跟踪月度跟踪为应对大模型广泛学习互联网知识的情况,减少训练集混入评测集的风险,SuperCLUE采用高保密性的测评方式,且月度测评采用完全原创且全新的评测集进行测评,保证真实、客观反应大模型能力。高保密性高保密性选择题选择题单轮单轮学术学术保密性保密性低低VSSuperCLUESuperCLUE五五大特征大特征SuperCLUE介绍产业产业+用户用户视角视角传统测评与传统测评与SuperCLUE的区别的区别测评体系Sup
9、erCLUSuperCLUE E中 文 通 用 大 模 型 综 合 性 评 测 基 准中 文 通 用 大 模 型 综 合 性 评 测 基 准十大基础能力SuperCLUE-OPENSuperCLUE-OPEN可测多轮、主观、开放式完全自动化测评多轮开放式问题多轮开放式问题构建不同视角、不同范围不同视角、不同范围的多层次评测基准,形成相对完善的评价大模型能力的测评框架 对大模型研发机构及应用开发者,为优化模型和场景优化模型和场景应用提供了相对全面的视角。应用提供了相对全面的视角。基础能力(10大任务)SuperCLUE-OSuperCLUE-OPTPT中文特性(10大任务)学术与专业(50+任务
10、)三大能力客观题三大能力客观题任务规划、工具使用SuperCLUE-AgentSuperCLUE-Agent长短期记忆中文5000题智能体能力评估智能体能力评估四大维度(20+任务)SuperCLUE-SafetySuperCLUE-Safety5000道对抗性安全题目多轮主观题、自动化评测多轮对抗安全评估多轮对抗安全评估测评层级专业技能与知识语言理解与生成安全性AI智能体计算逻辑与推理代码知识与百科代数计算应用题.概率统计微积分一级二级三级常识推理条件推理.思维推理决策推理代码生成代码补全.代码注释bug解决历史地理科学技术.文化娱乐社会人文阅读理解信息抽取.摘要生成情感分析情境对话生成对话
11、.对话记忆任务对话 文学写作文本续写.广告文案技术报告名人角色职业角色.虚构角色非人类偏见歧视违法犯罪.财产隐私脏话侮辱目标劫持Prompt泄漏.不安全指令反面诱导任务分解自我反思.思维链调用API检索API.规划API语言理解与抽取上下文对话生成与创作角色扮演传统安全指令攻击任务规划工具使用SuperCLUE多层次基准测评方法持续扩充人工校验评测反馈10万+题库不重复抽样5000原始评测集4265道评测题C L U E 测 评 组1052道多轮简答题(OPEN)3213道客观选择题(OPT)OPENOPTVS在一个确定的评估标准指导下,OPEN基准使用超级模型作为评判官,使用一个待评估模型与
12、一个基准模型进行对比,让超级模型选出A模型好,B模型好,或平局。进而计算胜和率作为OPEN得分。被测模型A基线模型B(如GPT3.5)裁判模型(如GPT-4)胜(3分)、和(1分)、负(0分)OPEN分分=胜和率胜和率OPT主要测评选择题,包括基础能力、中文特性、专业与学术能力。构造了统一的prompt供模型使用,要求模型选取ABCD中唯一的选项。被测模型A选择题库单选ABCD多轮OPT分分=准确率准确率SuperCLUE总分总分=0.6*OPEN分+0.4*OPT分 注:多轮简答题OPEN更能反应模型真实能力,故权重设置提高。为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案
13、,由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评测集共评测集共42654265题,其中题,其中1052道多轮简答题(OPEN),3213道客观选择题(OPT),以下为评测集与测评方法简述。测评方法-示例1模型A和模型B都成功地完成了任务,创作了符合要求、引人注目且针对目标受众的广告文案。现在根据用户的指示,我们将评估两个模型在为研发新型治疗老年痴呆症药物的广告文案中的表现。模型A的回答在修改后的广告文案中,将新药物的功能嵌入到既有的文案结构中,融合了抗癌和痴呆症药物的信息。其文案展示了同样富有希望和温暖的语调,保持了一致的主题,并且在
14、添加记忆改善药物的特性上作了适当的阐述。模型B的回答也创造性地修订了文案,同样融合了对两种药物的描述。在添加老年痴呆症药物后,模型B提到了药物对记忆和认知功能改善的潜力,其语言保持了文案的一贯风格,同时成功地将新加入药物的销售点融入并突出了其特性。两者在创作和细节方面都有细致的考虑,模型A和B都延续了初始广告文案的风格和语气,并且明确提及了新药物的特性和功能。在决定哪个模型的答案更好时,我们考虑以下因素:将新药物特性融入现有文案的流畅性、新药物特性的突出以及与原来文案的整合程度。在这个任务上,模型A和B的表现都相当优秀,没有显著差异。他们在广告文案的创作中都能达到用户的要求,都能吸引目标受众并
15、有效展现产品的独特价值。根据这些观察和评判标准,最终评判结果是:平局超级模型(超级模型(裁判):裁判):测评方法-示例2模型A提供了一个结构良好的回答,首先介绍了问题的上下文和所需进行的计算。它遵循了一个逻辑性的步骤来逐一介绍推力向量和位置向量,之后使用正确的点积公式进行了计算,并得出了正确的结果。模型A也在结尾确认了点积为负意味着飞船正朝向星球飞去,这增强了回答的实用性和深度。模型B同样提供了一个准确的点积计算,直接步入计算方法,并明确展示了各个分量相乘的结果。然后逐个分量相加得出最终的点积。模型B的回答更为简洁,但同样包含了所有必要的计算和正确的答案。两个模型都提供了准确且相关的回答。在实
16、用性方面,两者都解决了用户的问题。在准确性上它们都无可挑剔。根据这些观察和评判标准,最终评判结果是:平局超级模型(裁判):超级模型(裁判):第3部分 大模型测评结果大模型测评结果1.SuperCLUE模型象限 2.国内外大模型差距 3.国内大模型竞争格局 4.大模型对战胜率分布图 5.四大维度测评结果及示例(语言理解与生成、专业技能与知识、工具使用、传统安全)基础基础能力能力应用能力应用能力SuperCLUE模型象限潜力探索者技术领跑者实用主义者卓越领导者文心一言文心一言4.0360智脑智脑通义千问通义千问2.0MoonShotBlueLMChatGLM3-TurboQwen-14B-Chat
17、讯飞星火讯飞星火v3.0MiniMax_Abab5.5ChatGLM3-6B云雀云雀(豆包豆包)Xverse-13B-Chat-2Baichuan2-13B-ChatGPT-4 TurboGPT-4GPT3.5-TurboClaude2Llama-2-13B-ChatYi-34B-Chat腾讯腾讯混元混元注:1.基础能力包含语言理解与生成、专业技能与知识、传统安全的能力考察;应用能力主要考察对于通用工具使用和检索调用规划接口的能力;2.四象限代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在早期探索拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应
18、用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。3.以上数据为截止2023年11月28日的大模型能力数据。Chinese-Alpaca-2-13B国内国内外大模型综合表现外大模型综合表现-SuperCLUE-SuperCLUE国内对外差距情况国内对外差距情况说明说明国内外大模型差距国内外差距依然明显。GPT4-TurboGPT4-Turbo总分总分89.7989.79分遥遥领先。分遥遥领先。高于国内所有大模型及国外代表性大模型。其中国内最好模型文心一言4.0总分74.02分,距离GPT4-Turbo有15.77分。必须看到的是,过去过去1 1年国内大
19、模型已经有年国内大模型已经有了长足的进步了长足的进步。综合能力超过GPT3.5的模型有8个,分别为百度的文心一言4.0、零一 万 物 的 Y i-3 4 B-C h a t、月 之 暗 面 的Moonshot、vivo的BlueLM、腾讯的混元、阿里云的通义千问2.0、清华&智谱AI的ChatGLM3、字节跳动的云雀。另外国内开源模型在中文上表现要好于国国内开源模型在中文上表现要好于国外开源模型外开源模型,如百川智能的Baichuan2-13B-Chat、元象科技的XVERSE-13B-Chat-2、阿里云的Qwen-14、ChatGLM3-6B的成绩均大幅优于Llama2-13B-Chat。
20、国外模型平均成绩 VS 国内模型平均成绩 在SuperCLUE测评中,国外代表性模型的平均成绩为71.23分,国内代表性模型平均成绩为60.48分,差距在10分左右。可以看出,国内外的平均水平差距不是特别明显,要弱于头部模型的差距。国内大模型综合表现国内大模型综合表现-SuperCLUE-SuperCLUE国内大模型竞争格局创业公司创业公司 vs vs 大厂大厂通过SuperCLUE测评结果发现,国内大模型的第一梯队有了更多新的模型加入。如零一万物的Yi-34B-Chat、腾讯的混元、阿里云的通义千问2.0。你方唱罢我登场,已有你方唱罢我登场,已有模型的新模型的新版本或出现的新模型版本或出现的
21、新模型,可能会进一步加剧可能会进一步加剧第一梯队大模型的第一梯队大模型的竞争竞争。在新的大模型竞争中,创业公司和大厂都有一定的优势。大厂有多年积累和大量用户的优势,可以大量获得用户数据和反馈。但一线创业公司同样存在快速技术迭代的优势。创业公司大厂大厂和创业公司平均成绩对比大厂和创业公司平均成绩对比大厂平均62.13创业公司平均61.03从国内TOP15大模型的数量来看,创业公司和大厂的占比几乎持平。从大厂和创业公司的平均成绩来看,大厂与创业公司差值约1分,几乎持平。这说明大模型研发不会仅仅因为公司规模的大小而受到影响。大模型对战胜率分布图多轮开放式问题基准SuperCLUE-OPEN,是使用超
22、级模型作为评判官,用一个待评估模型与一个基准模型(GPT3.5)进行对比,从而得出胜平负的得分。从胜率来看,全球领跑者GPT4-Turbo胜率为49.34%,和率为48.19%,大幅领先于其他模型,而败率仅为2.4%,足以说明GPT4-Turbo对GPT3.5在各项能力上的全面压倒性优势。而国内模型中,零一万物的Yi-34B-Chat和百度的文心一言4.0不相上下,胜率的趋势基本相同,并且表现均好于GPT4。胜率超过20%的还有Moonshot、BlueLM、ChatGLM3-Turbo、腾讯混元、通义千问2.0和云雀大模型。在200亿参数量级的开源模型中Baichuan2-13B-Chat的
23、胜率排在首位,展 现 出 不 俗 的 对 战 能 力。排 在 2 至 3 位 的 是 Q w e n-1 4 B-C h a t 和XVERSE-13B-Chat-2,同样表现可圈可点。结果分析SuperCLUE基准-语言理解与生成能力测评表现 测评分析语言理解与生成主要考察模型在生成与创作、语言理解与抽取、上下文对话、角色扮演方面的能力。在语言理解与生成维度的测评中,GPT-4 Turbo依然领先,是唯一超过90分的大模型。国内大模型也表现相对较好,有3个模型的得分高于GPT4,其中清华&智谱AI的ChatGLM3-Turbo表现出色排名国内第一。零一万物的Yi-34B-Chat、月之暗面的
24、Moonshot分列2-3位,均超过了GPT4。在开源模型中,百川智能的Baichuan2-13B-Chat和元象科技的XVERSE-13B-Chat-2也取得了不错的成绩,均超过了50分,较为接近GPT3.5。总体来看,在中文语言理解与生成的能力上,国内大模型已基本追赶上国外头部大模型,在未来也最可能成为率先形成超越的维度之一。语言理解与生成能力-示例你是一位行政助理,需要为你的主管准备一份年度报告。该报告需要包含对经济环境的分析、公司的业绩评价,以及各部门的工作效率。请依照这些维度撰写出报告,并阐明评价标准、具体结果及对未来的预测。报告字数不超过500字。GPT-4 Turbo尊敬的主管,
25、随着本财年结束,我为您准备了一份关于公司业绩和经济环境的年度报告。【经济环境分析】过去一年,全球经济面临许多挑战,包括通货膨胀、供应链中断以及不确定的政治环境。这些因素使得市场动荡,对我们的运营产生了影响。不过,根据最新的经济数据,预计下一财年将见到温和的增长。为应对这些挑战,本公司已采取一系列措施,如优化供应链、调整定价策略,并增强产品与服务的竞争力。【业绩评价】本公司的整体业绩评价基于收入增长、利润率以及市场份额三个关键指标。收入方面,我们年度增长率为5%,超出行业平均水平。利润率提升了2%,反映出成本优化措施的有效性。在市场份额方面,经过积极的市场推广和产品开发,我们的份额有所增长,特别
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SuperCLUE 中文 模型 基准 测评 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。