SuperBench大模型综合能力评测报告.pdf
《SuperBench大模型综合能力评测报告.pdf》由会员分享,可在线阅读,更多相关《SuperBench大模型综合能力评测报告.pdf(24页珍藏版)》请在咨信网上搜索。
1、SuperBench大模型综合能力评测报告(2024年3月)SuperBench团队大模型能力重点迁移历程语义2023年-future随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI 可持续发展”的关键问题。2023年-2024年基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。2022年-2023年随着大模型在各领域的广泛应
2、用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。2018年-2021年早期的语言模型主要关注自然语言的理解任务(e.g.分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、GPT、T5等。2021年-2023年随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中
3、展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。代码对齐智能体安全大模型评测原则标准Channel:premium atmospheric Sys开放性在整个评测过程中,都应保证公开透明,避免暗箱操作;评测数据集也应开放与封闭相结合,这样既有利于后续的模型优化,也可以防止模型刷题动态性 要不断丰富评测数据,避免静态考题,进行数据集的持续优化,力求更专业。如果榜单的评测数据集长时间保持不变,会有被参与评测者刷题的风险,导致榜单失真科学性 大模型的评测体系更全面,评测方法确保科学严谨,评测方式力求多元化。这不仅需要专业的数据集构建,也需
4、要科学研究的支撑权威性 评测任务具有公信力,评测结果公正严谨,社会认可度高,避免成为一家之言,同时杜绝商业利益对评测结果的干扰大模型在2023年经历了“百模大战”,实践者们纷纷推出了自己原创的、或经开源模型微调、改进的各种通用模型、行业或领域模型,在此背景下,如何评价大模型的能力变成一个非常重大的研究和实践问题。目前国内外均有测试大模型能力的榜单,但质量良莠不齐,在不同榜单下各模型排名差异较大,原因在于评测数据、测试方法等还不够成熟、科学,我们认为好的评测方法应该满足开放性、动态性、科学性以及权威性等。大模型评测的必要性优质大模型评测的标准SuperBench评测模型列表模型所属机构调用方式说
5、明GPT-4 TurboOpenAIAPIgpt-4-0125-previewGPT-4 网页版OpenAI网页GPT-4官方网页Claude-3AnthropicAPIAnthropic Claude-3-opus-20240229 APIGLM-4智谱华章APIGLM-4开放平台APIBaichuan3 网页版百川智能网页Baichuan3官方网页KimiChat 网页版月之暗面网页KimiChat官方网页Abab6稀宇科技APIMiniMax开放平台Abab6 API文心一言4.0百度API百度千帆平台Ernie-bot-4 API通义千问2.1阿里巴巴API通义千问qwen-max-l
6、ongcontext APIqwen1.5-72b-chat阿里巴巴API通义千问开源qwen1.5-72b-chatqwen1.5-14b-chat阿里巴巴API通义千问开源qwen1.5-14b-chat讯飞星火3.5科大讯飞API讯飞SparkDesk-v3.5 API云雀大模型字节跳动API火山引擎skylark2-pro-4k v1.2 APIYi-34b-chat零一万物APIYi开源Yi-34b-chat模型本次我们选择海内外具有代表性的14个模型进行评测,对于闭源模型我们选择API和网页两种调用模式中得分较高的一种进行评测。具体模型列表如下:*注:评测过程中我们发现部分网页版模
7、型性能高于官方APISuperBench介绍开放性SuperBench评测数据集结合开源数据集与闭源数据集,后续版本将推出公开的验证集与封闭的测试集,既有助于模型优化,又防止刷题。优势 评测框架大模型评测评测工具ExtremeGLUENaturalCodeBenchAlignBenchAgentBenchSafetyBench裁判模型检测算法SuperBench能力评测报告动态性SuperBench将定期发布评测结果与报告,每个周期刷新评测数据集的题目与类型,以避免静态考题导致的过拟合现象,可以有效防止作弊。科学性SuperBench团队基于公平、公正、公开的原则,专门设计了一整套评测体系,包
8、含五大原生评测基准、并在此基础上构建了SuperBench检测平台,研发了裁判模型 CritiqueLLM等在内的自研评测算法,确保评测结果科学可靠。权威性SuperBench由清华大学和中关村实验室联合发布,为独立的第三方非盈利性评测机构,评测体系公开透明,评测过程可追溯。基准数据集评测平台评测数据评测规则/评测模型 评测流程待评测模型评测获取回复提问评测结果SuperBench简介SuperBench由清华大学基础模型研究中心联合中关村实验室共同发布,致力于为大模型领域提供客观、科学的评测标准,促进大模型技术、应用和生态的健康发展。SuperBench团队具有多年的大模型研究经验,在大模型
9、核心技术研发中处于领先位置。基于公正、公平、公开的原则,设计了大模型评测框架,推出了多个测试基准数据集,并开发了多个评测工具。SuperBench评测体系-评测数据集SuperBench评测数据集涵盖语义、对齐、代码、智能体和安全五大类,28个子类包含ExtremeGLUE(语义)、NaturalCodeBench(代码)、AlignBench(对齐)、AgentBench(智能体)和SafetyBench(安全)五个基准数据集。对模型的代码能力进行多方面的评估,包括基础编程、算法逻辑和多语言代码生成与翻译python(user)java(user)在多个环境下,测试大模型作为智能体的能力操作
10、系统数据库知识图谱情景猜谜 具身智能网上购物 网页浏览攻击冒犯偏见歧视隐私财产身体健康 心理健康违法活动 伦理道德全面评测大模型在中文领域与人类意图的对齐度,衡量模型的指令遵循和有用性逻辑推理数学计算基本任务 中文理解综合问答 文本写作角色扮演 专业能力对大模型语义理解维度进行多方面的评估阅读理解数学计算知识掌握:科学类知识掌握:常识类语义评估大模型的安全性、隐私保护和向善性等对齐代码智能体安全SuperBench评测体系-语义理解能力大语言模型评测数据集语义ExtremeGLUE是一个包含72个中英双语传统数据集的高难度集合,旨在为语言模型提供更严格的评测标准,采用零样本cot评测方式,并根
11、据特定要求对模型输出进行评分。我们首先使用了超过20种语言模型进行初步测试,包括了gpt4、claude、vicuna、wizardlm和chatGLM等。我们基于所有模型的综合表现,决定了每个分类中挑选出难度最大的10%20%数据,将它们组合为高难度传统数据集。阅读理解阅读理解任务测试模型对文本的理解。英文数据来自“race”(中学阅读理解)和“super_gluemultirc”(句子级多选,强调推理)。中文数据则包括“cail”(法律问题与答案)、“dcrd”(定义性问题)和“webqa”(基于网页的问题-答案对)。知识掌握:科学类科学类知识任务评估模型在科学领域的理解与应用。英文数据涵
12、盖自然科学至医学,如ARC、openbookqa等。中文部分采用这些英文数据集的翻译版。知识掌握:常识类常识类知识任务测试模型对日常常识的应用。英文数据如BBH的因果、日期理解和电影推荐,以及SWAG的情境理解。中文则使用BBH三个数据集的翻译和特修改版的CMRC2018,直接依靠常识回答问题。数学计算数学计算能力评估语言模型解数学题的表现。中文数据如gsm8k、aqua-rat和numglue的翻译版,以及大规模的ape-210k和高难度的agieval中的sat-math和MATH。英文数据包括aqua_rat、math_qa、sat-math以及针对通用问题的gsm8k、numglue和
13、大规模的ape_210k。评测方法示例评测方法&流程评测方式:收集了72个中英双语传统数据集,提取其中高难度的题目组成4个维度的评测数据集,采取零样本cot评测方式,各维度得分计算方式为回答正确的题目数所占百分比,最终总分取各维度的平均值评测流程:根据不同题目的形式和要求,对于模型的零样本cot生成的结果进行评分 问题:小花妈妈打算将20000元定期存入银行3年,如果按年利率3.69%计算,到期时小花妈妈实际的本息共有多少元?(另记利息税10%)回答:21992.6 打分原则:与答案数值绝对误差小于0.001则得分,否则不得分对齐代码安全智能体各大模型语义理解能力分类表现53.455.060.
14、260.260.560.863.264.167.670.472.073.073.776.7讯飞星火3.5Yi-34b-chat云雀大模型qwen1.5-14b-chat通义千问2.1Baichuan3 网页版Abab6KimiChat 网页版qwen1.5-72b-chatGPT-4 TurboGPT-4 网页版文心一言4.0GLM-4Claude-3各大模型语义理解能力表现knowledge-commonknowledge-sciencemathreading-comprehensionClaude-379.880.665.580.8GLM-477.375.261.680.8文心一言4.06
15、7.177.365.582.2GPT-4 网页版76.577.354.979.4GPT-4 Turbo66.975.257.781.9qwen1.5-72b-chat70.870.254.175.4KimiChat 网页版63.970.248.174.0Abab663.862.053.873.3Baichuan3 网页版62.458.750.771.5通义千问2.153.373.138.277.2qwen1.5-14b-chat54.362.050.074.4云雀大模型59.364.554.163.0Yi-34b-chat61.457.436.764.4讯飞星火3.550.747.952.26
16、2.6注:各维度得分计算方式为回答正确的题目数所占百分比,最终总分取各维度的平均值SuperBench评测结果-语义理解能力 整体表现:在语义理解能力评测中,各模型形成了三个梯队,70分档为第一梯队,包括Claude-3、GLM-4、文心一言4.0以及GPT-4系列模型;其中Claude-3得分为76.7,位居第一;国内模型GLM-4和文心一言4.0则超过GPT-4系列模型位居第二和第三位,但是和Claude-3有3分差距。知识-常识:Claude-3以79.8分领跑,国内模型GLM-4表现亮眼,超过GPT-4网页版位居第二;文心一言4.0表现不佳,距离榜首Claude-3有12.7分差距。知
17、识-科学:Claude-3依然领先,并且是唯一一个80分以上模型;文心一言4.0、GPT-4系列模型以及GLM-4模型均在75分以上,为第一梯队模型。数学:Claude-3和文心一言4.0并列第一,得65.5分,GLM-4领先GPT-4系列模型位列第三,其他模型得分在55分附近较为集中,当前大模型在数学能力上仍有较大提升空间。阅读理解:各分数段分布相对较为平均,文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。分类表现:SuperBench评测结果示例-语义理解能力为了解决这个问题,我们需要按照正确的运算顺序来计算。乘除的优先级高于加减,同级运算从左到右进行。第
18、一步,计算乘法:0.46*2.5=1.15第二步,计算除法:2.94/1.4=2.1第三步,将第一步和第二步的结果相减:2.1-1.15=0.95因此,答案是 0.95。答案是 1.4。问题:请解决以下数学问题请使用答案是 表示最终结果。问题:2.94/1.4-0.46*2.5回答:SuperBench评测体系-代码编写能力大语言模型评测数据集代码对齐语义安全智能体NaturalCodeBench(NCB)是一个评估模型代码能力的基准测试,传统的代码能力评测数据集主要考察模型在数据结构与算法方面的解题能力,而NCB数据集侧重考察模型在真实编程应用场景中写出正确可用代码的能力。python(us
19、er)Natural Code Bench的python数据集。共201条数据,每个问题都含有9个测试样例。以功能需求类为主,功能需求和算法类大概比例为7:3java(user)Natural Code Bench的java数据集。共201条数据,每个问题都含有9个测试样例。以算法类为主,功能需求和算法类大概比例为3:7Natural Code Bench本类别旨在自动化考察真实场景下模型根据用户需求生成代码的能力。所有问题都从用户在线上服务中的提问筛选得来,问题的风格和格式更加多样,涵盖数据库、前端开发、算法、数据科学、操作系统、人工智能、软件工程等七个领域的问题,可以简单分为算法类和功能需
20、求类两类。题目包含java和python两类编程语言,以及中文、英文两种问题语言。每个问题都对应10个人类撰写矫正的测试样例,9个用于测试生成代码的功能正确性,剩下1个用于代码对齐。评测方法示例评测方法&流程评测方式:运行模型生成的函数,将输出结果与准备好的测例结果进行比对进行打分。将输出结果与准备好的测例结果进行比对进行打分,最终计算生成代码的一次通过率pass1。评测流程:给定问题、单元测试代码、以及测例,模型首先根据问题生成目标函数;运行生成的目标函数,以测例中的输入作为参数得到函数运行输出,与测例中的标准输出进行比对,输出匹配得分,输出不匹配或函数运行错误均不得分。示例问题示例单元测试
21、代码SuperBench评测结果-代码编写能力各大模型代码编写能力分类表现各大模型代码编写能力表现注:分数为生成代码的一次通过率,即pass1 整体表现:在代码编写能力评测中,国内模型与国际一流模型之间仍有明显差距,GPT-4系列模型、Claude-3模型在代码通过率上明显领先,国内模型中GLM-4,文心一言4.0与讯飞星火3.5表现突出,综合得分达到40分以上;然而,即使是表现最好的模型在代码的一次通过率上仍只有50%左右,代码生成任务对目前的大模型来说仍是一大挑战;英文代码指令:GPT-4 Turbo比Claude-3在Python和Java问题上分别高出6.8分和1.5分,比GLM-4在
22、Python和Java问题上分别高出14.2分和5.1分,国内模型与国际模型在英文代码指令上差距比较明显;中文代码指令:GPT-4 Turbo比Claude-3在Python上高出3.9分,在Java上低2.3分,差距不大。GPT-4 Turbo比GLM-4在Python和Java问题上分别高出5.4分和2.8分,国内模型在中文编码能力上与国际一流模型仍存在一定差距;分类表现:在Python、Java、中文、英文四个维度的数据集中GPT-4系列模型包揽头名,体现出强大而全面的代码能力,除Claude-3外其余模型差距明显;11.5 16.8 20.0 24.0 26.5 28.7 30.0 3
23、5.3 40.0 42.2 43.9 48.3 50.0 50.8 Yi-34b-chatqwen1.5-14b-chat云雀大模型KimiChat 网页版qwen1.5-72b-chat通义千问2.1Baichuan3 网页版Abab6讯飞星火3.5文心一言4.0GLM-4Claude-3GPT-4 网页版GPT-4 Turbopython_zhjava_zhpython_enjava_enGPT-4 Turbo48.948.155.750.4GPT-4 网页版45.852.750.451.1Claude-345.050.448.948.9GLM-443.545.341.545.3文心一言4
24、.038.940.546.642.7讯飞星火3.542.037.742.737.7Abab635.135.236.634.4Baichuan3 网页版32.826.032.828.2通义千问2.130.528.234.621.4qwen1.5-72b-chat22.927.527.528.2KimiChat 网页版26.722.127.519.8云雀大模型19.818.325.216.8qwen1.5-14b-chat14.518.318.316.0Yi-34b-chat9.211.59.216.0SuperBench评测结果示例-代码编写能力pythonimport torchdef cal
25、culate_distance(tensor_a,tensor_b):#Check tensors dimensions assert tensor_a.dim()=tensor_b.dim()=3 assert tensor_a.shape=tensor_b.shape#Subtract tensor_b from tensor_a diff=tensor_a-tensor_b#Compute point wise distance dist=torch.sqrt(torch.sum(diff*2,dim=-1)return dist pythondef calculate_distance
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SuperBench 模型 综合 能力 评测 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。