基于模糊灰色关联分析法的足球比赛影响因素分析研究_姜海富.pdf
《基于模糊灰色关联分析法的足球比赛影响因素分析研究_姜海富.pdf》由会员分享,可在线阅读,更多相关《基于模糊灰色关联分析法的足球比赛影响因素分析研究_姜海富.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 年第 3 期计算机与数字工程收稿日期:2022年8月11日,修回日期:2022年9月27日基金项目:国家自然科学基金项目(编号:62076215);江苏省自然科学基金项目(编号:BK20191457)资助。作者简介:姜海富,男,硕士研究生,研究方向:机器学习与数据挖掘。于化龙,男,博士,教授,研究方向:机器学习与数据挖掘。韦磊,男,硕士研究生,研究方向:大数据、金融风控和机器学习。1引言随着大数据数据量越来越多,给各行各业带来无限想象力和商业应用价值,尤其是在体育领域。足球比赛作为体育领域热门的项目,伴随国内足球氛围不断浓厚,足球领域内的各个细分领域也快速发展,足球比赛大数据就是其中
2、之一1。目前存在大量热爱足球的群众对下一场比赛的结果进行预基于模糊灰色关联分析法的足球比赛影响因素分析研究姜海富于化龙韦磊(江苏科技大学计算机学院镇江212114)摘要足球比赛作为一项竞技体育运动由于其比赛结果影响因素众多,且各因素之间存在多样性、不确定性、模糊性等问题,一直是商业界与体育界研究的热点问题之一。针对此类问题,以2014-2019年欧洲六大联赛比赛数据作为数据来源,对数据预处理后采用模糊灰色关联分析方法,从定量的角度进行比赛数据深度挖掘分析,提取影响比赛结果的重要性因素,并对提取的高贡献度特征集合采用LightGBM决策模型进行胜负预测。通过大量实验发现,经论文方法提取的特征在总
3、特征减少67.5%的情况下,实际预测准确率达到73.01%,仅比原始特征预测减少0.28%。结果表明,论文方法在足球数据分析方面具有良好的效果,能显著区分出对比赛具有高影响力的因素集合,并提供一种高准确率、可解释性的足球预测方法与新的足球比赛数据挖掘研究。关键词足球大数据;足球比赛预测;多因素分析;灰色关联分析;模型应用中图分类号O141.4DOI:10.3969/j.issn.1672-9722.2023.03.004Research of Influencing Factors of Football Match Based onFuzzy Grey Correlation Analysi
4、sJIANG HaifuYU HualongWEI Lei(School of Computer,Jiangsu University of Science and Technology,Zhenjiang212114)AbstractAs a competitive sport,football matches have many factors affecting the results of the game,and there are problems such as diversity,uncertainty,and fuzziness among the factors.It ha
5、s always been one of the hot issues in the business andsports circles.In response to this type of problem,the 2014-2019 six major European league games data are used as the datasource,and the fuzzy gray correlation analysis method is adopted after the data preprocessing,and the game data is deeply m
6、inedand analyzed from a quantitative perspective,and the importance of the game results is extracted.The LightGBM decision model isused to predict the outcome of the extracted high-contribution feature set.Through a large number of experiments,it is found thatwhen the total features extracted by thi
7、s method are reduced by 67.5%,the actual prediction accuracy rate reaches 73.01%,whichis only 0.28%less than the original feature prediction.The results show that the method in this paper has a good effect in football data analysis,can significantly distinguish the set of factors that have a high im
8、pact on the game,and provide a high-accuracy,interpretable football prediction method and new data mining research of football game.Key Wordsfootball big data,football prediction,multi-factor analysis,grey relation analysis,model applicationClass NumberO141.4总第 401期2023 年第 3期计算机与数字工程Computer&Digital
9、 EngineeringVol.51No.3555第 51 卷测,并且通常个人预测对所支持的球队进行支持。但足球比赛结果因为其的不确定性,即使专家也很难能够预测下一场比赛胜负2。从足球比赛体育大数据的挖掘中发现,足球比赛对于赛果预测的困难,主要是由于足球比赛的结果含有众多影响因素,例如团队合作、个人技能、天气、主场优势等,很难预料足球比赛的实际结果3。即使比赛没有任何伤害或没有加时发生,运气也可能是影响足球比赛结果的一个因素,因此强队并不一定会赢弱队。也正是由于足球比赛影响因素多种多样,比赛情况纷繁复杂,给足球比赛关联分析更多研究的价值,也给商业界更多的兴趣、体育界更多的精力去探索没有接触到的
10、特征信息。当前针对足球比赛预测研究方法众多,但是对于赛后影响因素分析相对较少,且多见于传统、简单统计分析,不能够从多角度多方面比较价值影响因素4。Marcelino R5等通过多变量分析中评估赛前因素的组合及其与赛果(赢/输)的关系,采用预测性机器学习模型(ML)对澳大利亚足球联赛比赛(AFL)结果预测分析,表明使用ML方法能提供最大限度地提高获胜机会的预测变量层次,还能够预测AFL比赛的结果,为比赛关联分析提供了一种新的方案啊。吴键等6使用Ologit(Ordinal logit)建立一种关联模型将球员的基本能力成绩与比赛成绩关联,提出球员的个人技能与赛果之间存在年龄和组别球员变现呈现不相同
11、的现象。通过对球员的客观定量描述能够及时有效的判断球队的问题并针对性做出改变。在预测模型上Koppman78前后分别提出了一种新的动态多元模型,用于分析和预测国家联赛的足球比赛结果,实际结果对于足球比赛预测有着良好的效果。足球比赛赛场上每时每刻都在产生数据,这些数据都存在重要的利用价值,尽管国内外尝试了大量的研究从球员自身,或者动态调整预测模型,但针对比赛影响因素的深度挖掘还是未能深入展开。本文采集大量足球比赛数据,包含西班牙甲级联赛,德国甲级联赛,意大利甲级联赛,法国甲级联赛和葡萄牙足球超级联赛五个赛季(2014-2019)完整比赛数据。针对足球比赛影响因素的多样性、不确定性、模糊性等问题,
12、以及在计算经典灰色关联度时无法对比不同观测序列中多种因素对特征空间的影响。针对此问题提出一种采用模糊、灰色关联理论配合提出模糊灰色关联分析模型。通过本文方法得到的高贡献度的特征,按照贡献度大小进行排序分析,用一种相对科学的足球比赛结果预测估计模型(LightGBM模型)对提取特征进行结果预测分析910。经过对模型效果的充分检验,反复迭代对模型中各指标进行统计筛选,指出了不同影响因素的重要程度特体现,发现既能够得到高贡献度特征同时又能在特征分析提取后仍能够得到高准确率预测的方法,而且在具体的特征分析得到价值一直的判断,最后针对性的提出足球比赛过程中应当重点考虑的问题。2研究方法2.1模糊隶属度以
13、及灰度关联模型针对足球比赛结果分析存在的问题,本文将模糊数学理论和灰色理论用于比赛影响因素分析中是一种创新的解决方案。目前在关联分析与评价领域,模糊综合评判法和灰色关联法被广泛提及,由于其特定的问题,存在一定的局限性。因素之间模糊性的主要原因在于各种因素在区别不同的过程中存在中间过渡的判断,包含着彼此包含的联系。但是在彼此包含的过程中仍然存在这客观的区别,更进一步的对比能够明显得出在上一阶段的彼此包含的关系中的信息,在下一阶段可能并不是包含有很强烈的联系11。隶属度函数作为模糊理论中评价事务模糊性的重要评价方式,同时是关联分析法主要构成组件12。本文基于斯皮尔曼相关性系数模型与相近性原理的邓氏
14、灰色关联分析模型,利用位移差来分别不同列之间的重要程度,根据计算出的关联度分析出关联序列,从而对根据关联序列对不同因素的关联程度进行研判13。2.1.1原始数据处理数据标准化处理能够显著减少由于变量的量纲不同导致模型预测产生数据误差,产生。针对传统的灰色关联分析法常采用初值化或单一均值化进行数据处理,本文引用数据区间无量纲转换跟传统的模糊聚类中的极差变换相似也就是,对比较序列Xi(i=1,2,n)中的数据采用如Min-max normalization进行无量纲处理。2.1.2模糊隶属度与灰度关联度计算为了保证模型包容所有信息,能够减少数据线性比例关系的影响,本文选用统计学上常用的斯皮尔曼相关
15、性法建立模糊相似矩阵的数学模型,也就用它来衡量两个变量的依赖性的非参数指标,利用单调方程评价两个统计变量的相似程度,而且对于数据错误和极端值的反应不敏感14。其表现形式为姜海富等:基于模糊灰色关联分析法的足球比赛影响因素分析研究5562023 年第 3 期计算机与数字工程=i=1N(xi-x)(yi-y)i=1N(xi-x)2i=1N(yi-y)212(1)其中xi,yi分别是影响因素i取值的等级,x,y 分别是变量x,y的评价等级,N是影响因素的总数量。针对比较序列Xi对参照序列Yi在i=k时的关联系数ij(k)可由下面的公式确定:ij(k)=min+maxij(k)+max(2)其中min
16、,max分别为Yi与Xi中分别是影响因素中的极大值与极小值的绝对值大小。ij(k)为Yi与Xi在第K个点的绝对值差。为判别系数,也就是对极大值与极小值的权重,需要满足干扰性与关联度的一致性。对极大值与极小值的绝对值绝对值差值的均值进行计算,其次根据与max的比值确定的取值区间。其计算法公式如下:=1nmj=1mkn|yt(k)-xij(k)(3)由于关联系数的计算方式会导致计算结果众多,为了能够便于对比和分析本次将各关联系数集中展示在一个值的效果上,即灰色关联度。由于足球比赛影响因素众多,本文根据对原始的灰色关联度公式进行简化可得:ij(k)=1nk=1nw(k)ij(k)w(k)=1(4)2
17、.2足球比赛模糊灰色关联分析法根据2.1.2节中模糊隶属度与灰色关联度ij就计算出一种足球比赛影响因素的一个判断综合评价指标,也就是本文提及的模糊灰色关联度Rij其公式如下:Rij=+ij2=i=1N(xi-x)(yi-y)i=1N(xi-x)2i=1N(yi-y)212+1nk=1nw(k)ij(k)2(5)对初始数据处理进行特征构造并对缺失数据进行合理补充。提取的七类特征数据共计43个特征采用模糊灰色关联分析进行重要度分析,提取具有强关联的特征集合。最后带入到决策算法中进行实际的足球比赛预测,如算法1所示。算法 1.模糊灰度关联分析算法描述输入 比赛数据x,实际比赛结果y;输出 灰色关联分
18、析后的特征数据集合cprocedure Xi=(xi1,xi2,xip),(i=1,2,3,n)1)collect the initial s instances as Xi2)F1Fs,G1Gs=Fuzzy_membership(Xi),Grey_relational_degree(Xi)3)c1cs=algorithm(Fi,Gi)4)P=LightGBM(Ci)5)while max(P)6)find which is the best prediction accuracy P7)tune cjaccording to Eq.(4)8)end procedure3实验数据收集本次实验采
19、用的数据集来自球探网数据(http:/ ALa LeagueGermanBunds LeagueFrench LeaguePrimeiraLeague比赛时间2014-08-16 19:452014-08-30 23:592014-08-24 01:002014-08-23 02:302014-08-09 02:302014-08-16 03:00主场Manchester UnitedChievoMalagaBayernMunchenReimsFC Porto比分1-20-11-02-12-22-0客场Swansea CityJuventusAthletic BilbaoVfL Wolfsbu
20、rgParis Saint GermainMaritimo威廉希尔初赔胜1.335.503.101.208.501.33平4.334.003.307.004.404.50负8.501.602.3012.001.408.50Bet365初赔胜1.366.502.871.257.501.33平5.003.803.405.004.005.00负7.501.532.379.001.369.00LIBO初赔胜1.336.502.901.209.001.30平4.603.803.256.004.504.50负8.501.532.4013.001.369.00557第 51 卷由于足球比赛包含人为因素和自然
21、因素和现实因素相关关联,通过对文献以及足球比赛的了解。本文对提取到的初始足球比赛数据进行数据预处理,后对初始数据进行深入挖掘从积分差距、主客场及近期状态、轮次相关、体能状况、赔率状况、两队交锋历史状况和主客场攻守状况方面提取7个维度的特征数据进行下一步的关联分析,详细特征介绍如图1所示。在对比赛特征进行提取完成后,发现部分数据存在一部分缺失存在,如“主队客队近五场失球和”,因为对于原始数据本文可以理解为本年度赛季的比赛在时间轴上的确实没有最近五场比赛的数据,因此为了公平起见对于缺失的数据本文采用平局的方式对于球队主客场进行打分。表2球员最近比赛状况数据球队名AC MilanCarpiGenoa
22、SampdoriaTorino球员姓名Fabio BoriniMarco CrimiPetar BrlekGaston RamirezObi Joel Chukwuma比赛时间2018-09-28 03:002016-04-09 23:592017-09-21 02:452017-09-17 21:002016-05-15 23:59队员打分6.146.236.667.187.25进球00001助攻00010红牌00000黄牌00001在场时间/min7322468271积分差距主客场及近期状态客赔可信度轮次相关体能状况主客场攻守状况两队交锋历史赔率状况比赛数据抽取特征博彩公司赔率体能状况主赔
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 模糊 灰色 关联 分析 足球比赛 影响 因素 分析研究 姜海富
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。