主成分分析的改进及其在疫情后住宿餐饮业中的应用.pdf
《主成分分析的改进及其在疫情后住宿餐饮业中的应用.pdf》由会员分享,可在线阅读,更多相关《主成分分析的改进及其在疫情后住宿餐饮业中的应用.pdf(6页珍藏版)》请在咨信网上搜索。
1、引用格式:何秀丽,米鹏主成分分析的改进及其在疫情后住宿餐饮业中的应用J海南大学学报(自然科学版),2 0 2 3,41(2):145-15 0.Citation:He Xiuli,Mi Peng.Improvement of the principal component analysis and its application in accommoda-tion and catering industryJ.Natural Science Journal of Hainan University,2023,41(2):145-150.Jun.20232023年6 月Vol.41 No.2海南
2、大学学报自然科学版NATURALSCIENCE JOURNALOFHAINANUNIVERSITY第41卷第2 期DOl:10.15886/ki.hdxbzkb.2023.0016主成分分析的改进及其在疫情后住宿餐饮业中的应用何秀丽,米鹏(河海大学理学院,江苏南京2 10 0 98)摘要:对主成分分析法步骤进行了推广,并给出了此方法可行的判断标准,即提取主成分时确保贡献率达到一定值根据统计年鉴2 0 2 0 年的住宿餐饮数据,凭借该实例清楚地展示了推广后的主成分分析的运算过程,利用主成分法分析了中国在此行业的经济指标的变化情况,并分析了疫情对各类型企业的影响:餐饮运行成本显著提高,餐饮消费更为
3、保守,消费者外出就餐次数减少,外卖所占比额增加。同时,旅游和出差减少,住宿消费整体减少关键词:统计学;主成分分析;教学;经济评级;相关性分析中图分类号:0 2 12文献标志码:A文章编号:10 0 4-17 2 9(2 0 2 3)0 2-0 145-0 6统计学是机器学习和大数据发展的基础主成分分析,是统计学中一种重要的综合评价方法1 利用统计软件解释大数据的基本思想是一项新的研究热点,借助计算机模拟技术,解决了统计学中的一个常见问题.通过经济实例演示,加深了学生对大数据处理思想和方法的理解。主成分分析是一种提取重要信息和主要信息同时防止信息损失的方法,以此达到降维的目的,目前,主要被应用在
4、经济、教育和人口等方面,一些欧美统计学家将其应用在人脸识别和医学等领域,并取得了较好的结果,主成分的提取是此方法的核心,目前常用非线性方法和恰当的核函数来提取主成分。一组变量,如果存在相关关系,就可以采用主成分法来处理.主成分法就是通过正交旋转将这些变量变为数量更少的变量,对这些变量的信息进行浓缩.在实际问题中,可以化繁为简,将多指标问题尽可能压缩、降维,使得各维度之间线性无关,其中方差较小的那些维度上的数据被剔除,因此能够简单直接地处理问题,具体来说,选择n个看起来都很重要的指标,对其分析过程有可能过于繁琐.此时,需要利用主成分法进行信息浓缩.指标间常见的关系是线性关系,通过主成分分析后,得
5、到的指标数可能远小于n.降维后的主成分指标覆盖了最初的指标信息,简化了分析变量(即从n维降到远小于n维),同时也不丢失精度2 1.近些年来,主成分分析法也在多方面得到了应用.钱赞3 通过主成分预测了股票初始价格和收盘价格;吴明娟4 将主成分应用于癌症基因图谱中的测序;侯娟5 将主成分应用于山西省的土地绩效评价,并对该省的土地利用提出了合理建议。一个国家的餐饮和住宿受到文化、地域、居民生活水平、消费水平和消费习惯等诸多因素的影响,最近三年又受到疫情的影响,而这些因素之间又相互影响,比如,因为疫情,人们的工资水平和消费水平会显著降低.从样本数据出发,介绍主成分思想和改进后的方法步骤,并将此方法应用
6、于近两年国内的餐饮和住宿,介绍疫情对此行业的影响.收稿日期:2 0 2 2-0 6-2 8基金项目:2 0 2 2 年河海大学双一流拔尖创新人才培养项目(B22017010224)作者简介:何秀丽(198 0 一),女,湖北黄冈人,讲师,研究方向:随机微分方程,概率论,E-mail:h e x i u 0 0 16 3.c o m1462023 年海南大学日然科学版1主成分思想及改进方法1.1主成分分析法的一般规则和改进考虑np阶样本数据矩阵X1X12X21X22X2PX=(1)X2Xnp分量分别记作x,X2,.,x,,将降维后的m个分量记作y1,y2,ym(mp).新旧变量之间的关系为yi=
7、aX,+ai2X,+.+apXpy2=a21X,+a22X2+.+a2pXp(2)(ym=amX,+am2X2+.+ampxp已知x,x2,x,,要想求出yi,2,,m,必须确定该方程组中的系数aj,其中a,(i=1,2,m;j=1,2,)为分量x(j=1,2,)在主成分y(i=1,2,m)上的荷载需要保证y,与y,(i+j,ij=1,2,m)不相关.同时,x1,x2,,x,所有可能的线性组合中,J是方差最大的.以此类推每次都寻找方差最大的变量,找到yiJ2,这m个新的变量,即为原始分量xi,x2,x的第1,2,m主成分.针对y,J=axi+ax2+ap,=ax,x=(x,X2,x,),且E(
8、x)=u,D(x)=,需要找到a,使得方差D(y)达到最大,即为第一主成分,其中D(y)=aZa设,0为的特征值,=(,2 p),i=(1,2,p)为对应的特征向量,为正交单位向量.这样第一主成分就确定了y=tux+tax2+,ix,=tx,其方差具有最大值D(2,).仅仅第一主成分的信息不足以代表整体信息,继续考虑下一个主成分,J,=a,x.为了保证其之间没有信息重叠,再添加条件cov(y,2)=0,a,a,=1.在此条件下,D(y2)=a,Zaz达到最大值,得到yz=ti2xi+t2x2+zx,=fx的方差为D(a2)一般情况下,xi,x2,,x,的第i主成分指的是在约束条件cov(yky
9、)=0,k=1,2.,i-1),a,a,=1下求出a,使得D(y,)=a,Za,达到最大值.第i主成分的表达式为y,=tuxi+t2iX2+.+tpix,=tfx i=1,2,.,m,(3)其几何意义是,t,是第i主成分的方向,而y,是x在该方向的投影,其方差D(a,)反映了在该方向的分散程度.1.2步骤利用原始变量x的总方差D(x)=Z计算其特征值和特征向量,通过此方式求出正交变换后的变量y.另外,还可以通过相关矩阵R求主成分,这与从D(x)=Z出发是一致的.设,0 为R的特征值,t,t,,,t,为其对应的正交单位特征向量.将在此部分对主成分法进行改进.这里,同样的方法可得到第i主成分的表达
10、式y=txi+t2x2+,x,=tTx,(i=1,2m).需要注意的是,此方式下原始变量与主成分之间的相关系数为p(x,y)=t,i,k=1,2,p,所以可得出6(4)tikt2k可以看出,原始分量与对应主成分的相关系数,与根据相关矩阵R求出的荷载的比值,等于对应特征值,即对应主成分的贡献率.因此,在解释原始变量时可以选择相关系数p(x,y),p(x2,yk),p(x,,y k )或对应的荷载,它们所起的作用是相似的7 .这样,给出一个求主成分的统一步骤.X12XX21X22X2P,由此可以计算出x=.XnlXn2步骤1针对原始变量作标准化处理.原始数据为X=之1=2(a-矿和xi=nXj,0
11、2n步骤2计算原变量之间的相关系数矩阵,即R,r,i=1,n,j=1,p),147何秀丽等:主分分析的改进及其在疫情后住宿餐饮业中的应用第2 期(5)步骤3找出R的特征值和特征向量.计算出所有p个结果后(理论上有p个特征值),将其由大到小排序入,.入,0,然后单位化得e,(i=1,2,P).步骤4针对主成分找出贡献率及累计贡献率,分别为(6)=1算出累计贡献率达到8 5%95%的特征值2,几2,am,对应的主成分为第1,2 m(mp)主成分.步骤5计算主成分的荷载.通过如下式子即可求出a,=V2,ej,(i.j=1,2,.,p).(7)以上即为所有主成分的计算步骤.需要注意的是,提取主成分时,
12、要确保累计贡献率达到一定值,这是此方法是否可行的判断标准,要求降维后的信息依然能够使用,并保持一定水平,这样其实际意义也有合理的解释.如果得到的只有空谈的数字而没有实际意义,那么结果也没有任何说服力.2改进后的方法的实现和应用2020年初,新冠疫情席卷全球,受影响最大的是实体经济.利用主成分方法,观察疫情暴发以来中国的住宿餐饮业出现的变化.使用的综合评价以及基于主成分分析的研究方法,部分参考张鹏8 、解素文9、洪素珍10 1等文献.根据2 0 2 0 年中国统计年鉴,选择按注册类型和行业分限额以上住宿企业和餐饮企业主要指标(以下简称住宿业指标和餐饮业指标)2 类数据,取自中国统计年鉴第十七章住
13、宿第二、四节数据。由以上四组、两类数据,利用统计软件,使用主成分分析法,分析2 0 2 0 疫情发生后各项主要指标对各类型的住宿和餐饮在经济上的影响变化,并通过主成分法对这些重要指标进行降维,讨论了几项主要指标的重要程度,并分析了各类型企业在经历疫情后的综合经济状况及变化.最初有14维3 2 个样本,可以看出此数据量的差异非常大.选择了4组数据,这里以2 0 2 0 和2 0 2 1年的住宿业指标为例,这14维的指标分别为:法人企业(个)从业人数(人)、营业额、客房收入、餐费收人、资产总计、流动资产合计、固定资产净额、负债合计、所有者权益合计、营业收人、营业成本、税金(后12 个变量单位为亿元
14、)及附加以及利润总额(亿元),分别用x1,x2,,X 14表示.而3 2 个类型的企业分别为内资企业、国有企业、集体企业、股份合作企业、一般旅馆、民宿服务、露营地及其他住宿业等.餐饮业与住宿业的指标大同小异,接下来进行主成分分析。取2 0 2 0 年住宿业的输出结果为例作解释,其他数据将展示但不做解释.表1展示了所有变量间的相关性,即相关矩阵.这也对应了之前在提取栏选择的“相关性分析”利用此选项可以知道变量之间相关性,如果数值过低那么不利于主成分分析,不能较好地降维,即使得出了主成分,也不能较好地解释其主成分意义,因此,一般情况下,当原始数据之间的相关性大部分能够大于0.3 则有较好的结果。如
15、表1所示,大部分变量的相关达到了0.9以上,说明有较强的相关性,主成分分析能有理想的结果.由于原始数据单位不统一,个、人、亿万元等单位,所以选择“相关性分析”,此方式能够标准化数据.这样得到的数据更有说服力,避免不同的数量级数据出现在同一模型中.表2 展示了公因子方差.反映变量对于原数据的解释能力,值越大则解释能力越强,其功能类似于特征值,数值越大,其在主成分中所占比重越大一般情况下,值大于0.5 则说明可以解释原始数据.如表1所示,该问题下各个变量的公因子方差都接近于1,大部分都大于0.9,说明每个变量的解释能力都很强,可以较好地代表原始数据,表3 为KMO和巴特利特球形度检验,此项指标刻画
16、变量之间的关联程度,其中KMO值若大于等于0.60或者显著性水平值小于等于0.0 5 则说明变量之间的关联程度较大,由其作主成分也能得到较好的结果表3 所示的KMO值为0.7 96 而且显著性水平也非常小,达到了预期要求,说明该问题有较好的相关1482023年海南大学学报自然科学版性,能够得到有价值的结果,表1相关矩阵变量VVVVVVVVV/oVVVV1.0000.9440.9470.9780.9130.8410.856 0.7940.8640.7300.9440.961 0.805-0.841V0.9441.0001.0000.9910.9950.9700.9750.9490.9790.90
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 改进 及其 疫情 住宿 餐饮业 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。