本科毕业论文---关于某竞赛网评结果的建模与分析.doc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科毕业 论文 关于 竞赛 结果 建模 分析
- 资源描述:
-
关于某竞赛网评结果的建模与分析 摘 要 本文建立了某竞赛网评结果的数学模型,分析了网评成绩与最终成绩的关系,提出了评价评委的相关指标体系,考察了各竞赛试题间评委的差异性。 对于问题1,要求给出网评成绩与最终成绩的相关性。注意到网评成绩中每份论文有四个评委的具体分数,而最终成绩只有该试卷的获奖等级。为了使得网评成绩和最终成绩具有可比性,我们首先将每份试卷的网评成绩的标准分求平均值,并根据网评成绩的平均标准分进行排序;然后根据获奖的比例将网评成绩转换成获奖的等级;最后将网评成绩的获奖等级与最终获奖等级进行比对,计算出网评成绩和最终成绩的绝对差值,并构造一个吻合度指标和差异性指标对网评成绩与最终成绩的相关性进行度量,另外计算了Person相关系数、Spearman相关系数以及Kendall tau-b相关系数等统计学指标,从另外一方面来度量网评成绩与最终成绩的相关度。 对于问题2,要求给出评价评委基本素质的指标体系。由于我们可用的数据仅为各评委所评试卷的分数以及该试卷的最终成绩,为了度量该评委的基本素质,我们从三方面提出评价评委的指标体系:①评委评分的宽严度;②评委所评试卷与他人评卷的评分偏离度;③该评委所评试卷的网评成绩与终评成绩的差异度。由于标准分的折算已经对评委评分宽严度进行了修改,因此我们提出三个指标来评价评委的评卷质量:评委评分偏离度,评委吻合度指数和评委差异度指数。 对于问题3,我们根据问题2的三个评价指标建立数学模型,利用附件中的评审数据计算每个评委的评分偏离度,评委吻合度指数和评委差异度指数等三个指标值。根据这三个指标值对评委进行排序,并根据排序结果进行聚类分析,并评选出优秀评委。 对于问题4,为了分析不同题目之间评委的整体表现的差异程度,我们根据评价评委的指标值进行方差分析,从方差分析的结果分析出现差异的主要原因。 对于问题5,由于现有方案的终评成绩是网评成绩与集中评审成绩的加权平均,其权重为,我们提出一般的网评和集中评审分数的加权平均公式,并分析了网评成绩的权重系数对终评成绩的影响。最后建立了最优权重系数的贝叶斯模型,讨论了最优权重的确定方法,并给出了相关结论。 最后,我们对全文进行了总结。 关键词:网评成绩,差异度指数,吻合度指数,评分偏离度,方差分析。 目 录 一、问题重述与分析 1 二、模型的假设与符号说明 3 三、模型的建立及求解 4 3.1 问题一模型建立与求解 4 3.2 度量评委基本素质指标体系的建立 9 3.3 问题三的模型建立与求解 11 3.4 问题四模型建立与求解 15 3.5 问题五的数学模型 19 四、模型的推广及优缺点分析 23 参考文献 24 附录 25 一、问题重述与分析 某竞赛的评阅过程分两阶段进行,分别称为网评阶段与集中评审阶段。在网评阶段,竞赛论文被随机平均分配给每位评委,每份竞赛论文由四位评委评阅,每位评委以“百分制”记分,通过标准分计算公式 将评委的“原始分”转换成“标准分”,按照标准分总分排序,前55%的论文进入集中评审。集中评审阶段每份论文由三位评委按“百分制”独立评审,所有评委评审结束后,换算成标准分,最后将每份论文的三个标准分与网评中该论文的平均标准分一起求平均分,即为该论文的最终成绩。 请完成以下建模任务: 1. 竞赛组织者希望知道网评成绩与最终成绩的相关性,请根据附件中的评审结果,给出相应的结论,并对网评结果作出评价。 2. 从不同角度出发,对竞赛评委有不同的基本素质要求,请给出合理的度量评委基本素质的指标体系。 3. 建立评价评委基本素质的数学模型,并将其运用于附件中的评审数据,给出相应的结论。 4. 附件中ABCDE表示不同题目,试分析不同题目的评委的整体表现之间是否存在显著差异?如果存在,分析出现差异的可能原因。 5. 试分析将网评成绩加入总成绩的利弊,并对如何更有效地利用网评成绩给出相应的建模结论。 对于问题1,要求给出网评成绩与最终成绩的相关性,注意到网评成绩中每份试卷有四个评委的具体分数,而最终成绩只有该试卷的获奖等级。为了使得网评成绩和最终成绩具有可比性,我们首先将每份试卷的网评成绩的标准分求平均值,并根据网评成绩的平均标准分进行排序;然后根据获奖的比例将网评成绩转换成网评获奖的等级;最后将网评成绩的获奖等级与最终获奖等级进行比对,计算出网评成绩和最终成绩的绝对差值,并构造一个吻合度指标和差异性指标对网评成绩与最终成绩的相关性进行度量。此外我们计算了网评成绩和最终成绩的Person相关系数、Spearman相关系数以及Kendall tau-b等级相关系数,从另外一方面来度量网评成绩与最终成绩的相关度。有关相关系数的定义,可参考文献[1]。 对于问题2,要求给出评价评委基本素质的指标体系。由于我们可用的数据仅为各评委在网评阶段对每份试卷所评的具体分数以及该试卷的最终成绩,为了度量该评委的基本素质,我们从三个方面提出评价评委的指标体系:(1)评委评分的宽严度,度量每位评委的对论文的评阅时偏松还是偏严,有关评卷宽严度的度量可参考文献[2];(2)评委所评试卷与他人评卷的差异。考虑每个评委所评的所有试卷,由于每份试卷在网评阶段是有四个评委评分,因此该评委所评试卷与其他三位评委所评试卷的分数差异大小反映了该评委的评卷质量;(3)该评委所评试卷的网评成绩的获奖等级与终评成绩的获奖等级的差异也反应了该评委评阅试卷的质量。这里又包括两个指标:吻合度指数和差异度指数。吻合度指数是指该评委所评试卷的网评获奖等级与最终获奖等级相吻合的所占其所评试卷的比例。但由于该评委所评试卷的网评成绩和终评成绩可能相差不同的等级,因此差异度指标反映了该评委的总体得分。由于标准分的折算已经对评委评分宽严度进行了修改,因此我们提出三个指标来评价评委的评卷质量:评委评分偏离度,评委吻合度指数和评委差异度指数。 对于问题3,我们根据问题2的评价指标体系建立数学模型,利用附件中的评审数据计算每个评委的评分偏离度,吻合度指数和差异度指数三个指标值。根据这三个指标值对评委进行排序,并根据排序结果进行聚类分析,并评选出优秀评委。有关模型的建立,我们可参考文献[3-5]。 对于问题4,为了分析不同题目之间评委的整体表现的差异程度,我们根据评价评委的指标值进行方差分析,从方差分析的结果分析出现差异的主要原因。我们可用SPSS统计软件进行方差分析,有关软件的运用可参考文献[6]。 对于问题5,为了度量网评成绩加入总成绩的利弊,根据现有评分方案,计算网评成绩在最终成绩中所占的作用,另外,我们可提出一般的网评和集中评审分数的加权平均公式,建立最优权重系数的数学模型,从而给出相关结论。 二、模型的假设与符号说明 为了对网评成绩建立更合理的数学模型,我们提出下面的假设。 假设1:每个评委所评分数都是自身基本素质的体现; 假设2:集中评审的评委都是优秀评委,所评分数是考生真实分数的反映; 假设3:标准分折算公式是科学合理的; 假设4:每道题的评价难度基本相等; 假设5:所有评委评分都是独立进行的,即各评委评出的论文分数是相互独立的。 为了书写的方便,我们引入下面的记号: 符号 符号说明 总的论文份数 总的评委位数 第位评委对第份论文的网评原始分 第位评委对第份论文的网评标准分 第位评委网评的论文份数 第份论文的网评平均标准分 第份论文的最终标准分 第份论文的集中评审的平均标准分 论文的网评标准分在最终成绩中考虑的权重因子 三、模型的建立及求解 3.1 问题一模型建立与求解 为了分析网评成绩与最终成绩的相关性,使两者具有可比性,我们首先要对最终成绩进行量化,并对网评原始分进行数据处理。对最终成绩进行量化处理如下: 由于网评成绩是每位评委的具体分值,而终评成绩是获奖等级,为了使网评成绩与终评成绩进行比较,我们的思想是将网评的平均标准分也换算成获奖等级。然后根据网评等级和终评等级进行比对,差异小则表明网评成绩与终评成绩相关度高;反之则说明网评成绩与终评成绩相关度低。具体的步骤分为以下几步。 (Ⅰ)将网评原始分换算成标准分。设表示第位评委所评试卷份数,而为总试卷数,则第位评委所评份试卷的原始分求出相应的均值和标准差分别为: , (1) 其中为第位评委对第份论文的网评原始分,这里 。 (Ⅱ)根据标准分计算公式,得到第位评委对第份论文的评审标准分为 . (2) (Ⅲ)由于每份论文仅有4位评委对其评阅,因此中仅有4个数不为零,根据每个网评成绩的标准分,可得到第份论文的网评平均标准分为 。 (3) (Ⅳ)根据附件中每份论文的最终成绩,可得到各题获奖各奖项的获奖比例及获奖份数,如表3.1-表3.5: 表3.1 A题获奖比例与试卷数 A题获奖等级 一等奖 二等奖 三等奖 不获奖 获奖比例 4.225% 16.34% 21.69% 57.745% 获奖试卷数 15 58 77 205 表3.2 B题获奖比例与试卷数 B题获奖等级 一等奖 二等奖 三等奖 不获奖 获奖比例 2.0498% 17.7891% 22.4012% 57.7599% 获奖试卷数 28 243 306 789 表3.3 C题获奖比例与试卷数 C题获奖等级 一等奖 二等奖 三等奖 不获奖 获奖比例 3.6885% 18.0318% 21.3115% 56.9682% 获奖试卷数 18 88 104 278 表3.4 D题获奖比例与试卷数 D题获奖等级 一等奖 二等奖 三等奖 不获奖 获奖比例 1.9895% 17.9637% 23.0544% 43.0076% 获奖试卷数 34 307 394 974 表3.5 E题获奖比例与试卷数 E题获奖等级 一等奖 二等奖 三等奖 不获奖 获奖比例 2.5052% 17.9541% 22.3382% 42.7975% 获奖试卷数 24 172 213 549 (Ⅴ)根据网评成绩平均标准分可对试卷进行排序,并根据该题的获奖比例确定网评成绩的获奖情况,得到网评成绩的向量,其中 (Ⅵ)根据网评成绩向量和终评成绩向量进行比对,若与吻合度高,则说明网评成绩与终评成绩相关度高,否则说明网评成绩与终评成绩相关度低。 为了更加客观全面地度量网评成绩与终评成绩的相关性,我们分别定义了吻合度指数和差异度指数,统计学相关性指标:Person相关系数、Spearman相关系数以及Kendall tau-b相关系数等,并分别就五道题的网评数据进行计算。 (1)吻合度指数与差异度指数 为了度量网评成绩与最终成绩的相关性,我们需要对网评成绩与终评成绩进行比对。对每道题的网评成绩与终评成绩,定义向量:,则向量中分量的数值表示网评成绩和终评成绩的差异值,可能取值为0,1,2,3,其中表示第份试卷的网评成绩与终评成绩的等级差值。统计中0,1,2,3的个数和比例,得到下面的结果: 表3.6 网评成绩与终评成绩的绝对差值所占比例 等级差值 绝对吻合 相差一级 相差二级 相差三级 A题比例 0.6733 0.3042 0.0225 0 B题比例 0.7438 0.2416 0.0146 0 C题比例 0.7029 0.2521 0.0430 0.0020 D题比例 0.4236 0.3464 0.2112 0.0187 E题比例 0.7474 0.2390 0.0136 0 根据上面表格中的比例,做出A题网评成绩与终评成绩的吻合度比例的饼图如下: 图3.1 A题网评与终评吻合度分析图 类似地,画出其他各题的吻合度比例图如下: 图3.2 各题网评与终评吻合度分析图 从上面的饼图可以看出,蓝色区域表示绝对吻合占有最大的比例,说明网评成绩与终评成绩具有较强的相关性。记表示的分量中0的个数,定义吻合度指数和差异度指数分别为: ,以及= (4) 显然,越大反映网评成绩与终评成绩相关度越大,且;而越大则反映网评成绩与终评成绩的相关性越低。另外,值仅反映了网评成绩与终评成绩的一致性,而没有度量网评成绩与终评成绩的差异度;但差异度指数正好补充了这一缺点,不仅反映了网评成绩与终评成绩的不一致性,而且在数值上度量了网评成绩与终评成绩的差异度。我们分别计算各题的吻合度指数和差异度指数得到下面的表3.7: 表3.7各题的吻合度指数和差异度指数 题目 A题 B题 C题 D题 E题 吻合度指数 67.33% 74.38% 70.29% 42.36% 74.74% 差异度指数 34.93% 27.09% 34.43% 82.50% 26.62% 根据吻合度指数,我们得到各题的网评成绩与终评成绩的排序为:E题>B 题>C题>A题>D题。即E题的网评成绩与终评成绩的相关性是最高的,D题的网评成绩与终评成绩相关度最低。 根据差异度指数对各题的网评成绩与终评成绩的排序为:E题>B 题>C题>A题>D题。即E题的网评成绩与终评成绩的相关性是最高的,D题的网评成绩与终评成绩相关度最低。与根据吻合度指数得到的相关性结果相同。 (2)统计学相关性指标 为了从统计学上度量网评成绩与终评成绩的相关性,我们定义一些相关性统计指标:Person相关系数、Spearman以及Kendall tau-b等级相关系数。 Person相关系数是度量两个向量线性相关程度的指标,定义为: , (5) 其中。Person相关系数的取值在-1和1之间,度量了向量和的相关性,当为正且越大则表明网评成绩与终评成绩相关度越高;而越小并近似为零时,说明网评成绩与终评成绩相关度很低;当为负数越大,说明网评成绩与终评成绩呈现负相关。 若把向量和的分量进行排序后得到秩向量,并根据秩向量定义相关系数,这种相关系数称为Spearman相关系数,定义为: , (6) 其中分别为的秩。因为Spearman相关系数是根据秩定义的,因此不受量纲的影响。 另外,我们定义Kendall tau等级相关系数为 , (7) 其中为次序一致的个数。 根据上述三种相关系数的定义,我们得到A、B、C、D、E题的结果如下表:. 表3.8 不同方法下的相关性检验结果 题目 Pearson Spearman Kendall tau-b A 0.7539 0.7520 0.6939 B 0.7883 0.8070 0.7524 C 0.7196 0.7621 0.7001 D 0.0373 0.0314 0.0284 E 0.8004 0.8141 0.7586 由表3.8可看出网评成绩与最终成绩呈正相关,且A题、B题、C题和E题的相关系数都大于0.5,说明两者有较强的相关性,其中B题的相关度最大。而D题的相关度最小。 3.2 度量评委基本素质指标体系的建立 本小节我们将建立评价评委的指标体系。由于我们可用的数据仅为各评委所评论文的分数以及该试卷的最终成绩,为了度量评委的基本素质,我们从两方面提出评价评委的指标体系:①评委所评试卷与他人评卷的差异,提出评阅宽严度指标和评分偏离度指标。②该评委所评试卷的网评成绩的获奖等级与终评成绩的差异,提出评委吻合度指数及评委差异度指数。 (1)评阅标准的宽严度 集中趋势和离散趋势是数据分布的两个基本特征。集中趋势反映了一组数据的中心位置,即一组数据的代表值。在专家网评过程中,集中趋势反映的是评委对评分标准把握的宽严程度,即总的说来,其对论文的评定是偏松还是偏严,但对宽严问题,我们首先要找到一个参照点,然后把评委的评分与这个参照点比较,才可能确定其宽严程度。这里我们采取区间估计和假设检验的思想,若将所有评委对第份论文的评分看为一个总体,可假设该总体是服从正态分布的,且均值为该论文的实际成绩。此时某个评委对该论文的评定成绩可看为个体。若该个体与总体均值相差很大,则认为该评委对论文的评定不是很准确。 因此,给定一个标准,若,则表示该评委对论文的评审过宽;若,则表示该评委对论文的评审过严,且越小代表该评委对论文的评审结果越准确。 定义为评委对第份论文网评结果的偏差。由于每位评委不只评一份论文,因此可用其平均偏差 来度量评委的宽严度。因此给定标准,若,则认为评委偏松;若,则表示评委偏严;若,则表示评委评阅宽严度适中。 由于未知,我们若用除去评委的其他三位评委的平均分来估计,令,其中表示除去评委的其他三位评委的平均分。因此,若,则可认为评委相对其他评委偏松,若,则表示评委相对其他评委偏严,若,则表示评委评阅宽严度适中。 (2)评委评分偏离度 根据评阅标准宽严的分析,绝对值度量了第个评委相对其他评委评分的偏离度。定义 称为评委的平均偏离度。该数值度量评委与其他评委评阅的差异。的值越小,表示评委相对其他评委的离差越小,可作为一个度量评委基本素质的指标体系。 (3)评委吻合度指数 根据问题1吻合度的定义,我们可对每位评委定义其评定吻合度,即可定义第位评委的吻合度指数为该评委评阅的所有论文的网评成绩与最终成绩完全吻合的论文份数在其评阅的所有论文中所占的比例。可作为评价每位评委基本素质的一个指标体系,某评委的吻合度指数越高,代表其评分更准确。 (4)评委差异度指数 同样地,根据问题1差异度指数的定义,我们可分别对每位评委定义其差异度指数,即为该评委评阅的所有论文的网评成绩与最终成绩之差的绝对值的平均值。也可作为度量评委基本素质的一个指标体系。 3.3 问题三的模型建立与求解 根据上一节我们对评价评委基本素质的指标体系的分析可知,评阅标准的宽严指标值并不能反映该评委的综合素质,并且对原始分的标准化后基本能消除宽严度对论文评审的影响。 下面我们根据评委评分偏离度、评委吻合度指数和评委差异度指数等三个指标建立三个数学模型,来度量各评委的基本素质,并运用于附件中的评审数据。 (1) 评委评分偏离度指数 如上面所分析的,我们可对第位评委建立评分偏离度模型: (8) 其中表示除去评委的其他三位评委的平均分。越小,表示评委相对其他评委的差异越小。 (2)评委吻合度指数 根据问题1建立的模型及问题2建立的评价评委基本素质的指标体系我们可对每位评委分别建立其吻合度指数模型: , (9) 其中为第位评委参加评阅的所有份论文中,网评成绩与最终成绩差值为零的个数。值越大,表示第位评委的网评成绩更准确。 (3)评委差异度 同样引用问题1的记号,向量,其中表示第份试卷的网评成绩与终评成绩的等级差值,可能取值为0,1,2,3。我们定义差异度指数模型为: 。 (10) 越小,表明第位评委的网评成绩越有效,即与所评论文的真实水平更接近。 根据上述三个评价评委基本素质的数学模型,我们首先对A题计算每位评委的各评价指标值并进行排名,得到结果如下表3.9。 表3.9 A题评委基本素质指标值及排名 名次 评委 评委 评委 1 A03 3.8278 A06 0.7379 A14 0.2843 2 A06 3.8579 A14 0.7255 A13 0.2843 3 A14 4.0571 A13 0.7157 A06 0.301 4 A07 4.0727 A01 0.7129 A03 0.3107 5 A12 4.2725 A02 0.71 A01 0.3168 6 A13 4.5206 A09 0.6961 A02 0.33 7 A09 4.7778 A04 0.69 A09 0.3333 8 A08 4.9844 A03 0.6893 A04 0.34 9 A04 5.0244 A10 0.6634 A10 0.3663 10 A02 5.2674 A08 0.6569 A08 0.3725 11 A11 5.4333 A07 0.65 A07 0.38 12 A01 5.4468 A12 0.6238 A12 0.3861 13 A05 6.7566 A11 0.6078 A11 0.4118 14 A10 7.7309 A05 0.5446 A05 0.4752 从上表中可以看出,从评委评分偏离度来看,最优阅卷评委的前三名是A03,A06和A14,而从评委吻合度指标排名的前三名则是A06,A14和A13,从评委差异度排名的前三名则为A14,A13和A06。因此选取不同的指标对评委的评价得出的结论是不同的。 若综合考虑评委评分偏离度、评委吻合度和评委差异度三个指标对评委用SPSS软件进行聚类分析,则可以得到下面的聚类图3.3。 图3.3 A题评委聚类树状图 根据上面聚类图,可将A题评委分为四类:优秀,良好,中等和较差,结果如下表。 表3.10 A题评委综合三个指标的聚类结果 聚类等级 优秀 良好 中等 较差 评委序号 A06,A14,A13,A01 A02,A09,A04,A03, A08,A07,A12,A11 A10 A05 同理,分别计算B题、C题、D题、E题的各指标值并进行排名(结果见附录1),然后综合三个指标对评委的基本素质进行聚类(聚类图见附录2),能够筛选出优秀评委,结果如下: 表3.11 BCDE题评委综合三个指标的聚类结果 聚类 等级 优秀 良好 中等 较差 B题 评委 序号 B19,B29,B30, B38,B42,B46, B54 B03,B08,B11,B12,B13,B15,B22,B25,B26,B27,B28,B31,B37,B40,B45,B49,B50,B51,B52,B53 B01,B02,B04,B05, B06,B07,B09,B10, B14,B16,B17,B18, B20,B21,B23,B24, B32,B33,B34,B35, B36,B39,B41,B43, B44,B47,B48, B55 C题 评委 序号 C12,C14,C17, C02,C09 C11,C13,C15,C20,C03,C04 C01,C10,C18,C05, C06,C07,C08 C16,C19 D题 评委 序号 D01,D06,D07, D12,D19,D33, D35,D41,D44, D45,D46,D51 D03,D05,D10,D16,D24,D26,D29,D36,D37,D40,D42,D49,D54,D55,D57,D63,D64,D68 D02,D04,D08,D09,D11,D13,D20,D21,D22,D25,D27,D28,D31,D32,D34,D38,D39,D43,D47,D48,D50,D52,D53,D56,D58,D59,D60,D62,D65,D66,D69 D14,D15,D17,D18,D23,D30,D61,D67 E题 评委 序号 E07,E09,E18, E19,E20,E21, E30,E38 E01,E02,E03,E22,E23,E26,E27,E32 E04,E05,E06,E10,E11,E12,E13,E15,E16,E17,E24,E28,E29,E31,E35,E36,E37 E08,E14,E25,E33,E34 根据上面的聚类结果,我们容易得到各题评委的素质表现,并对评委的表现进行评价或者评选优秀评委。 3.4 问题四模型建立与求解 本节主要解决五个不同题目的评委的整体表现之间是否存在显著性差异,我们可根据问题3中各评委的评价指标得分运用方差分析的方法进行判断。有关方差分析的方法可参考文献[7]。由于进行方差分析要满足一些基本假定,即正态性、方差齐性、独立性假设,由于各评委评分是相互独立的,因此独立性假设满足。下面我们首先对指标得分进行正态性及方差齐性检验。 以评委的评分偏离度为例,我们将ABCDE看成五个总体,每个总体中若干个评委的评分偏离度看成总体的独立同分布样本,设不同题目的样本容量分别为,样本分别为,表示第题第位评委的评分偏离度。首先运用Matlab软件对五个题目的评委评分偏离度画出相应的QQ-Plot(分位数-分位数图),如图3.4,其中不同的图形标记代表不同题目对应的QQ-Plot。 图3.4 评委评分偏离度的正态性检验QQ-Plot 从上面的QQ-Plot可以看出,这五个题目的评分偏离度的QQ-Plot都近似为直线,因此可以假设这些总体的评分偏离度都服从正态分布。同样的,可画出评委的吻合度指数及差异度指数的QQ-Plot,如图3.5-3.6,由图可看出不同题目下,这两个指标的QQ-Plot都近似为直线,因此,也可以假设这些总体的吻合度指数及差异度指数都服从正态分布。且由吻合度指数的QQ-Plot可看出D题的吻合度指数明显大于其他题目的。 图3.5 评委吻合度指数的正态性检验QQ-Plot 图3.6 评委差异度指数的正态性检验QQ-Plot 下面进行方差齐性检验。同样以偏离度为例,设第个题目(总体)的评分偏离度服从正态分布。为了对五个总体的均值进行方差分析,我们首先做下面的方差齐性检验: VS 方差齐性检验有多种方法,最常用的是Bartlett检验,检验统计量为 , (11) 其中,为因子水平数,为第题目的样本方差,为自由度,为组内偏差平方和,表达式为。对给定的显著性水平,我们做上述检验,结果如表3.12: 表3.12 各评价指标的方差齐性检验结果 统计量 df1 df2 显著性 偏离度 1.428 4 191 .226 吻合度 1.740 4 191 .143 差异度 4.840 4 191 .011 因此该检验的为0.226,显然大于0.05,根据假设检验的思想,则接收原假设,即可认为这五个总体的方差相等。同样的,对另外两个指标得分做方差齐性检验,得到结果如表3.12,认为这五个总体的吻合度得分及差异度得分的方差均相等。 设第个题目(总体)的评分偏离度服从正态分布。即各个总体的评分偏离度具有相同的方差。为了说明不同题目(总体)在评分偏离度上的表现,则我们的目标是检验下面的假设: VS 从统计学上看,将这五个题目的总体看成评委评分偏离度的五个水平,因此为了检验,实际上就是对这五个总体做方差分析。根据样本数据,运用SPSS对上述假设做方差分析,得到方差分析表如下: 表3.13评委评分各指标的方差分析结果 平方和 df 均方 F 显著性 偏离度 组间 28.508 4 7.127 14.016 .000 组内 97.121 191 .508 总数 125.630 195 吻合度 组间 4.303 4 1.076 575.886 .000 组内 .357 191 .002 总数 4.660 195 差异度 组间 12.961 4 3.240 860.826 .000 组内 .719 191 .004 总数 13.680 195 由上表可看出值均为零,因此拒绝原假设。即认为不同题目的评委在评分偏离度、吻合度、差异度上的表现均存在显著性差异。 为了分析题目两两之间的差异,我们进行多重比较,即做下面的假设检验: 由于不同题目的样本容量不同,我们采用重复数不等情况的S法,这是Scheffe在1953年提出的多重比较法。若给定显著性水平,令 ,. 当时,,拒绝原假设,即认为题目与题目的评委之间存在显著性差异,否则保留原假设,认为两题的评委之间不存在显著性差异。我们运用SPSS对不同题目两两之间进行检验,得到结果如表3.14。 表3.14各题目之间偏离度方差分析表 题目 F值 P值 题目 F值 P值 AB 13.430 .000 BD 1.370 .244 AC .078 .782 BE .955 .331 AD 18.764 .000 CD 39.211 .000 AE 15.094 .000 CE 36.152 .000 BC 30.613 .000 DE .003 .960 由表可得出,从偏离度角度分析,AB、AD、AE、BC、CD、CE题目的评委整体表现存在显著性差异,AC、BD、BE、DE题目的评委之间不存在显著性差异。因此,我们可判断AC题目评委之间不存在显著性差异,BDE题目的评委之间不存在显著性差异。由此分析可能产生显著性差异的原因,可以从两个方面考虑:一方面是客观环境的因素,即评阅AC题目的评委与评阅BDE题目的评委在不同的环境下评阅。另一方面,注意到不同的题目的难度不同,在评阅时可能引起的评委之间的分歧也不同。均方很小的题目表明评委在评阅时产生的分歧比较小,而均方较大的题目表明题目的难易程度有较大差别,导致评委在评阅试卷时产生的分歧较大,也说明题目的题型倾向于更加灵活。 类似地,我们可以对五个题目两两之间的评委吻合度和评委差异度做方差分析,得到结果分别如表3.15及表3.16,分析两种结果均与从偏离度角度分析的结果相同。 表3.15 各题目之间吻合度方差分析表 题目 F值 P值 题目 F值 P值 AB 24.142 .000 BD .991 .301 AC 3.840 .059 BE .169 .682 AD 341.556 .000 CD 672.379 .000 AE 35.095 .000 CE 23.622 .000 BC 13.560 .000 DE .725 .547 表3.16 各题目之间差异度方差分析表 题目 F值 P值 题目 F值 P值 AB 24.815 .000 BD .916 .361 AC .002 .963 BE .225 .637 AD 475.693 .000 CD 643.595 .000 AE 38.429 .000 CE 44.857 .000 BC 32.254 .000 DE .292 .611 3.5.问题五的数学模型 问题5中要求分析网评成绩加入总成绩的利弊,并对如何更有效地利用网评成绩给出相应的结论。 在目前的方案中,集中评审阶段每份论文由三位评委按“百分制”独立评审,把每位评委的给出的分数全部换算成标准分,然后将每份论文的三个标准分与网评中该论文的平均标准分加在一起,求得的平均分就作为该论文的最终成绩。设第份论文的最终标准成绩为,集中评审的成绩标准分为,则现在方案的最终成绩可用下面的公式来表述: 其中 分别表示第份论文在集中评审阶段由三位评委给出成绩换算得到的标准分, 表示第份论文在集中评审阶段由三位评委给出成绩的平均标准分。 根据上式,最终成绩实际上是网评平均成绩和终评平均成绩的加权平均,且网评平均标准分在最终成绩中所占的权重因子为 。为了进一步分析将网评成绩在最终成绩中所起的作用,定义最终成绩为 , 其中权重因子的取值范围为 。从上面公式中可以看出,当增大时,意味着第份论文的网评平均标准分对总成绩的影响会增大,反之,当减小时,意味着第份论文的网评平均标准分对总成绩的影响会减小。 特别地,当时,说明网评成绩不加入总成绩,第份论文的最终成绩只由集中评审阶段的三位评委的平均标准分决定。当 时,只考虑第份论文的网评平均标准分,不考虑集中评审阶段的平均标准分。 显然,的选取对终评成绩具有很大的影响。那么,如何选取最优的权重因子呢?的选取又跟那些因素有关?下面我们建立权重因子的贝叶斯模型,探讨网评成绩对终评成绩的影响。 假设某份论文的真实成绩为,由于论文成绩的异质性(参考文献[3]),假设本身也是随机变量,服从正态分布。一般地,假设在网评阶段有位评委对该论文进行评分,则在给定条件下,第个评委对该论文所评的网评标准分相互独立并服从,;而在集中评审时有位评委对论文进行评分,且假设其评分标准成绩相互独立且服从,。假设网评成绩在终评成绩中所占比例为,即终评成绩为 ,其中,. 即是的一个加权估计。我们求解下面的最优化问题 . 定理1:在上面的模型中,网评成绩在终评成绩中所占的最优比例为 . (12) 因此论文真实分数的最优估计为 . (13) 证明:令,对关于求导并令导数为零,可解出最优权重为 . 根据条件期望公式有 , 以及.因此可得 .证毕。 从定理1可以看出,影响权重因子的因素包括:(a)每份论文的网评评委个数;(b)每份论文的集中评审评委个数;(c)网评评委的方差;(d)集中评审评委的方差;(e)试卷分数本身的方差。 根据的表达式,我们得到下面的结论。 推论1:网评成绩的权重因子可以表达为 是的增函数,即网评的评委个数越多,则网评成绩所占的比重越大。 这是符合实际情况的。因为网评的评委越多,则评审出来的成绩就更加真实,具有代表性。 推论2:网评成绩的权重因子是网评专家的评分方差的减函数,是集中评审专家的评分方差的增函数。 显然,方差在某种意义上代表了评审专家的评阅水平,方差越小表示该评委专家的评分越准确。因此网评专家的水平越高则应对网评成绩赋予更大的权重,反之集中评审专家的水平越高则应对网评成绩赋予更小的权重。 推论3:网评成绩的权重因子是试卷分数本身方差的增函数。 根据定理1和以上三个推论,我们可以根据具体的情况设计最优的权重因子,使得最终的成绩评价更加合理。当然,由于中的方差,和是未知的,若有集中评审的数据,则可根据贝叶斯统计的方法对这些参数进行估计。可参考文献[8-9]。 四、模型的推广及优缺点分析 本文对某竞赛网评的结果建立了数学模型,并讨论了网评成绩与终评成绩的相关度,根据评审数据分析了网评的评委专家的综合素质,最后给出了分析了网评成绩加入总成绩的利弊,利用贝叶斯统计的方法建立了网评成绩在总成绩中的最优权重模型,得到了最优权重的确定方法。 本模型可推广到人才选拔、公司招聘、公务员录用等相关领域。本模型不仅给出了竞赛论文的网评成绩的定性分析,更重要的是从数学上建立了模型,定量分析了网评成绩与最终成绩的相关度,定量分析了评委的综合素质情况,还建立了网评成绩的最优占比模型,在实际中直接运用。然而,本题没有给出论文的集中评审数据,使得无法估计出最优权重中的方差参数,仅仅能分析得到影响网评成绩的最优权重的因素。 参考文献 [1] 何晓群.多元统计分析(第二版)[M].北京:中国人民大学出版社,2008.9. [2] 赵海燕,芮男.双评作文题网上阅卷评卷教师评卷水平评价维度的确定[J].评价与测量,2009(02):12-17. [3] 姚泽清,郑旭东,赵颖.全国大学生数学建模竞赛题与优秀论文评析[M].北京:国防工业出版社,2012. [4] 方道元,韦明俊.数学建模:方法导引与案例分析[M].浙江大学出版社2011. [5] 姜启源,谢金星,叶俊.数学模型(第4版)[M].高等教育出版社,20展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




本科毕业论文---关于某竞赛网评结果的建模与分析.doc



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/2147807.html