定量变量的统计描述.ppt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 定量 变量 统计 描述
- 资源描述:
-
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,卫生统计学,(第七版),第二章 定量变量的统计描述,定量变量的,统计描述,统计图表,统计指标:,集中趋势指标,离散趋势指标,利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述定量资料的统计指标的意义与计算。,一、,频率分布表与频率分布图,(,Frequency/Frequency distribution),二、,描述平均水平统计指标,(,Description of,central tendency,),【,教学内容,】,三、,描述变异程度统计指标,(,Description of,tendency of dispersion,),四、,描述分布形态统计指标,(,Description of distribution),五、,统计表与统计图,(,statistical table,statistic chart,),【,教学内容,】,变 量,统计学,卫生统计学,研,究,内,容,定性变量,定量变量,统计描述,统计推断,随机性现象,概率论,数理统计,统计描述,:,从资料中获取信息最基本的方法,把握资料基本的特征,为统计分析打下基础,表,2-2,120,名,18-35,岁健康男性居民血清铁含量(,umol/L,),7.42,8.65,23.02,21.61,21.31,21.46,9.97,22.73,14.94,20.18,21.62,23.07,20.38,8.4,17.32,29.64,19.69,21.69,23.9,17.45,19.08,20.52,24.14,23.77,18.36,23.04,24.22,24.13,21.53,11.09,18.89,18.26,23.29,17.67,15.38,18.61,14.27,17.4,22.55,17.55,16.1,17.98,20.13,21,14.56,19.89,19.82,17.48,14.89,18.37,19.5,17.08,18.12,26.02,11.34,13.81,10.25,15.94,15.83,18.54,24.52,19.26,26.13,16.99,18.89,18.46,20.87,17.51,13.12,11.75,17.4,21.36,17.14,13.77,12.5,20.4,20.3,19.38,23.11,12.67,23.02,24.36,25.61,19.53,14.77,14.37,24.75,12.73,17.25,19.09,16.79,17.19,19.32,19.59,19.12,15.31,21.75,19.47,15.51,10.86,27.81,21.65,16.32,20.75,22.11,13.17,17.55,19.26,12.65,18.48,19.83,23.12,19.22,19.22,16.72,27.9,11.74,24.66,14.18,16.52,目的:描述该组,18-35,岁健康男性居民血清铁含量,的分布规律。,问题,1.,该组,居民血清铁含量,平均值多少?,问题,4.,用表,/,图表示,血清铁,分布,?,问题,2.,血清铁含量,范围?最高多少?最,低,多少?,问题,3.,血清铁含量,主要集中在哪个范围,?,?,集中趋势,频数表,频数分布图,离散趋势,【,教学要求,】,了解频数分布表的编制方法及应用,掌握数值变量资料的平均水平、变,异程度常用统计描述指标,及各自,的应用。,第一节 频数与频数分布,频数,(frequency),:对一个随机变量做重复观察,其中某变量值出现的次数。,频数分布表,(,frequency distribution table,),:将各变量值及其相应的频数列成表格的形式。,例,2-2,抽样调查某地,120,名,18,岁,35,岁健康男性居民血清铁含量,(mol/L),,,试编制频数分布表。,频数表的编制:,一、连续型定量变量的频数分布,(二)连续型变量频数表的编制方法:,求全距,列表划记,步骤:,写组段,定组距,求全距,(Range,简记,R),:,是一组资料中最大值(,Xmax,)与最小值(,Xmin,)之差,亦称极差,。,全距(,R,),=,X,max,-,X,min,=29.64,7.42=22.22,(,umol/L,),7.42,8.65,23.02,21.61,21.31,21.46,9.97,22.73,14.94,20.18,21.62,23.07,20.38,8.4,17.32,29.64,19.69,21.69,23.9,17.45,19.08,20.52,24.14,23.77,18.36,23.04,24.22,24.13,21.53,11.09,18.89,18.26,23.29,17.67,15.38,18.61,14.27,17.4,22.55,17.55,16.1,17.98,20.13,21,14.56,19.89,19.82,17.48,14.89,18.37,19.5,17.08,18.12,26.02,11.34,13.81,10.25,15.94,15.83,18.54,24.52,19.26,26.13,16.99,18.89,18.46,20.87,17.51,13.12,11.75,17.4,21.36,17.14,13.77,12.5,20.4,20.3,19.38,23.11,12.67,23.02,24.36,25.61,19.53,14.77,14.37,24.75,12.73,17.25,19.09,16.79,17.19,19.32,19.59,19.12,15.31,21.75,19.47,15.51,10.86,27.81,21.65,16.32,20.75,22.11,13.17,17.55,19.26,12.65,18.48,19.83,23.12,19.22,19.22,16.72,27.9,11.74,24.66,14.18,16.52,2.,定组距,:将全距分为若干段,称为,组段,。组与组之间的距离,称为,组距,;用小写,i,表示。,原则,:,(,1,)“组段”数一般为,8-15,个;(,2,)“组距”一般为,R/10,取整;(,3,),为计算方便根据组距采取取整数方法,本例题:,组距(,i,),=,全距,/,预分组段,=22.22,/10=2.222,(,umol/L,),3.,写组段,:即将全距分为若干段的过程,。,原则,:,(,1,)第一组段要包括,X,min,,最末组段包括,X,max,;,(,2,),每组段均用下限值加“,”,表示,最终组段同时注明上下限。,注意:各组段不能重叠,每一组段均为半开半闭区间。,4.,列表划记:,根据预定的组段和,组距,用划记的方法整理原始资料。,表,2-3 120,名,18-35,岁健康男性居民血清铁含量的频数分布表,6,8,10,12,14,16,18,20,22,24,26,2830,合计,一,上,正一,正上,正正丅,正正正正,正正正正正丅,正正正上,正正丅,正上,止,一,1,3,6,8,12,20,27,18,12,8,4,1,组段,划记,频数,120,表,2.2,120,名,18-35,岁健康男性居民血清铁含量(,umol/L,)频数表,组段 频数 频率,%,累计频数 累计频率,%,6 1 0.83 1 0.83,8 3 2.50 4 3.33,10 6 5.00 10 8.33,12 8 6.67 18 15.00,14 12 10.00 30 25.00,16 20 16.67 50 41.67,18 27 22.50 77 64.17,20 18 15.00 95 79.17,22 12 10.00 107 89.17,24 8 6.67 115 95.83,26 4 3.33 119 99.17,2830 1 0.83 120 100.00,合计,120 100.0,特点:中间高、两侧逐渐下降、左右基本对称的分布,-,直方图,(,直条间连续,),,用于表达连续型变量的频数分布。,频数直方图,(,frequency distribution figure,),:,根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。,的频数是,7,,,频率为,7.3%,,进行,3,次检查,的频数是,11,,,频率,为,11.5%,,,,进行,5,次以上检查的,频数是,12,,频率为,12.5%,。,进行,0,次检查的频数是,4,,其频率为,4.2%,,,进行,1,次,检查,0,,,3,,,2,,,0,,,1,,,5,,,6,,,3,,,2,,,4,,,1,,,0,,,6,,,5,,,1,,,3,,,3,,,,,4,,,7,二、离散型定量变量的频数分布,例,2-1,(,P11,),离散型变量的频数分布表每一个组段就是一个固定的取值,离散型变量的频数分布图,直条图,横坐标为产前检查次数;纵坐标为 频率,即产前检查,K,次的妇女在被统计妇女中所占的比例,%,。图中等宽矩形长条的高度与相应检查次数的频率呈正比。,频率:各组的频数除以总例数,n,所得的比值。频率描述了各组频数在全体中所占的比重,各组频率之和等于,100%,。,累计频数:本组段的频数与以前各组段的频数相加;累计频率:每组段的累计频数除以总例数。,三、频数分布的两个特征,集中趋势:血清铁含量向中央部分集中,,即中等含量者居多,集中在,18,这个组段,这种现象为集中趋势。,离散趋势:从中央部分到两侧的频数分布,逐渐减少,而且,血清铁含量,的值参差不齐,,最低的接近,6,,最高的接近,30,,,这种现象称为离散趋势。,由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。,离散趋势或变异程度是指观察值之间参差不齐的程度。,血清胆固醇组段,(,1,),划记,(,2,),频数,(,3,),2.30,2.60,2.90,3.20,3.50,3.80,4.10,4.40,4.70,5.00,5.30,5.60,一,下,正一,正下,正正正丅,正正正正,正正正丅,正正丅,正止,正,丅,一,1,3,6,8,17,20,17,12,9,5,2,1,表,2-2,某地,101,名,正常成年女子血清总胆固醇,的频数表,合计,140,从中央部分到两侧的频数分布逐渐减少、血清胆固醇的的值参差不齐,离散趋势,血清胆固醇值向中央部分集中,即中等含量者居多,集中趋势,频数分布,四、频数分布的类型,对称分布型:指集中位置在正中,左右,两侧频数分布大体对称,。,偏态分布型:指集中位置偏向一侧,频数,分布不对称。,偏态分布,正偏态分布:集中位置偏向数值小的一侧。,负偏态分布:集中位置偏向数值大的一侧,。,(三)频数表的用途:,1.,揭示变量的分布特征,图,3.1,某市,100,名,8,岁男童身高,(cm),的频数分布,离散趋势,(,tendency of dispersion),集中趋势与离散趋势结合能全面反映频数的分布特征,集中趋势,(,central tendency),身高,(cm),频数,分布特征,2.,揭示变量的分布类型,频数,分布,偏态,分布,正偏,负偏,集中部位在中部,两端渐少,左右两侧的基本对称,为,对称(正态,),分布,。,对称,分布,集中部位偏于较小值一侧,(,左侧,),,较大值方向渐减少,为,正偏态分布,。,集中部位偏于较大值一侧,(,右侧,),,较小值方向渐减少,为,负偏态,分布,。,4.,便于进一步计算统计指标和统计分析,3.,便于发现某些离群值或极端值,。,图,3.1,某市,101,名,8,岁男童身高,(cm),的频数分布,身高,(cm),频数,一,.,集中趋势统计指标:反映总体内部的同质。二,.,离散度统计指标:反映总体内个体间的变异。三,.,分布形态统计指标:反映高峰的形态。,第二节 描述平均水平的统计指标,平均数,:描述一组同质计量资料的集中趋势;反映一组观察值的平均水平。,常用的平均数有算术均数,几何均数和中位数。,(一)算术均数,(mean),:简称均数,总体均数用希腊字母,表示,样本均数用拉丁字母 表示。,1.,计算方法,1,)直接法:适用于样本例数,n,较少的资料。,其中,X,1,,,X,2,X,n,为各变量值,,n,为样本例数。,2,)加权法:适用于变量值较多的资料。,K=1,、,2,、,3.,,,f,k,为第,k,组段的频数,,X,0k,为第,k,组段的组中值,组中值,=(,本组段下限,+,下组段下限,)/2,。,权,即频数多,权数大,作用也大,频数小,权数小,作用也小。,10,,,10,,,10,,,15,,,15,10,有,3,个,权数为,3,,计算均数时起,3/5,的作用,频数多,权数大,作用大,15,有,2,个,权数为,2,,计算均数时起,2/5,的作用,频数小,权数小,作用小,例,2-3,某年某医院,8,名女性晚期肺癌患者红细胞计数,(10,12,/L),为,4.20,,,6.43,,,2.08,,,3.45,,,2.26,,,4.04,,,5.42,,,3.38,。试求其算术均数。,例,2-4,求例,2-2,中某地,120,名,18-35,岁健康男性居民的血清铁含量的均数。,120,名,18-35,岁健康男性居民,血清铁含量均数、标准差计算表(加权法),组段 频数(,f,)组中值(,X,0,),fX,0,(1)(2)(3)(4)=(2)(3)(5)=(3)(4),6,8,10,12,14,16,18,20,22,24,26,2830,合计,120,(,f,),2228(fX,0,)43640(),1,3,6,8,12,20,27,12,10,8,4,1,7,27,66,104,180,340,513,378,276,200,108,29,7,9,11,13,15,17,19,21,23,25,27,29,49,243,726,1352,2700,5780,9747,7938,6348,5000,2916,841,2.,算数均数的应用 它最适用于,对称分布资料,,尤其是,正态分布资料,。因为这时均数位于分布的中心,最能反映资料的集中趋势。,(,二)几何均数,(,geometric mean,),:,(几何均数也称为倍数均数,用,G,表示),1.,几何均数的计算方法,1,)直接法:适用于样本例数,n,较少的资料。将,n,个观察值,X,1,,,X,2,,,X,3,X,n,的乘积开,n,次方,对数形式:,G=lg,-1,(lgX,1,+lgX,2,+lgX,3,+lgX,n,)/n=,lg,-1,(lgX/n),例,2-5 7,名慢性迁延性肝炎患者的,HBsAg,滴度资料为,1,:,16,,,1,:,32,,,1,:,32,,,1,:,64,,,1,:,64,,,1,:,128,,,1,:,512,。求其平均效价。,7,份,HBsAg,的平均滴度为,1,:,64,2,)加权法:适用于样本例数,n,较多的资料。,X,1,,,X,2,X,n,为各组段的滴度或滴度倒数。,f,1,,,f,2,f,n,分别为各组段的频数。,例,2-6 52,例慢性肝炎患者的,HBsAg,滴度数据见表,求其平均滴度。,52,例慢性肝炎患者的,HBsAg,滴度的几何均数为,1:119.74705,二)几何均数应用的注意事项:,1,)几何均数常用于,等比资料,或,对数正态分布资料,。,2,)观察值中不能有,0,。,3,)观察值中不能同时有正值和负值。,练习题:,1.,有,8,份血清的抗体效价分别为:,1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640,求平均抗体效价。,2.,有,50,人的血清抗体效价,分别为:,5,人,1:10,9,人,1:20,20,人,1:40,10,人,1:80,6,人,1:160,求平均抗体效价,。,中位数(,median,M,),:,将一组变量值从小到大按顺序排列,位次居中的那个变量值就是中位数。,(三)中位数和百分位数,百分位数(,percentile,Px,),:,指把数据从小到大排列后位于第,X%,位置的数值。,有,n,个观察值,X1,,,X2Xn,,把他们由小到大按顺序排列成,X1X2X3Xn,,将这,n,个观察值,平均的,分为,100,等份,对应于每一等份的数值就是一个百分位数,,对应于前面,X%,个位置的数值称为第,X,百分位数,用,Px,表示。,一个百分位数,Px,将总体或样本的全部观察值分为两部分,理论上,在不包括,Px,的全部数据中有,X%,的观察值比它小,有,(100-X,),%,的观察值比它大。,1.,中位数和百分位数的计算,1,),直接法:,适用于样本例数,n,较少的资料。将观察值按大小顺序排列,当,n,为,奇数,时,中间那个数就是中位数。当,n,为,偶数,时,中间两个数的平均数就是中位数。,例,2-7,某药厂观察,9,只小鼠口服高山红景天醇,提物(,RSAE,)后在乏氧条件下的生存时间(分钟),如下:,49.1,,,60.8,,,63.3,,,63.6,,,63.6,,,65.6,,,65.8,,,68.6,,,69.0 n,为奇数,,M=63.6,(,cm,),练习:,1.,某病患者,9,名,发病潜伏期分别为顺序,2,、,3,、,3,、,3,、,4,、,5,、,6,、,9,、,16d,,求中位数。,2.,某病患者,8,名,发病潜伏期从小到大排分别为,5,、,6,、,8,、,9,、,11,、,11,、,13,、,16d,,,求平均潜伏期。,2,),频数表法计算中位数和百分位数:,适用于样本例数,n,较多的资料。,累计频数,:本组段的频数与以前各组段的频数相加;,累计频率,:每组段的累计频数除以总例数。公式为,L,为百分位数所在组段的下限,,i,为该组段的组距,,f,x,为该组段的频数,,f,L,为百分位数所在组段的,前一组段,的累计频数,,n,为总例数。,例,2-8 50,例链球菌咽峡炎患者潜伏期(,h,),计算其中位数。,组段 频数 累计频数 累计频率(,%,),12,24,36,48,60,72,84,96,108120,合计,50,1 1 2,7 8 16,11 19 38,11 30 60,7 37 74,5 42 84,4 46 92,2 48 96,2 50 100,求,P,25,,,P,75,。,2.,中位数和百分位数的应用,1,)中位数常用于描述,偏态分布资料,的集中趋势,反映位次居中的观察值的平均水平。在对称分布的资料中,中位数和均数在理论上是相同的。,2,)百分位数可用于确定医学参考值范围(详后),。,3,)分布在中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。,应用平均数的注意事项,1.,平均数的计算和应用必须具备,同质,基础,,,必须先合理,分组,。,不同质的事物要分别求平均数,以便分析比较。,2.,根据资料的分布选用适当的平均数,。对称分布资料,尤其是,正态分布资料,,宜用均数,也可用中位数,而,偏态分布资料,则中位数的代表性较好,,对数正态分布及等比级数资料,宜用几何均数。,4.,众数(,mode,),是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段。,例 有,16,例高血压病人的发病年龄(岁)为:,42,,,45,,,48,,,51,,,52,,,54,,,55,,,55,,,58,,,58,,,58,,,58,,,61,,,61,,,62,,,62,,,试求众数,?,出现频数最多的数值为,58,,故众数为,58,。,58,岁为高血压的高发年龄。,众数从概念上易于理解。但没有充分利用样本观察值的全部信息。,例,.,对甲乙两名高血压患者连续观察,5,天,测得的收缩压,(,mmHg),结果,如下:,可以看出:,两患者收缩压的均数十分接近,,但甲患者的血压波动较大,而乙患者相对稳定,。,患者,第,1,天,第,2,天,第,3,天,第,4,天,第,5,天,均数,甲患者,162,145,178,142,186,162.6,乙患者,164,160,163,159,166,162.4,第三节、描述变异程度的统计指标,只用平均数描述资料的弊病,甲组,26 29 30 31 34,均数,30kg,乙组,24 27 30 33 36,均数,30kg,丙组,26 28 30 32 34,均数,30kg,丙,乙,甲,三组儿童体重的离散程度,例,2-11,试观察,3,组数据的离散情况。,A,组,26 28 30 32 34,B,组,24 27 30 33 36,C,组,26 29 30 31 34,为了全面的把握数据的分布特征,通常,,描述一组观察值,除需要表示其平均水平外,,还要说明它的离散或变异的情况。,离散趋势,:,用于描述一组数值变量观察值之间参差不齐的程度,即,变异程度,。,包括,极差,(,Range,R,),四分位数间距,(,Quartile,Q,),方差,(,Variance,,),标准差,(,Standard deviation,,,S,),变异系数,(,Coefficient of,variation,CV,),1.,极差,(range,R),也称为全距,用,R,表示,即一组资料中,最大值与最小值之差。缺点:,1,)除了最大、最小值外,不能反映组内其他数据的变异度。,2,)样本例数越多,抽到较大或较小变量值的可能性越大,因而极差可能越大。,3,)即使样本含量相同,极差也不够稳定。,1,、适用条件:常用于描述,单峰对称分布,小样本,资料,的变异程度,或用于初步,了解资料的变异程度。,2,、意义:对于计量单位相同的变量,极差越,大,观察值的离散程度越大。,3,、优点:用以说明数据分布的离散程度,方法,简单明了;理论上可用于各种分布资,料,4,、缺点,(,1,)除了最大值与最小值外,不能反映组内其它观察值的变异度;,稳定性差,。,(,2,)样本较大时,抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。,(,3,)当两组样本例数相差悬殊时,不宜选用极差作为比较两组变异程度的指标,2.,四分位数间距,(quartile range,Q),简记为,Q,,可看为特定的百分位数。,P,25,表示全部观察值中有,25%,(,1/4,)的观察值比它小,记为,下四分位数,Q,L,,,P,75,表示全部观察值中有,75%,的观察值比它小,记为,上四分位数,Q,U,。,Q,适用于,各种类型的连续型变量,,特别是偏态分布的资料。,例,2-8,四分位数间距的特点:,适用于描述偏态分布、一端或两端无确切数值、分布不明确资料的离散程度。,四分位数间距越大,数据分布的变异度越大,;,反之,变异度越小。,与中位数一起描述偏态分布资料的分布特征。,作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,未考虑全部观察值的变异度,在统计分析中应用的不够普遍,。,3.,方差(,Variance,),公式及来源:,极差和四分位间距未考虑,全部观察值,的变异度,全面地考虑,每个,变量值的,离散,情况,为了衡量每个变量值的变异;先选择一个数值作为比较标准;,谁合适呢?,均数,最有代表性。,应考虑总体中每个变量值,x,与总体均数,之差;,x,-,称为,离均差,。,分析:,为解决这个问题,给每项离均差平方后再相加,称,离均差平方和,,,即,(,x,-),2,。,但每个变量值与均数相减所得到得差值有正有负相消,即,(,x,-,x,)=0;,这样就不能反映变异的大小,?,还有没有问题没考虑到?,离均差平方和的大小,除与变异度有关外,还与,变量值的个数,(多少)有关,为在变量值个数不等时进行比较,还要除以变量值的个数,所得值即为,总体方差,,用,2,表示:,2,=,总体方差:,N,X,-,2,),(,m,样本方差,:,以样本均数代表,,用样本例数,n,代表总体例数,N,,所得方差称,样本方差,,用,S,2,表示:,n,X,X,S,-,=,2,2,),(,公式中存在的问题?,根据以上公式研究的结果表明求得的样本方差总是偏小;为解决此问题,英国统计学家通过实验,用,n,-1,代替可消除误差。,n,-1,称为,自由度,(,degree of freedom,),用希腊字母,nju:,表示,表示随机变量能够自由取值的个,数。,n-,1,X,X,S,-,=,2,2,),(,样本方差,的,公式调整为:,(,n,-1,)称为,自由度,(,degree of freedom,),用希腊字母,nju:,表示,表示随机变量能够自由取值的个数。,分析:,如有一组四个(,n,=4,)数据的样本,受到,=5,的条件限制,在自由确定,4,、,2,、,5,三个数据后,第四个数据只能是,9,,否则,5,。因而这里的自由度,=,n,-1=4-1=3,。推而广之,任何统计量的,自由度,=,n,-,限制条件的个数,。,方差,:,分总体方差 ,样本方差,S,2,计算:,意义:,克服了,值的不足,考虑了每个变量值的离散情况并消除了,的影响。,优点:全面地考虑,每个,变量值的,离散,情况,缺点:,其单位是原度量单位的平方。,总体方差,样本方差,例:计算三组数据的方差,A,组:,24,,,27,,,30,,,33,,,36,;,B,组:,26,,,28,,,30,,,32,,,34,;,C,组:,26,,,29,,,30,,,31,,,34,。,方差的特点,适用条件:对称分布资料,特别是正态分布或近似正态分布资料。,意义:方差越大,数据间的变异越大,优点:利用了每个数据的信息,是常用的,描述数据分布离散程度指标,不足:度量衡单位发生了改变,不便于实际应用。为此,更常用的是标准差。,4.,标准差(,Standard deviation,,,SD,或,S,),方差的单位是原度量单位的平方,不便使用。,将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即,标准差,,简写为,S,。,公式来源:,总体标准差:,1,(,),2,-,-,=,n,X,X,s,样本标准差:,1.,直接法:适用于,n,较小的资料,求例题中,A,组数据的标准差。,2.,加权法:适用于,n,较大的资料,120,名成年男子血清铁含量均数、标准差计算表(加权法),组段 频数(,f,)组中值(,X,0,),fX,0,fX,0,2,(1)(2)(3)(4)=(2)(3)(5)=(3)(4),6,8,10,12,14,16,18,20,22,24,26,2830,合计,120,(,f,),2228(fX,0,)43640(fX,0,2,),1,3,6,8,12,20,27,12,10,8,4,1,7,27,66,104,180,340,513,378,276,200,108,29,7,9,11,13,15,17,19,21,23,25,27,29,49,243,726,1352,2700,5780,9747,7938,6348,5000,2916,841,3.,标准差的应用:,1,)表示变量分布的离散程度,。,2,)结合均数计算变异系数。,3,)结合样本含量计算标准误。,4,)结合均数描述正态分布特征。,问题的引入,例:某校一年级男大学生,身高样本均数为,167.4cm,标准差为,5.8cm;,体重均数为,57.3kg,标准差为,6.4kg,。,试比较其变异程度的大小?,5.,变异系数,(coefficient of variation,CV),公式为:常用于:,1,),比较度量衡单位不同的多组资料的变异度,。,例,2-15,某年通过,10,省调查得知,农村刚满周岁的女童体重均数为,8.42kg,,标准差为,0.98kg,;身高均数为,72.4cm,,标准差为,3.0cm,,试比较二者变异度。,体重,CV=0.98/8.42100%=11.64%,身高,CV=3.0/72.4100%=4.14%,2).,比较均数相差悬殊的几组资料的变异度。,运用变异系数的注意事项:,1,.,有关的事物才能比较。,2.,均数小于标准差时要考虑其实际运用价值。,某地不同年龄段男子身高的变异度,年龄组 人数 均数 标准差 变异系数(,%,),3-3.5,岁,100 96.1 3.1 3.23,30-35,岁,100 170.2 4.0 2.35,变异系数的特点:,与前面的四种离散程度指标相比,变异系数有以下两个不同之处:,1,、它描述的不是数据分布的绝对离散程度,而是,相对,离散程度;,不属于描述性统计指标,是一个用于比较的统计指标。,2,、它不像极差、四分位数间距、方差、标准差那样具有取值单位。它没有取值单位,偏度系数,(,coefficient of skewness,SKEW,),理论上,总体偏度系数为,0,时,分布是,对称分布,;取正值时,分布为,正偏峰,;取负值时,分布为,负偏峰,。,第四节、描述分布形态的特征数,峰度系数,(coefficient of kurtosis,KURT),理论上,,正态分布,的总体峰度系数为,0,;取负值时,其分布较正态分布的,峰平阔,;取正值时,其分布较正态分布的,峰尖峭,。,SKEW=-0.19393,,,KURT=-0.01783,小结,反映集中趋势的指标,:,算术均数:对称分布,几何均数:测定值按等比级数变化,中位数:不规则分布,反映离散度的指标:标准差(方差):对称分布,变异系数:对称分布,四分位数间距:不规则分布,极差,(,全距,),:不规则分布,反映峰型的指标:,偏度系数:测定高峰的位置,,分布的对称性,.,峰度系数:测定峰度的高低。,集中趋势的强度,.,平均数与标准差,(方差)联合应用,中位数与四分位数间距(极差),联合应用,统计表(,statistical table,)和统计图(,statistical chart,)是统计描述的重要工具。医学科学研究资料经过整理和计算各种必要的统计指标后,所得结果除了用适当文字说明以外,常用统计表和统计图表达分析结果。统计图表可以对于数据进行概括、对比或做直观的表达。统计表和统计图不仅便于阅读,而且便于分析比较,。,第五节 统计图表和统计图,1,概念:指在科技报告中,常将统计分析的事物,及其指标用表格列出,以反映事物的内在规律性和,关联性。,2,作用:,1,)避免繁杂的文字叙述,2,)便于计算,3,)便于事物间的比较分析,一、,统计表,3.,统计表的结构,从外形上看,统计表由标题、标目(包括横标目、纵标目)、线条、数字及必要的文字说明和备注,5,部分构成。其基本格式如表,1,:,1,)标题:,概括说明表的中心内容,要求用,词简练、确切。必要时注明资料的时间、地点,,写在表的上端中央。,注意:,防止标题过于简略或过于繁杂,有的 甚至不写标题。,2,)标目:,要求文字简明,有单位的标目要 注明单位。横标目位于表的左侧,说明各横行数字的含义。纵标目位于表的右侧,向下说明各纵行数字的含义。,注意:,防止标目过多,层次不清。,3,线条:,只需要顶线、底线及纵标目下面与合,计上面的横线。,注意:,线条不宜过多,表的左上角不宜有斜线,,表内不能有纵线。,4,数字:,表内数字一律用阿拉伯数字表示,同一,个指标的数字精确度应当一致,表内不宜有空格,无,数字用“,”,表示,数字为,0,,则填写,0,。,5,备注:,表格一般不列备注或其他文字说明,如,有特殊情况需要说明时可用“*”标出,将文字说明写在,表格的下面。,从内容上看,每张表都有主语和谓语。主语指被研究的事物,如表,2-5,中的药物分组,一般置于表的左侧;谓语指说明主语的各项统计指标,如表,2-5,中的,“,治愈,”,和,“,未愈,”,、,“,合计,”,,一般置于表的右侧,主语和谓语结合起来构成一个完整的句子。如表,2-5,可读成,用替硝唑治疗组治愈,25,例,未愈,4,例,合计,29,例。,4.,统计表的种类,根据说明事物的主要标志(主语)的复杂程度,统计表可以分成简单表和复合表。,l.,简单表,:只有一种主要标志,即主语按一个标志分组。,2.,复合表,:有两种或两种以上的标志,即主语按多个标志分组。在安排上可以将部分主语放在表的上方与谓语配合起来。,5.,编制统计表的基本要求,1,)重点突出,简单明了,。,即一张表只包括一个中心内容,表达一个主题。,2,)主谓分明,层次清楚,。即主谓语的位置准确,标目的安排及分组要层次清楚,符合专业逻辑。,简单表只有一个分组标志,一般作为横标目,而纵标目就是统计指标名称。复合表有两个以上分组标志,一般把其中主要的和分项较多的一个作为横标目,而其余的则安排在纵标目上。,3,)数据准确、可靠,。,6.,统计表的审查与修改,统计表制作是否良好,可以从以下几方面检查:,1),标题是否正确,2),主谓语的排列是否合适,标目是否组合重复。,3),表线是否过多过密。,1.,概念:利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料和指标,.2.,作用:,它将研究对象的特征、内部构成、相互关系、对比情况、频数分布等情况形象而生动地表达出来,更直观地反映出事物间的数量关系,更易于比较和理解。但对数量的表达较粗略,从图中不能获得确切数字。,二、统计图,医学中常用的统计图有:,直条图、百分条图、圆图、,普通线图、半对数线图、,直方图、箱式图、散点图、,统计地图,3.,制图的基本要求,统计图通常由标题、标目、刻度、图域和图例,5,部分组成。,1,)标题:简明扼要地说明资料的内容、时间和地点,.,一般写在图的下方中央。,2,)图域:即制图空间。除圆图外,一般用直角坐标系第一象限的位置表示图域,或者用长方形的框架表示。不同事物用不同线条(实线、虚线、点线)或颜色表示。,图域的高,:,宽比例习惯上为,7:10,。,3,)标目:分为纵标目和横标目,表示纵轴和横轴数字的意义,一般有度量衡单位。,4,)图例:在对比关系较为复杂的统计图中,为使读者易于分辨各种图形的意义,可以设置图例。图例通常放在横轴与标题之间。,5,)刻度:即纵轴与横轴上的坐标。排列方法与直角坐标系的排法一致,刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右,一律用等距表明。,展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




定量变量的统计描述.ppt



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/12782311.html