第二讲 样本描述性统计与假设检验.ppt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二讲 样本描述性统计与假设检验 第二 样本 描述 统计 假设检验
- 资源描述:
-
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,数据分析,-,何帆,*,第二讲 样本描述性统计与假设检验,何 帆,数据分析,-,何帆,主要内容,基本数学模型,频数分析过程,数据描述过程,数据探察过程,列联表分析过程,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,算术平均数,样本数据的总和除以样本个数,是样本数据集中趋势中最常用的统计量,公式,在不分组的情况下,f,都为,1,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,中位数(,Median,),先将样本按升序或降序排列,样本数为奇,中间的数,样本为偶,取中间两个的平均,例如:下列两组样本的中位数为,_?,11 2 4 9 5 23 20,12 54 22 36,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,众数(,Mode,),样本数据出现频数最多的那个数,不受极值影响,可能有多个,例如,下面一组样本的众数为,_?,1 2 3 2 1 9 4 6 3 2 1 8,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,调整平均数(,Trimmed Mean,),将样本数据排序后,按照一定的比率去掉两端最大值,最小值,对剩下的数据求平均,Explore,功能中的调整平均数默认两端各去掉,2.5%,后,对剩下的,95%,的数据求平均,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,几何平均数,(Geometric Mean),加权几何平均数,简单几何平均数,f=1,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,调和平均数(,Harmonic,),是,n,个数的倒数平均数的倒数,适用于平均价格、平均速度方面的计算和分析,公式,数据分析,-,何帆,基本数学模型,-,集中趋势统计量,四分位数,(Quartiles),25,分位数:最低数和中位数之间的中位数,75,分位数:最高数和中位数之间的中位数,其他分位数,数据分析,-,何帆,基本数学模型,-,离散趋势统计量,极差,(Range),最大值,-,最小值,稳定性差,平均差,(Average Difference),各样本数据与均值间差异的绝对值的均值,方差,(Variance),标准差,(Standard Deviation,Std Dev),方差的算术方根,数据分析,-,何帆,基本数学模型,-,离散趋势统计量,标准误,(Standard Error,S.D.Mean),是样本平均数的标准差,由于样本抽取的随机性,每次抽取的样本不一,样本均值不一。考虑所有被抽取的样本均值,他们的标准差就是标准误。,数据分析,-,何帆,基本数学模型,偏度,(Skewness),反映数据分布不对称的一个数字特征,当数据为正态分布时,偏度为零,(,=0),II(,0),(,0),(,=0),(,Descriptive Statistics-Frequencies,对话框:,数据分析,-,何帆,Statistics,对话框,分位数,集中趋势统计量,偏度和峰度,离散趋势统计量,数据分析,-,何帆,Chart,按钮,选择图形,定义是按照频数还是按百分比作图,数据分析,-,何帆,应用实例,例,1,对统计出来的红球和值,进行绘制频数表、直方图;计算最大最小值,均数、标准差、中位数,M,、,p2.5,和,p97.5,,并考察偏度和峰度。,数据分析,-,何帆,数据描述过程,是否保存变量的标准化数据,数据分析,-,何帆,Option,按钮,选择显示的次序,选择统计量,数据分析,-,何帆,数据探察过程,功能菜单,Explore,Explore,过程主要用于对资料的性质、分布特点等完全不清楚时,故又称之为,探索性分析,。,在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、箱图等,显得更加详细、全面,有助于用户制定继续分析的方案,数据分析,-,何帆,数据探察过程,对话框,因变量,分组变量,样本标签,数据分析,-,何帆,Statistics,按钮,描述性统计,反映集中趋势的稳健估计量,样本异常嫌疑值,最大最小,5,个,四分数,数据分析,-,何帆,Statistics,按钮,Descriptives,复选框:输出均数、中位数、众数、,5%,修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。,M-estimators,复选框:作中心趋势的最大似然化的稳健估计量,输出四个不同权重的最大似然确定数。,Outliers,复选框:输出五个最大值与五个最小值。,Percentiles,复选框:输出第,5%,、,10%,、,25%,、,50%,、,75%,、,90%,、,95%,位数,数据分析,-,何帆,Plots,按钮,设置多个变量时箱型图的形式,数据分析,-,何帆,Option,按钮,剔除缺失值,成对剔除缺失值,单独分组,用频数表标出,数据分析,-,何帆,实例应用,例,2,以例,1,数据为例,做,Explore,过程统计,画出茎叶图,和箱形图。,假设检验,-,平均数比较与,T,检验,数据分析,-,何帆,主要内容,假设检验一般理论,分组平均数比较,单一样本,T,检验,配对样本,T,检验,数据分析,-,何帆,问题的提出,例,3,某工厂用包装机包装奶粉,额定标准为每袋净重,0.5kg.,设包装机称得奶粉重量,X,服从正态分布,据经验知其标准差,=0.015(kg).,为检验包装机的工作是否正常,随机抽取包装的奶粉,9,袋,称得重量为,0.499 0.515 0.508 0.512 0.498 0.515 0.516 0.513 0.524,问该包装机工作是否正常,?,数据分析,-,何帆,假设检验一般理论,基本任务:根据样本信息对未知总体或其数字特征的假设作出合理的判断,基本原理:,小概率事件在一次试验中几乎不可能发生,H,0,原假设,H,1,备择假设,(,对立假设,),对于例,1,可提出如下统计假设,:,H,0,:,=,0,=0.5,H,1,:,0,=0.5,数据分析,-,何帆,假设检验一般理论,对,H,0,进行检验,:,(1),寻找检验统计量,(2),对给定小概率,,寻找拒绝域,0,P,(,x,1,x,2,x,n,),0,|,H,0,为真时,=,接受域,1,:,1,0,=,(样本空间),当样本观测值:,(,x,1,x,2,x,n,),0,时,拒绝,H,0,(,x,1,x,2,x,n,),1,时,接受,H,1,数据分析,-,何帆,假设检验一般理论,什么是显著性水平,是一个概率值,原假设为真时,拒绝原假设的概率,被称为抽样分布的拒绝域,表示为,(,alpha,),常用的,值有,0.01,0.05,0.10,由研究者事先确定,数据分析,-,何帆,假设检验一般理论,什么是,P,值,?,是一个概率值,如果原假设为真,,P-,值是抽样分布中大于或小于样本统计量的概率,左侧检验时,,P,-,值为曲线下方,小于等于,检验统计量部分的面积,右侧检验时,,P,-,值为曲线下方,大于等于,检验统计量部分的面积,被称为观察到的,(,或实测的,),显著性水平,数据分析,-,何帆,双侧检验的,P,值,数据分析,-,何帆,左侧检验的,P,值,数据分析,-,何帆,右侧检验的,P,值,数据分析,-,何帆,假设检验一般理论,如何利用,P,值进行决策判断?,单侧检验,若,p-,值,不能拒绝,H,0,若,p-,值,拒绝,H,0,双侧检验,若,p-,值,/2,不能拒绝,H,0,若,p-,值,/2,拒绝,H,0,数据分析,-,何帆,假设检验一般理论,检验分类,样本平均数与总体平均数的比较检验,(,单个样本,),两独立样本平均数的比较,两个配对样本平均数的比较检验,多个平均数的样本检验,成数假设检验,方差或标准差假设检验,分布检验:正态分布检验、均匀分布检验,非参数检验:,2,检验法、,F,检验法等。,数据分析,-,何帆,分组平均数比较,问题描述,某医师测得,40,人的血红蛋白值(,g%,),试比较男性和女性的血红蛋白值是否有差异,?,(,数据见血红蛋白值,.sav),分组平均数比较是为了比较同一个总体抽样中不同类别的均数的差异性,数据分析,-,何帆,分组平均数比较,菜单,Analyze-Compare Means-Means,点击弹出如下对话框,主要功能,分组计算均值,对均值进行差异比较,数据分析,-,何帆,分组平均数比较,对分组变量进行单因素方差分析,并计算用于度量变量相关程度的,eta,值,检验线性相关性,实际上就是上面的单因素方差分析,数据分析,-,何帆,分组平均数比较,-,结果分析,F:,统计量的值,Sig.,观测显著性水平 即,P,值,数据分析,-,何帆,单一样本,T,检验,用于检验样本平均与总体平均数的差异,统计量:,T,统计量,其中,S,是修正的样本标准差,主要检验某一个均值是否和某一固定值相符合,。,数据分析,-,何帆,单一样本,T,检验,例,4,前面给出的血红蛋白值的均值是否等于,11,,,12,,,13,数据分析,-,何帆,单一样本,T,检验,数据分析,-,何帆,单一样本,T,检验,结果分析,t,统计量值,自由度,P,值,置信区间的上下限,数据分析,-,何帆,练习,1,有一种新型农药防治柑桔红蜘蛛,进行了,9,个小组的实验,其防治效果为:,95%,,,92%,,,88%,,,92%,,,93%,,,95%,,,89%,,,98%,,,92%,与原用农药的防治效果,90%,比较,分析其效果是否高于原用农药。,数据分析,-,何帆,练习,2,在有小麦丛矮病的麦田里,调查了,13,株病株和,11,株健株的植株高度,分析健株高度是否高于病株?其调查数据如下:,健株,26.0 32.4 37.3 37.3 43.2 47.3 51.8 55.8 57.8 64.0 65.3,病株,16.7 19.8 19.8 23.3 23.4 25.0 36.0 37.3 41.4 41.7 45.7 48.2 57.8,该数据保存在,“,丛矮病的麦田,.SAV,”,文件中,数据分析,-,何帆,配对样本,T,检验,配对样本,是相对独立样本而言的,指,一个样本在不同时间做了两次试验,,,或者有两个类似的记录,,从而比较其差异。,例如:下列哪个属于配对样本?,一班和二班的数学分析成绩,一班的期中和期末成绩,数据分析,-,何帆,配对样本,T,检验,问题陈述,例,1,某制鞋厂为比较用来做鞋后跟的两种材料的质量,随机选取了,15,名男子,让他们每人穿一双新鞋,每双鞋中有一只是用材料,A,作后跟的,另外一只是用材料,B,作后跟的,其厚度均为,10cm,,一个月以后再次测量其厚度,数据如下:,数据分析,-,何帆,配对样本,T,检验,序号,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,材料,A,6.6,7.0,8.3,8.2,6.2,9.3,7.9,8.5,7.8,7.5,6.1,8.9,6.1,9.4,9.1,材料,B,7.4,5.4,8.8,8.0,6.8,9.1,6.3,7.5,7.0,6.5,4.4,7.7,4.2,9.4,9.1,请根据以上数据判断那种材料耐磨性更好些?(显著性水平为,0.05,),数据分析,-,何帆,配对样本,T,检验,数学模型,T,统计量定义如下:,T,统计量满足的,t,分布自由度为,:,对子数,-1,数据分析,-,何帆,配对样本,T,检验,统计分析,Paired samples T test,是根据配对样本均值,之间的差异进行检验的。,基本假设:,数据分析,-,何帆,配对样本,T,检验,功能菜单,Analyze-Compare Means-Paired-Samples T Test,对话框,显示配对的变量,显示配对后的变量组,可以同时做多对,数据分析,-,何帆,配对样本,T,检验,结果分析,因为,P0.05,拒绝原假设,认为两种材料的耐磨性不一样。,A,的均值为,7.7933,,,B,的均值为,7.1733,,可以认为,A,材料比,B,材料耐磨。,数据分析,-,何帆,注意,利用服从,t,分布的统计量作为检验统计量的检验方法称为,t,统计量,前提是假定总体服从正态分布的,数据分析,-,何帆,练习,3,某单位研究饮食中缺乏维生素,E,与肝中维生素,A,含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共,8,对,并将每对中的两头动物随机分到正常饲料组和维生素,E,缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素,A,的含量,问不同饲料的大白鼠肝中维生素,A,含量有无差别?,数据见,“,大白鼠,.sav,”,展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




第二讲 样本描述性统计与假设检验.ppt



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/13074641.html