薛薇-《SPSS统计分析方法及应用》第四章--基本统计分析PPT课件.ppt
《薛薇-《SPSS统计分析方法及应用》第四章--基本统计分析PPT课件.ppt》由会员分享,可在线阅读,更多相关《薛薇-《SPSS统计分析方法及应用》第四章--基本统计分析PPT课件.ppt(85页珍藏版)》请在咨信网上搜索。
1、1-描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在【描述统计】菜单中,包括:【频数】:频数分析过程,特色是产生频数表(主要针对分类变量)【描述】:数据描述过程,进行一般性的统计描述(主要针对数值型变量)【探索】:数据探察过程,用于对数据概况不清时的探索性分析【交叉表】:多维频数分布交叉表分析(列联表分析)【比率】:比率分析2-4.1.1 频数分析目的和基本任务 1、目的:通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。2、基本任务 (1)频数分析的第一个基本任务是
2、编制频数分布表。频数(数(Frequency):即变量值落在某个区间(或某个类别)中的次数百分比(百分比(Percent):即各频数占总样本数的百分比有效百分比(有效百分比(Valid Percent):即各频数占有效样本数的百分比,这里有效有效样本数本数总样本缺失本缺失样本数本数累累计百分比(百分比(Cumulative Percent):即各百分比逐级累加起来的结果。最终取值为100。3-(2)频数分析的第二个任务是绘制统计图条形条形图(Bar Chart):用宽度相同的条形的高度或长短来表示频数分布变化的图形,适用于定序和定类变量的分析。饼图(Pie Chart):用圆形及圆内扇形的面积
3、来表示频数百分比变化的图形,以利于研究事物内在结构组成等问题。直方直方图(Histograms):用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析。4-注:变量的计量尺度:a、定类(Category Scale):只能计次 b、定序(Ordinal Scale):计次、排序 c、定距(Interval Scale):计次、排序、加减 d、定比(Ratio Scale):计次、排序、加减、乘除5-4.1.2 频数分析的基本操作(1)选择菜单【分析】【描述分析】【频率】。(2)将若干频数分析变量选择到【变量】框中。(3)单击【图表】按钮选择绘制统计图形,在【图表值】框中选择条形图中纵坐
4、标(或饼图中扇形面积)的含义,有【频数】;【百分比】。6-输出百分位数:输出四分位数,显示25%、50%、75%的百分位数;将数据平均分为所设定的相等等份,可输入2100 的整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0100 的整数。离散趋势分布形态栏集中趋势栏7-4.1.3 SPSS频数分析的扩展功能 1、计算分位数(Percentile Values)分位数是变量在不同分位点上的取值。分位点在0100之间。一般使用较多的是四分位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点依次是25,50,75。于是四分位数便分别是25,50,75点所
5、对应的变量值。此外,还有八分位数、十六分位数等。SPSS提供了计算任意分位数的功能,用户可以指定将数据等分为n份(Cut points for n equal groups)。还可以直接指定分位点(Percentile)。8-2、计算其他基本描述统计量 SPSS频数分析还能够计算其他基本统计量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度(Dispersion)的基本统计量、描述分布形态(Distribution)的基本统计量等。9-Format 对话框框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置置频数表数表输出的格式出的
6、格式选择频数表中排列顺序按变量升序排列,此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列10-3、频数分布表格式(Format)的定义 (1)调整频数分布表中数据的输出顺序(Order by):频数分布表中的内容的输出顺序可以按变量值的升序输出(Ascending values),按变量值的降序输出(Descending values),按频数的升序输出(Ascending counts),按频数的降序输出(Descending counts)。11-(2)【多个变量】单选框组:如果选择了两个以上变量作频数表,则compare variables可以将
7、所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较;organize output by variables则将结果在不同的频数表过程输出结果中显示,每一个变量一张表。12-(3)压缩频数分布表(Suppress tables with more than n categories)如果变量取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。SPSS默认,如果变量取值的个数或取值区间的个数大于10,则不输出相应的频数分布表。应用中可以修改该值。13-4.1.4 频数分析的应用举例 利用商品房购买意向的调查数据进行频数分析,有以下两个分析目标:q目目标一:分析被一:分析
8、被调查者的者的户籍状况以及他籍状况以及他们认为房价的房价的变化状况。化状况。q目目标二:分析月住房开二:分析月住房开销的分布,并的分布,并对不同居不同居住住类型型进行比行比较。14-4.2.1 基本描述统计量 常见的基本描述统计量有三大类:刻画集中趋势的统计量刻画离中趋势的统计量刻画分布形态的统计量15-1、刻画集中趋势的描述统计量 集中趋势是指一组数据向某一中心值靠拢的倾向。(1)均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为:16-(2)中位数(Median):即一组数据按升序排序后,处于中间位置上的数据值。如评价社会
9、的老龄化程度时,可用中位数。(3)众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。17-(4)均值标准误差(Standard Error of Mean):描述样本均值与总体均值之间的平均差异程度的统计量。其计算公式为:其中:为总体标准差,n为样本单位数182、刻画离散程度的描述统计量 离散程度是指一组数据远离其“中心值”的程度。如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性
10、的。19-常见的刻画离散程度的描述统计量如下:(1)全距(Range):也称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对离差。(2)方差(Variance):也是表示变量取值距均值的离散程度的统计量,是各变量值与算数平均数离差平方的算术平均数。其计算公式为:20-(3)标准差(Standard Deviation:Std Dev):表示变量取值距离均值的平均离散程度的统计量。其计算公式为:标准差值越大,说明变量值之间的差异越大,距均值这个“中心值”的离散趋势越大。21-3、刻画分布形态的描述统计量 数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等
11、。刻画分布形态的统计量主要有两种:(1)偏度(Skewness):描述变量取值分布形态对称性的统计量。其计算公式为:22-当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,正负总偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,称为正偏或右偏;偏度值小于0表示负偏差值大,称为负偏或左偏。偏度绝对值越大,表示数据分布形态的偏斜程度越大。23-众数、中位数和平均数的关系众数、中位数和平均数的关系图示示左偏分布左偏分布左偏分布左偏分布均均均均值值 中位数中位数中位数中位数中位数中位数 众众众众众众数数数数数数对对称分布称分布称分布称分布 均均均均均均值值值中位数中位
12、数中位数中位数中位数中位数众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均均均均均均值值值24-(2)峰度(Kurtosis):描述变量取值分布形态陡峭程度的统计量。其计算公式为:当数据分布与标准正态分布的陡峭程度相同时,峰度值等于0;峰度大于0表示数据的分布比标准正态分布更陡峭,为尖峰分布;峰度小于0表示数据的分布比标准正态分布平缓,为平峰分布。25-5.2.2 计算基本描述统计量的操作(1)选择菜单【分析】【描述统计】【描述】,出现如下窗口:26-(2)将需计算的数值型变量选择到【变量】框中。(3)单击【选择】按钮指定
13、计算哪些基本描述统计量,出现如下窗口:27-Options 对话框框 基本统计量当Variables框中有多个变量时,此框确定其输出顺序:按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布28-在上面窗口中,用户可以指定分析多变量时结果输出的次序(Display Order)。其中,Variable list表示按变量在数据窗口中从左到右的次序输出;Alphabetic表示按字母顺序输出;Ascending Means表示按均值升序输出;Descending Means表示按均值降序输出。至此,SPSS便自动计算所选变量的基本描述统计量并显示到输出
14、窗口中。29-5.2.3 计算基本描述统计量的应用举例 1.利用商品房购买意向的调查数据,对月住房开销变量计算基本描述统计量。有以下分析目标:计算月住房开销的基本描述统计量,并分别对不同居住类型进行比较分析:首先按居住类型对数据进行拆分(Split file),然后计算月住房开销的基本描述统计量。30-2.分析月住房开销的数量是否存在不均衡现象。分析:假设月住房开销的分布服从正态分布,跟据3 原则,异常值通常为3个标准差范围之外的值,可通过对数据的标准化处理来判断。标准化的数学定义为:31通过标准化可以得到一系列新变量值,通常称为标准化值或z分数。计算标准化值可以通过对话框中的复选框【将标准化
15、得分另存为变量(Z)】来实现,并将结果保存在一个新变量中。该变量的命名规则为字母z+原变量名的前七个字符。接下来可对新变量进行排序并浏览其标准化值的取值情况,可以发现z分数值得绝对数大于3的样本是存在的。对其分组为三组:zt10-3,-3zt103并进行频数分析可以发现月住房开销存在一定的不均衡现象。32-4.3.1 目的和基本任务 1、目的:交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交
16、叉分组下的频数分析来完成。33-2、基本任务:(1)根据收集到的样本数据,产生二维或多维交叉列联表;(2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。4.3.2 交叉列联表的主要内容 编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例:职工基本情况数据按职称和文化程度编制的二维交叉列联表(见下页表):34-35-上表中的职称变量称为行变量(Row),文化程度称为列变量(Column)。行标题和列标题分别是两个变量的变量值(或分组值)。表格中间是观测频数(Observed Counts)和各种百分比。16名职工中,本
17、科、专科、高中、初中的人数分别为4,4,5,3,构成的分布称为交叉列联表的列边缘分布;高级工程师、工程师、助理工程师、无技术职称的人数分别为3,4,6,3,构成的分布称为交叉列联表的行边缘分布;4个本科学历职工中各职称的人数分别是1,1,2等,这些频数构成的分布称为条件分布,即在行变量(列变量)取值条件下的列变量(行变量)的分布。36-在交叉列联表中,除了频数外还引进了各种百分比。例如表中第一行中的33.3,33.3,33.3分别是高级工程师3人中各学历人数所占的比例,称为行百分比(Row percentage),一行的百分比总和为100;表中第一列的25.0,25.0,50.0分别是本科学历
18、4人中各职称人数所占的比例,称为列百分比(Column percentage),一列的列百分比总和为100,表中的6.3,6.3,12.5等分别是总人数16人中各交叉组中人数所占的百分比,称为总百分比(Total percentage),所有格子中的总百分比之和也为100。37-4.3.3 交叉分组下的频数分析的基本操作(1)菜单选【分析】【描述统计】【交叉表】,出现窗口如下:38-该框中的框中的变量量作作为分布表中分布表中的行的行变量和列量和列变量。量。该框中的框中的变量作量作为控制控制变量,决量,决定定频数分布表中数分布表中的的层,可有多个,可有多个控制控制变量。量。显示每示每一一组中中各
19、各变量量的分的分类条形条形图。只只输出出统计量,不量,不输出多出多维列列联表。表。Crosstabs 对话框框39-(2)如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。如果Row(s)和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。40-(3)选择【显示复式条形图】Display clustered bar charts选项
20、,指定绘制各变量交叉分组下频数分布条形图。【取消表格】Suppress tables表示不输出列联表,在仅分析行列变量间关系时可选择该选项。(4)单击【单元格】Cells按钮指定列联表单元格中的输出内容,窗口如下:41-Crosstabs的的Cell Display 对话框框选择在列在列联表中表中输出的出的统计量,量,包括包括观测量数、百分比、残差量数、百分比、残差输出出观测量的量的实际数量数量如果行和列如果行和列变量在量在统计上是独立的或不相关的,上是独立的或不相关的,那么会在那么会在单元格中元格中输出期出期望的望的观测值的数量。的数量。输出出单元格中元格中观测量的数目占量的数目占整行全部整
21、行全部观测量数目的百分比量数目的百分比输出出单元格中元格中观测值的数目占的数目占整列全部整列全部观测量数目的百分比量数目的百分比输出出单元格中元格中观测量的数目占量的数目占全部全部观测量数目的百分比量数目的百分比计算非算非标准化残差准化残差计算算标准化残差准化残差计算算调整后残差整后残差42-SPSS默认列联表单元格中只输出观测频数(Observed)。为便于分析,通常还应指定输出Percentage框中的行百分比(Row)、列百分比(Column)、总百分比(Total)。Counts框中的Expected表示输出期望频数;Residuals框中的各个选项表示在各个单元格中输出剩余。其中,U
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS统计分析方法及应用 薛薇 SPSS 统计分析 方法 应用 第四 基本 PPT 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。