spss第4章.ppt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss
- 资源描述:
-
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第四章 基本统计分析,4.1 基本统计分析概述,4.2 频度分析,4.3 统计描述,4.4 数据考察分析,4.5 交叉汇总表,4.6 分组均值统计,4.7 多选题分析,第四章 基本统计分析,统计,统计是指整理、总结并解释信息的一系列数学过程,统计过程有助于信息及观察以一种精确的、能够提供信息的方式进行表达及解释。,统计帮助研究者从混沌中找出秩序,统计提供研究者一系列能够被科学团体人士及理解的标准化技术,术语,总体:是在一个特定研究中所有感兴趣个体的集合,样本:是从一个总体中选择出来的个体的集合,通常在研究中被期望代表总体,参数:是一个值通常是一个数值,它描述了一个总体。参数可以从单个测量中得到,或从对总体的一组测量中推导出来,统计量:是一个值,通常是一个数值,它描述了一个样本。统计量可以从单个测量中的到,也可以从对样本的一组测量中推导出来,第四章 基本统计分析,统计方法分为:描述统计和推断统计,描述统计,对总体的测量值进行处理。如人口普查中所有家庭的年收入的分布。,用于总结、组织并简化数据的统计过程,推断统计,利用样本信息对其总体做出结论。如对产品合格率、产品寿命的推测。,是允许研究样本,然后将研究结果推广到样本来自的总体的技术,无论是描述观测到的总体,还是使用样本数据对总体进行推断,在从数据到结论的过程中,重要的一步是对数据进行有见地的描述。,4.1 基本统计分析概述,离散趋势的度量反映数据的分散程度,跨度,(全距/极差)(Range):最大值与最小值的差,稳定性差。反映最大差距,平均差,:各数据与均值的差,百分位数/N等分百分位数,(Percentile/Ntile):排序后,方差,(Variance):是定比、定距数据离散程度的主要方法,标准差,(Standard deviation):方差的平方根,最常用的离散趋势的统计量,标准误,(,Standard error of mean,)样本平均数与总体均值的平均差异,差异系数,(Coefficient of Variation)标准差与均值之比,消除均值的影响,用于比较不同总体或样本的两组数据的差异程度,差异量越大,集中趋势的量的代表性越差,4.1 基本统计分析概述,分布形态的统计量-与标准正态分布进行比较,偏(斜)度(Skewness):描述分布的偏斜程度,反映数据的对称性的数据特征。,Skewness=0:分布对称,Skewness0:正偏离/右偏,右偏差大,有较长右尾,Skewness0 尖峰分布,分布集中趋势强,Kurtosis1,不是正态分布,标准正态分布,偏度=0,4.1 基本统计分析概述,标准正态分布:均值、中位数和众数相等;当单峰数据发生偏移时,均值拖向长尾方向。,4.1 基本统计分析概述,Sell-profit.sav,标准差不能进行不同性质数据的分散程度的比较。,销售额的差异系数为0.5766,而利润额的差异系数为1.408,所以各企业的利润差异要高于他们的销售额的差异。,4.2 FREQUENCES 频度分析,FREQUENCE过程计算单个变量值的频数,以及百分位数和各种描述统计量,产生频度表,绘制统计图,条形图:用条形的长度表示频数的分布,适合定类和定序数据的分析,饼图(反映频度的百分比),直方图:用矩形面积表示频数的分布(适合连续变量),可以附加正态分布曲线,调用频度分析通过依次单击菜单命令【Analyze】,【Descriptive Statistics】,【Frequencies】实现。,FREQUENCES,过程的基本引用,建立数据文件(freq1),展开主对话框,选定分析变量,单击【Ok】提交运行,结果分析,Contact.sav 研究客户中所属部门的分布,以及联系人的职位分布,P84例1,如果要分别统计不同年级或不同性别的频度,怎么做?,FREQUENCES,过程的基本引用,对department做频度分析,饼图(pie chart)是表现个分类项频数的有效的可视化工具,FREQUENCES,过程的基本引用,频度表给出较为精确的频数数据,FREQUENCES,过程的功能选项,【Statistics】功能按钮:指定输出描述统计量 P86,【Charts】功能按钮:指定输出统计图,【Format】功能按钮:指定结果输出的顺序,研究上次购买设备金额的统计量,中位数和均值差距较大,说明分布不对称,偏度大于0很多,有较长的右尾,数值小的较多;峰度0说明,分布尖,有很长的右尾。正态分布图,可以帮助理解峰度和偏度,FREQUENCES 过程,一些分析过程要求数据是正态分布,我们可以对数据进行转换,使其尽可能接近正态分布,如Ln(变量),对Amount of Last Sale变量,使用comput命令进行转换,然后在做Statistics统计,可以发现中位数和均值已经很接近;峰度和偏度迅速削减;直方图接近正态曲线。,趋于正态,当数据的偏度较高时常用LN函数对数据进行转换使之接近正态分布,4.3 DESCRIPTIVES描述统计分析,DESCRIPTIVES过程用于显示多个连续变量的描述统计量。DESCRIPTIVES 显示一个压缩的统计量表,在一张表中显示几个变量的描述统计量,便于几个同性质变量进行比较。,调用描述统计分析通过依次单击菜单命令【Analyze】,【Descriptive Statistics】,【Descriptives】实现。,DESCRIPTIVES 过程的基本引用,建立数据文件,展开主对话框,选定分析变量,单击【Ok】提交运行,结果分析,DESCRIPTIVES 过程的功能选项,标准Z分数,标准Z分数是以标准差为单位,来衡量一个数值与均值之间的离差情况,即表示一个变量值在数据集中的相对位置,如果一个数小于平均数,其,Z分数,为负数,如果一个数大于平均数,其,Z分数,为正数,若,Z分数,的绝对值越大,它离平均数也就越远,所以,Z分数,表示了一个数在它所在的数组中的位置。,标准分可用于不同考试、不同考生、甚至不同科目的考试之间进行相对位置的比较。例如,某考生数学和英语考试的原始分数分别为和分,而两次考试的平均分分别为和分,标准差分别为分和分。如果只看原始分数,人们可能会认为该考生的数学学得比英语好,然而,一旦变换为标准分:数和英,即可发现,原来该考生的英语成绩在班上的相对位置实际上比数学要高得多。,【Options】选项按钮:进行统计量的选择,频度分析和描述统计均没有分组统计功能,因此只有借助拆分文件实现分组统计,DESCRIPTIVES 过程 例,Telco.sav美国电信公司客户数据库,研究客户的消费,以确定最合适的服务,比较不同服务项目的花费,均值最大,但差异也较大,DESCRIPTIVES 过程 例,最小值是0,影响均值。问题在于不是所有用户都需要所有服务,解决这个问题可以将0作为系统缺失值,使之不参加运算。就可以计算申请该服务的客户的消费额。使用recode命令进行设置。结果有很大变化,可以大致看出哪项服务比较有潜力,3.4,EXPLORE,探索分析,Explore探索分析有助于确定数据是否适合某种选定的统计方法,使用 Explore探索分析主要是完成,对数据的初步考察,对所有样本或分组样本进行概括统计和图形显示。其中包括对数据取值的检验、对数据分布的检验。,通常因变量为连续变量;,分组变量,为定类或定序变量,调用探索分析通过依次单击菜单命令,【Analyze】,【Descriptive Statistics】,【Explore】实现。,3.4 EXPLORE探索分析,考察内容,考察数据的真实性,偏离数据主体分布太远的数据点有可能是有问题的数据点,在统计分析过程是否应保留?,考察数据的分布特性,数据的正态分布特性将可以为下一步的统计分析提供条件。,考察变量之间数据的相互关系,变量与变量之间的相关性、方差齐性,都将是一些统计分析过程所必须事先了解的。,Screen data 数据概况,Identify outliers 标识两极数据,Check assumptions 检验假设(正态),Characterize differences among groups of cases,組间样本差异,3.4 EXPLORE探索分析,Expore提供:,统计量一览表(整体、分组),箱图提供快速、可视化的分组数据概貌,茎叶图提供数据直观的分布形状(shape),正态分布检验,方差齐性检验,3.4 EXPLORE 探索分析,基本功能,计算描述统计量。,茎叶图描述频度分布。,箱图描述数值分布(表现数据的奇异性和极端性)。,正态分布检验的概率图描述数据分布的正态性。,方差齐性检验的散点分层图反映各组变量的方差齐性。,回归参数描述变量之间的相关性。,箱图p94,奇异值:距主体边缘距离超过箱高的1.5倍,极值:距主体边缘距离超过箱高的3倍,茎叶图,茎叶图:以字符数字表达变量的频度分布 p95,茎叶图的优点:不仅反映频数,而且可以反映数据的分布。,缺点:当数据集合较大时,茎叶图庞大。,3.4 EXPLORE 探索分析,操作步骤,【Analyze】,【Descriptive Statistics】,【Explore】,选择分析变量(因变量,连续变量),到“Dependent list”中,选择分组变量(因素或自变量),“Factor list”中,选择标识变量,“Label case by”;若不选此项,则在输出过程中用样本标号标识样本。,选择输出形式:“Display”,,输出描述统计量,输出图形,二者都有输出,3.4 EXPLORE 探索分析 功能选项,功能选项,选择描述统计量“Statistics”,Descriptive:输出基本统计量,系统默认的置信区:Confidence interval for 95%,M-estimators(稳健估计量):排除奇异值和极端值后计算的均值、中位数。,Outlies(异常嫌疑值):输出5个最大值和5个最小值。,Percentile:可以输出5%、10%、25%、50%、75%、90%、95%的百分位数,3.4 EXPLORE 探索分析功能选项,选择特殊统计图形“Plot”,生成箱图Boxplot,Factor levels together在同一张图上只显示一个变量,不同水平同时显示。,Dependent together所有变量显示在同一张图上。,生成茎叶图Stem-and-leaf,茎叶图显示在输出显示窗口Viewer中。,生成的直方图Histogram将表现频度分布。,3.4 EXPLORE 探索分析功能选项,Normality plots with test:生成正态分布概率图和K-S正态分布检验,Sig.=0.05 方差齐性 即Sig.0.05 方差非齐性,如果选择了进行数据转换,则Levenes检验基于转换后的数据。,散点图是推断各组数据方差齐性的诊断工具。当图上不同组数据点是非线性的,slop接近0则方差齐性。,3.4 EXPLORE 探索分析功能选项,缺失值处理选项“Option”,Exclude cases Listwise:对于选入目标变量列表中的有缺失值的变量,无论其参与不参与当前运算,相应样本将被排除。,Exclude cases Pairwise:对于选入目标变量列表中的有缺失值的变量,如果其参与运算,相应样本将被排除。,Report Value:把分组变量中含缺失值的样本单独分为一组,3.5 CROSSTABS交叉表分析,Crosstabs是检验两个分类变量(定序或定类)的相互关系的基本技术。可以控制附加的层变量(layering)。,CROSSTABS,交叉表可以对,分类数据,提供各种形式的频度分布描述,和进行简单的统计推断,如卡方检验、相关度检验等,交叉表分析过程将产生二维表或多维表并提供22种检验以及二维表的关联度量。交叉表分析利用频数或相对频数研究两个变量之间的关系,指定一个行变量和一个列变量,即可形成一个二维交叉表;再指定一个控制变量(a layer factor)就可以生成三维交叉表.,交叉表基本形式,3.5 CROSSTABS 调用,交叉表分析通过依次单击菜单命令【Analyze】,【Descriptive Statistics】,【Crosstabs.】实现。,选择行变量到“row”中。,选择列变量到“column”中。,分组变量:Layer 1 of n,交叉列联表将依据该变量的取值进行分页显示。(每个层变量一张图),选择选项“Display clustered bar chart”将生成变量的频度分类条形图。,选择选项“supress table”将不产生交叉列联表。,3.5 CROSSTABS 过程 -功能选项,Display clustered bar charts复选框:选定此选项,则要求输出分组条形图。条形图按行变量分组,组中的各个条形框以不同颜色反映列变量的不同取值。分组条形图可以帮助我们概括地了解样本分组的情况。,Suppress tables复选框:选择此项则不输出交叉表。,3.5 CROSSTABS 过程-功能选项,Statistics统计-供关于行、列变量的关联检验,以及关联的强度(程度)的统计量。原假设为相互独立。,Chi-square:检验行、列变量是相互,独立,的,但,不考虑关系的强度和方向,。显著性水平比统计量更重要(H,0,假设:,独立,),Correlations:对行、列变量进行相关分析。(H,0,假设:,不相关,),Pearsons Correlation,数值变量的线性相关,Spearman Correlation,等级变量的秩相关,3.5 CROSSTABS 过程-功能选项,Statistics统计功能选项,Nominal 行列变量是名义变量时,自变量对因变量的预测。,Ordinal-行列变量是等级变量时,自变量对因变量的预测。,Nominal by Interval 因变量是连续变量,自变量为分类变量时,自变量对因变量的预测。(分别给出行变量是连续变量和列变量为连续变量的结果),3.5 CROSSTABS 过程-功能选项,Kappa.:Cohens kappa测量两个评价者得一致性。1表示完全一致,0表示一致性相当于是随机的。Kappa 要求两个变量具有相同的分类值和分类数。,Risk.是 2 x 2 表相关强度的度量。测量一个事件的发生与一个因素的存在之间的关系的强度(因素对事件有无影响)。,如果统计量的置信区间包括1,则因素与事件无关,。Odd ratoi经常用于当因素存在时对事件发生的风险估计。,McNemar.两个相关的二分变量的非参数检验。使用chi-square 分布检验干预后的变化情况,是用于before-and-after设计,3.5 CROSSTABS 过程-功能选项,Exact功能选项-用于在小样本和不均衡样本的检验,“Asymptotic only”选项是缺省的。不适用于小样本和非渐进分布方式的检验。,“Monte Carlo”选项适用于指定样本数量的检验。该选项还允许非渐进分布方式的检验。,“Exact”选项为精确计算。当结果小于等于0.05时可以认为行、列变量之间存在一定的相关性。,3.5 CROSSTABS 过程-功能选项,Cells-决定交叉列联表单元格中计算的内容,Count计算,“Observed”-为观测频数(默认),“Expected”-为观测期望值。,Percentages百分比,“Row”、“Column”和“Total”分别为:行频数、列频数和总频数。,Residuals残差,“Unstandardized”非标准化残差,“Standardized”标准化残差,“Adj.standardized”调整标准化残差,3.5 CROSSTABS 过程-功能选项,Format输出格式设置:行排列的升序或降序。,Ascending,为升序,Decending为降序,3.6 MEANS 均值分析,MEANS过程用于计算连续变量的不同分组的描述统计量。其中包括均值、标准差、总和以及其它关于集中趋势、离散趋势、分布等方面的描述统计量,还可以输出方差分析表和线性检验结果。,均值分析通过依次单击菜单命令【Analyze】,【Compare Means】,【Means.】调用Mean过程实现。,有关护士每小时工资的统计分析,变量:,Position:Nurse Type 0hospital,1office,Agerange:118-30;231-45;346-65,Yrsscale:Years Experience 1-5 or less;26-10;,311-15;416-20;521-35,Hourwage:Hourly Salary,利用均值过程分析 wages,experience和 type of position的关系,分析不同工作经验下,日工资的均值;,分析变量:,Hourwage,分组变量:Yrsscale,结论:经验值越高,时薪越高,再加一层分组变量:position,相同的工作经验下,hospital nurse的日薪与office nurse 有所不同。,标准差表明,office nurses 比hospital nurse的日薪要分散,3.6 MEANS均值分析-Options选项,Statistics列表框:列出所有可供选择的分组统计量,ANOVA table and eta复选框:进行一元方差分析,计算eta相关系数(因变量是连续变量,自变量是分类变量),Tests for linearity复选框:对因变量与因素变量进行线性相关分析,练习,对受教育水平(educ)进行重编码,生成educleve变量。,Educ educleve,=19 20,按educleve和gender分组,进行频度分析。,4.7 多选题分析,多选题又称为多重响应是问卷调查和市场调研中极为常见的一种数据记录形式。,多选题的数据格式本质上属于分类数据,只是格式较为特殊,分析时需要计算特殊的指标。,4.7 多选题分析,多选题数据编码:每一个多选题用一组变量表达。,多重二分法(multiple dichotomy),受访者可以选择任意多个选项,为每一个选项定义一个变量,变量为二分变量,多重分类法(multiple category),受访者只能选择制定数目的选项,定义制定数目的变量,变量为多分类变量,变量的每个取值代表一个特定的选项,4.7 多选题分析,多选题分析的目标,统计各选项被选中的频数,及所占应答次数的百分比、选择次选项人数的百分比(Multiple Response Frequencies)。,不同人群对题目选择的差异(Multiple Response Crosstabs)。,Multiple Response过程的功能,为每道多选题生成一个(Multiple Response Sets):【Multiple Response】,【Define Multiple Response Sets】,为应答集变量生成频数表:【Multiple Response】,【Multiple Response Frequencies】,为应答集变量与其他分类变量建立交叉表:【Multiple Response】,【Multiple Response Crosstabs】,4.7 多选题分析,4.7 多选题分析,4.7 多选题分析,可能的问题,最受欢迎的饮料是什么?,男性和女性对饮料的喜好有无差别?,不同城市的人群对饮料的喜好有无差异?,解题思路,将多选题的5个变量生成一个多选题变量集,通过Multiple Response的Frequencies得到最受欢迎的饮料。,通过Multiple Response的Crosstabs作出多选题与其他分类变量的交叉表。,4.7 多选题分析,分析过程,设定多选应答集变量:【Analyze】,【Multiple Response】,【Define Sets】,单击,新的多选变量,选定多选基本变量,当变量是二分变量时,当变量是分类变量时,4.7 多选题分析,选定基础变量.,如果变量是二分变量,在 dichotomies counted中指定分析值.如果变量是多分类变量,在 categories中指定变量的取值范围,为每个多选题设置一个多选应答集变量,单击【add】按钮将多选应答集变量添加到 mult response 列表框中,应答变量为临时变量,关闭数据文件时即消失。再次使用时需重新定义,4.7 多选题分析,多选题的频度分析:【Analyze】,【Multiple Response】,【Frequencies.】,选定欲做分析的应答变量,结论:18个有效样本中,各种饮料共被选中46次,其中茶11次,牛奶10次,这两种饮料为最受欢迎的饮料。,说明:Count:为选中的次数;Pct of Responses:为选中次数占中选择次数的%;Pct of Case:为占总人数的%。,不同类别人群选择的差异分析,【Analyze】,【Multiple Response】,【Crosstabs.】,基于人数的%,结论:北京对5种饮料的喜好程度相差不大;上海人不大喜欢果汁饮料及矿泉水;广州则更喜欢果汁饮料。,4.8 报表概述,4.8 报表概述,4.8 报表概述,Spss提供强大的报表功能,主要来自两个模块:,Summarize:针对定量数据产生记录报表,同时可以计算一些简单的描述统计量。,Custom Table:专门为生成出版级报表而设计。,4.8 报表概述,Summarize包含4个报表生成过程:,Layered Reports:,4.8 报表概述,Layered Reports过程,可以对不同水平的定量变量多个描述统计量生成动态报表。其特点:,可以由多个分组变量,形成分层报表。,可以根据不同需要组织分组变量的某个特定水平组合输出。,由于生成的报表可以根据需要转换行、列、层的数据,使报表可以动态转换,所以,以后的版本将过程名称改为OLAP Cubes(Online Analytical Processing Cubes),4.8 报表概述,4.8 报表概述,展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




spss第4章.ppt



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/12638480.html