医学研究的数据管理与分析——第八章.ppt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 研究 数据管理 分析 第八
- 资源描述:
-
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第一节,SPSS,软件概述,Statistics Package for Social Science,社会科学统计软件包,Statistical Product and Service Solutions,统计产品与服务解决方案,PASW,:,Predictive Analytics Software,预测统计分析软件,1.1 SPSS的发展,1.1 SPSS的发展,SPSS,是软件英文名称的首字母缩写。原意为,Statistical Package for the Social Sciences,,即,“,社会科学统计软件包,”,。,SPSS,公司于,2000,年正式将英文全称更改为,Statistical Product and Service Solutions,,意为,“,统计产品与服务解决方案,”,。,1.2 SPSS的版本,到目前为止,SPSS已成为适合于DOS,Windows,UNIX,Macintosh及OS/2等多种操作系统使用的产品,国内常用的是其适用于DOS和Windows的版本。,SPSS for DOS通常称为SPSS/PC+,现已较少使用。,目前已有,IBM SPSS Statistics,23.0,版。,1.3 SPSS for Windows,的特点,界面友好,操作简单。在,SPSS,中,大多数操作可以通过菜单和对话框来完成,因此操作便捷,易于学习和使用。,适用性好,因人而异。对于熟悉,SPSS,语言的用户,也可以在语句窗口中直接编写程序语句,从而灵活地完成各种复杂的统计分析任务。,算法隐藏。具有第四代语言的特点,只需通过菜单的选择以及对话框的操作告诉系统要做什么,无须告诉系统怎样做。用户只需了解统计分析原理,无须通晓统计分析的各种算法,即可得到统计分析结果。,1.3 SPSS for Windows,的特点,接口完善。具有完善的数据转换接口,其他软件生成的数据文件,(,如,Excel,、,Access,、,DBF,文件、,ASCII,码数据文件等,),均可方便地转换成可供,SPSS,分析的数据文件。,功能强大。,SPSS,的核心部分是统计功能,可以完成数据统计分析任务,提供了从简单的单变量分析到复杂的多变量分析的多种方法。,表格和图形化功能。,SPSS,可以直接生成数十种风格的表格,伴随其他分析过程又可生成一般表、多响应表和频数表等表格。,1.4,SPSS的运行方式,SPSS,主要有,3,种运行方式。,(1),批处理方式,把已编写好的程序,(,语句程序,),存为一个文件,在,SPSS,的,Production Facility,程序中打开运行。,(2),完全窗口菜单运行方式,这种方式通过选择窗口菜单和对话框完成各种操作。用户无须学会编码,简单易用。,(3),程序运行方式,这种方式是在命令,(Syntax),窗口中直接运行编写好的程序或者在脚本,(Script),窗口中运行脚本程序。,完全窗口菜单运行管理方式,完全窗口菜单运行管理方式主要在数据编辑窗口和输出观察窗口中进行操作。运行方式操作简便、直观,特别适合于初学者,也是本门课程讲授的主要方式。,缺点:对话框中包括的是基本参数和基本统计量的选择项,对于某些专业人员来说,可能不能充分满足需要。,程序运行管理方式,程序运行管理方式是在语句窗口(,Syntax,)中直接运行编写好的程序的一种方式。,分析结果仍然是显示在输出观察窗中。,主要用于习惯使用 程序的用户(,SPSS,最初是使用程序来进行统计分析的)。,1.5,SPSS的启动、主界面和退出,1.5.1,启动SPSS,SPSS,安装完毕后,系统会自动在,Windows,菜单中创建快捷方式。,进入,SPSS,后显示的文件对话框,打开一个其它类型的文件,运行教程:单击选,中后,,SPSS,将打开,帮助教程,在教程中,,用户可选择不同模块,的帮助说明进行,有针对性的辅导。,输入数据:需要手动输,入数据,建立新的数据,文件时可选择此项。,运行现有查询:选中后,,可以选择查询文件,(.spq),的位置,并可单击打开。,使用数据库向导创建新查,询:选中后,将进入数据,库向导对话框,根据向导,指示可以建立新查询文件。,打开现有的的数据源:,选中后,下方将出现“打,开文件”按钮,可以选择现,存数据源的位置,并可单击,打开文件。,进入,SPSS,后显示的文件对话框,在数据窗口输入数据选项,运行一个已存在的文件选项,打开一个已存在的数据源程序,使用数据库向导来创造一个新的文件选项,打开一个其它类型的文件,以浏览运行,操作指导,1.5.2,SPSS的数据编辑窗口,SPSS,主界面主要有两个,一个是,SPSS,数据编辑窗口,另一个是,SPSS,输出窗口。,数据编辑窗口由标题栏、菜单栏、工具栏、编辑栏、变量名栏、内容区、窗口切换标签页和状态栏组成,如图所示。,标题栏,菜单栏,工具栏,编辑栏,变量名栏,内容区,窗口切,换标签,状态栏,数据编辑窗口,统计软件,SPSS,界面概述,标题栏,菜单栏,工具栏,工作区,建立数据文件、定义变量、编辑图表、编写程序等等。,1.5.2,SPSS的数据编辑窗口,该窗口下方有两个标签:“,Data View”,(数据视图)和“,Variable View”,(变量视图)。,如果使用过电子表格,如,Microsoft Excel,等,那么数据编辑窗口中“,Data View”,所对应表格许多功能应该已经熟悉。但是它和一般的电子表格处理软件还有以下区别。,1.5.2,SPSS的数据编辑窗口,(1),一个列对应一个变量,即每一列代表一个变量,(Variable),或一个被观测量的特征。例如问卷上的每一项就是一个变量。,(2),行是观测,即每一行代表一个个体、一个观测、一个样品,在,SPSS,中称为事件,(Case),。例如,问卷上的每一个人就是一个观测。,(,3,)单元包含值,即每个单元包括一个观测中的单个变量值。单元(,Cell,)是观测和变量的交叉。,(,4,)数据文件是一张长方形的二维表。数据文件的范围是由观测和变量的数目决定的。可以在任一单元中输入数据。如果在定义好的数据文件边界以外键入数据,,SPSS,将数据长方形延长到可包括那个单元和文件边界之间的任何行和列。,数据编辑窗口是一个可扩展的二维表格,用户可在该窗口中,建立或编辑数据文件,。其主要功能有:定义变量属性;录入数据;修改变量属性;移动记录指针;插入记录;插入新的变量等。,在一个,SPSS,运行期间,不能,同时打开两个以上的数据编辑窗口。,1.5.2,SPSS的数据编辑窗口,数据编辑窗口(菜单栏),菜单项,中文含义,包括的命令项,File,文件操作,建立,5,种窗口、文件的打开、保存、另存、读取数据库数据、显示数据文件信息、打印等功能,Edit,文件编辑,撤销,/,恢复、剪切、复制、粘贴、清除、查找、定义系统参数,View,窗口外观控制,状态栏、工具栏、表格线的显示或隐藏,字体设置、值标签,/,变量值的显示切换,Data,数据文件的建立与编辑,定义日期,插入变量、观测量、转置,对观测量定位、排序,对数据文件的拆分、合并、汇总,选择观测量,对观测量加权,进行与显示正交实验设计等,Transform,数据转换,计算新变量、随机数种子设置、计数、重编码、变量等级化、排秩,建立时间序列、重置缺失值等,数据编辑窗口(菜单栏),Analyze,统计分析,概括描述、自定义表格、均值比较、一般线性模型(方差分析)、相关、回归、对数回归、聚类与判别、数据简化、多维标度、非残检验、时间序列、生存分析、多项响应、缺失值分析,Graphs,统计图表的建立与编辑,统计图概览、交互作图方式、统计地图及概览中所列的各种统计图的建立与编辑,Utilities,实用程序,变量列表、文件信息、定义与使用集合、自动到新观测量、运行稿本文件、菜单编辑器,Window,窗口控制,所有窗口最小化、激活窗口列表,Help,帮助,主体、培训、,SPSS,主页、语句指南、统计学指导、关于本软件协议,SPSS常用工具按钮,SPSS的工具栏,打开,(Open File),:可打开数据文件、语句文件和其他类型的文件,(,如,Excel),等。,保存,(Save File),:对数据进行编辑修改后,可以将修改后的内容进行保存。,打印,(Print),:打印输出数据编辑区的报表。,恢复对话框,(Dialog Recall),:单击后,可显示最近打开的对话框,重新对对话框进行编辑。如果打开文件后,从未打开过任何对话框,则该功能不可用。,撤销,(Undo),:可撤销上一步或上几步的错误操作。,恢复,(Redo),:撤销操作后,若想还原,可单击该按钮。,到达记录,(,Goto,case),:单击后,将打开到达记录,(,Goto,case),对话框,在对话框内输入数字,可立即到达当前单元格所在变量,(,列,),的记录,(,行,),处。,SPSS的工具栏,变量,(Variables),:单击后,将打开变量,(Variables),对话框,对话框内将显示全部数据变量的名称、标签和类型等形式。,查找,(Find),:单击后,将找开查找,(Find),对话框,在对话框内输入要查找的内容,即可找到该内容所在的单元格。,插入记录,(Insert cases),:单击后,将在光标所在单元格的上方插入一行记录,可在该行中输入新的观测量。,插入变量,(Insert variable),:单击后,将在光标所在单元格的左方插入一列变量,可在该列中输入新的变量值。,拆分文件,(Split File),:单击后,将打开拆分文件,(Split File),对话框,可在该对话框中对文件进行分组,进而拆分文件。,观测量加权,(Weight cases),:单击后,将打开观测量加权,(Weight cases),对话框,可在该对话框中,选择频数变量对观测量进行加权求和。,SPSS的工具栏,观测量选择,(Select cases),:单击后,将打开观测量选择,(Select cases),对话框,可在该对话框中,对所有观测量设定条件、范围及样本的随机性,进而筛选出所有满足条件的观测量。,数值标签,(Value labels),:如果已对变量进行标签设定,单击该按钮,变量将被所对应的数值标签替代;再次单击该按钮,即可恢复显示。,使用集合,(Use variable sets),:将变量分组定义为集合后,可单击该按钮,在打开的使用集合,(Use variable sets),对话框中,选择在数据编辑区中显示的变量集合。,显示所有变量,(Show all variables),:单击后,将在数据编辑区内显示所有的变量。,1.5.3,SPSS结果输出窗口,SPSS,结果输出窗口名为,Viewer,,它是显示和管理,SPSS,统计分析结果、报表及图形的窗口。读者可以将此窗口中的内容以结果文件,.spv,的形式保存。,1.5.3,SPSS结果输出窗口,结果输出部分分成左右两个部分,左边部分是,索引输出区,(又称,大纲视图,、,结构视图,),用于显示已有的分析结果标题和内容索引;右边部分是各个分析的具体结果,称为,详解输出区,。这和,Word,的文档结构视图十分类似。,1.5.3,SPSS结果输出窗口,结果输出窗口的编辑:,打开与保存,移动、删除,文本编辑,结果的导出,1.5.4,SPSS,语句编辑窗口,SPSS,为我们提供了语句编辑,(Syntax Editor),窗口。窗口的绝大多数菜单命令与数据编辑窗口相同,用户可以在此窗口自行编写,SPSS,语句程序,通过执行“,Run”,菜单中的执行语句命令实现统计分析任务。,可以执行菜单栏中“,File”“New”“Syntax”,命令,新建一个,SPSS,的语句文件;也可以执行菜单栏中“,File”“Open”“Syntax”,命令,打开一个已有的语句文件。,1.5.4,SPSS,语句编辑窗口,1.5.5,SPSS,脚本编辑窗口,SPSS,的脚本编辑,(Script Editor),窗口为高级用户提供了一个专门的编程环境,允许用户使用,Sax Basic,语言,(,一种与,VB,兼容的编程语言,),编写脚本语言程序,来扩充,SPSS,的功能。,可以执行菜单栏中“,File”“New”“Script”,命令,新建一个,SPSS,的脚本语言文件;也可以执行菜单栏中“,File”“Open”“Script”,命令,打开一个已有的脚本语言文件。,1.5.5,SPSS,脚本编辑窗口,1.5.6,退出SPSS,选择数据编辑窗口的“,File”,菜单中的“,Exit”,命令,或单击标题栏上的“关闭”按钮退出,SPSS,。,1.6,SPSS的帮助系统,1.6.1 Help,菜单中的,topics,命令,在运行,SPSS,的任何时候,单击“,Help”,菜单中的“,topics”,命令,会弹出帮助主题窗口,如图所示。在其中选择相关的命令,即可得到所需的各种帮助。,图 帮助主题窗口,1.6.2,Help菜单中的tutorial命令,选择“,Help”,菜单中的“,tutorial”,命令,则弹出浏览器形式的帮助文件窗口。在该窗口下面有,4,个按钮,分别对应“目录索引”、“帮助主页”、“前进”、“后退”功能。,1.6.3,各种对话框中的Help按钮,利用各种对话框中的“,Help”,按钮,可以直接获得,SPSS,相应命令的帮助,这是最简单也是最有效的获取帮助的方式。,1.6.4,有关统计方法指导,SPSS对一些基本模块中的统计提供了Statistics Coach帮助,也就是“手把手”式的指导,第二节,SPSS,软件的数据管理,数据编辑器(,1,),-,数据视图,2.1,新建数据文件,数据编辑器,用户可以直接在数据视图中对数据进行修改。,可以直接在数据视图中进行复制、粘贴,也可以直接修改某个个案的属性值,删除某一行或者某一列,添加一列(插入变量),添加一行(插入个案);,可以进行查找、(批量)查找替换等,。,数据编辑器(2)-变量视图,数据的定义,44,一个完整的,SPSS,数据结构包括,:,变量名、变量类型、变量名标签、变量值标签、缺失值的定义、度量的尺度、及数据的显示属性(显示宽度、列宽度、对齐方式),2.1.1,变量名,首字符必须是字母或汉字,后面可以是除,(!、?,、,*),之外的任意字符。,变量名的结尾不能是圆点、句点、下划线,变量名必须唯一,并且不区分大小写,SPSS,的保留字不能作为变量名(,ALL、AND,、,BY,、,EQ、GE,、,GT、LE,、,LT,、,NE、NOT、OR,、,TO,、,WITH,),如不指定变量名,则系统默认变量名以,VAR,开头后面跟,5,个数字。,2.1.2,变量的类型,(Type),数值型,:,根据其功能和形式又可细分为,(,标准型、逗号型、句点型、科学计数型、美元型和自定义货币型,),字符型,日期型,系统默认为标准数值型,(1)数值型变量,标准型,:,是,SPSS,默认的类型,宽度,8、,小数点,2,、小数点用圆点。,科学计数类型,:适合数值很大或很小的变量,变量显示为指数形式。如:,-1.28E+002,表示,-1.2810,2,逗号型,(comma),圆点型,(Dot),美元型,(Dollar),自定义货币型,(2)日期型变量(Date),用于表示日期和时间的变量类型。SPSS提供了多达29种日期型变量的格式.,(3)字符型变量(String),是非数值型变量类型,其值是由字符串组成的.对其定义的对话框只有一个输入项,(4)修改数据变量的默认值,对于SPSS变量的参数,系统都会自动给出默认值.也可通过Edit菜单中的Date对话框重新设置,点击,2.1.3变量标签与变量值标签,变量标签,(,label,),对变量名含义的进一步补充说明。,变量值标签,(,alues,),是对数值型变量各个取值的含义给予进一步的解释和说明,2.,.4,变量缺失数据,(missing value),系统默认无缺失值:如当前变量测试值、记录完全正确、无遗漏,则可用无缺失值。,离散缺失值:如性别,0、3、4,都是非法的,可分 别填入,点击,定义缺失值范围:这种缺失值针对连续的变量值。当指定某一范围的值出现在当前定义的变量中,则被当作缺失值处理。如在性别变量值中输入了,3、4、5、6。,可以在,LOW,后面输入,3,HIGHT,后面输入,6。,注意这个定义范围内不能有合法值,。,”0“,就是包括不了的离散值,2.1.5度量尺度,度量型变量,(scale),可以表示如温度,、,重量等含义的,连续性,数值变量,也可以表示年龄,、,次数等离散型变量,.,还可以表示时间的日期变量或者货币的货币型变量,但不能是字符型变量,.,有序型变量,(ordinal),其值表示一种顺序的前后,如职称变量可分为高中低三个档次,可用,A(1)、B(2)、C(3),表示,定序型变量可以是数值型也可以字符型,名义型变量,(nominal):,该变量不存在变量值之间的大小、顺序的前后等。只表示属于的类别。如性别中,“,1,”,表示男,,“,2,”,表示女等,可以是数值型也可以字符型,SPSS数据的录入,当变量的属性定义完成后就可以开始进行数据的输入,.,切换窗口从,Variables View,Date View,出现了二维的空白表格,.,Enter,输入一列相同参数,Tab,输入一行同一案例的数据,Shift+Tab,光标左移,录入、修改好数据后,保存为,SPSS,数据文件(,.,sav,),供进一步使用。,SPSS,数据文件的构成:,由数据,结构,和数据,内容,构成,1.,在,Variables View,视区定义变量及其变量的属性,2.,在,Date View,视区录入数据文件的内容,练习:如一个班考试成绩表包含姓名、考号、各科科目成绩(英语、数学、政治、专业)等六个变量。对每一个变量定义其属性,如,“,姓名,”,变量定义为字符型、宽度定义为,8,个字符,度量尺度为名义型,缺失值默认为,0,创建和读取SPSS数据文件,直接通过,SPSS,数据编辑窗口定义变量输入数据(如前所述),通过打开不同格式的数据文件,间接创建,SPSS,数据文件。,支持,*.doc,*.,xls,*.txt,等,2.2,打开与保存数据文件,SPSS支持的数据文件格式,SPSS,固有的数据文件格式,.,sav,便携式文件*,.,por,*.sys,SAS,格式文件,Excel,文件,文本文件(有分隔符的文件或者固定宽度的文件),数据库文件(,Access,,,Oracle,,,MySql,,,Sql,Server,等),读入Excel类型的数据,选择,【,文件,】【,打开,】【,数据,】,,文件类型选择,Excel,注意问题:,从第一行数据读入变量名。,在,SPSS,读入,Excel,文件时,必须先关闭要读入的,Excel,数据文件。,建议在读入,Excel,文件以前,先仔细检查,Excel,文件中的数据,确保格式正确,并删除和数据无关的部分以及空行和空列,然后再运行,SPSS,读入该文件,。,读入文本数据,【,文件,】【,打开,】,,文件类型选择,“,文本文件(*,.txt,,*,.dat,),”,注意问题:,一定要正确设定变量间的分隔符才能够保证导入数据的正确性。,在点击,【,下一步,】,之前,要仔细检查数据预览部分,如发现不正确的部分需要找到出错的原因,及并时返回相应的步骤进行修改。,读入数据库数据,首先需要建立,ODBC,数据源,建立ODBC数据源(1),在,Windows XP,中,选择,“,开始,”,菜单,“,设置(,S,),”,“,控制面板(,C,),”,“,管理工具,”,“,数据源(,ODBC,),”,,建立,ODBC,数据源,建立ODBC数据源(2),建立,ODBC,数据源,(3):,输入数据源名称,保 存 文 件,在数据输入过程中,要经常注意保存数据,而不要等到所有数据输入完成之后再进行保存。这样可以避免例如计算机故障或者突然断电造成的不必要的的数据丢失。,SPSS,可以对变量有选择地进行保存。可以选择你需要的变量进行保存。,可以选择不同的格式对,SPSS,数据文件进行保存。,设置文件保存的路径,2.3,数据的编辑,数据的增删,数据的整理,数据的算术处理,数据的合并,2.3,数据的编辑,数据的增删,操作类似,EXCEL,软件,2.3,数据的编辑,数据的整理,1.,数据的排序,2.,数据的行列转置,3.,数据的分割,4.,数据的选择,1.,数据的排序,(,1,)数据排序便于数据的,浏览,,有助于了解数据的,取值,状况、,缺失值,数量的多少等;,(,2,)通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的,全距,,初步把握和比较数据的,离散程度;,(,3,)通过数据排序能够快捷地发现数据的,异常值,,为进一步明确它们是否会对分析产生重要影响提供帮助。,数据排序的作用:,1.,数据的排序,SPSS,数据排序的基本操作步骤:,(,1,)选择菜单,Data,Sort Cases,(,2,)将主排序变量从左边的列表中选到,Sort by,框中,并在,Sort Order,框中选择按该变量的升序还是降序排序。,(,3,)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。,数据的排序,Sort Cases,ex.sav,文件中,按照“,height,(身高)”的大小排序。,升序,降序,2.,数据的行列转置,SPSS,数据行列转置的基本操作步骤:,(,1,)选择菜单,Data,Transpose,(,2,)在弹出的对话框中,在变量名列框中选,1,个或多个需要转置的变量,使之进入,Variable,框,点击,OK,即可。,(,3,)产生的新数据会在第,1,列出现一个,case_lbl,新变量,用于放置原来数值的变量名。若要将数据再转换回原来的排列方式,方法同前。但没有被选中的变量信息将在转置后丢失。,2.,数据的行列转置,3.,数据的分割,在实际数据分析中,有时候需要按照不同的类别或者组来进行分析。这就需要先把数据文件中不同的组分离出来。,用,【,数据,】【,选择个案,】,来分别选出各个组。,用,【,数据,】【,拆分文件,】,方式。,在,SPSS,菜单,【,转换,】【,计算变量,】,的,“,如果,”,部分进行选择,数据的分割,Split File,比较组,分组变量,根据分组变量排序,ex.sav,文件中,按照“,sex,(性别)”拆分文件,4.,数据的选择,(1),数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为,抽样,。,抽样的作用,提高数据分析效率,检验模型的需要,(,2)SPSS,可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。,(,1,)选取全部数据(,All cases,),(,2,)按指定条件选取(,If condition is satisfied,),SPSS,要求用户以,条件表达式,给出数据选取的条件,,SPSS,将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断,为真的个案,将被自动选取出来,而那些条件判断为假的个案则不被选中。,数据选取的基本方式:,(,3,)随机抽样(,Random sample of cases,),,对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式:,近似抽样(,Approximately,),近似抽样要求用户给出一个百分比数值,,SPSS,将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。,注,:,由于,SPSS,在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差,(,此偏差不会对数据分析产生重要影响),因而称为近似抽样。,精确抽样(,Exactly,),精确抽样要求用户给出两个参数。第一个参数是希望选取的,个案数,,第二个参数是指定在,前几个个案,中选取。,SPSS,自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。,(,4,)选取某一区域内的样本,(,Based on time or case range,),即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。,这种抽样方法适用于时间序列数据。,(,5,)通过过滤变量选取样本,(,Use filter variable,),即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非,0,或非系统缺失值的个案将被选中。,这种方法通常用于排除包含系统缺失值的个案。,说明:,(,1,)完成数据选取后,以后的,SPSS,分析操作仅针对那些被选中的个案直到用户,再次改变,数据的选取为止。,(,2,)采用指定条件选取和随机抽样方法进行数据选取后,,SPSS,将在数据编辑窗口中自动生成一个名为,filter_$,的新变量,取值为,1,或,0,。,1,表示本个案被选中,,0,表示未被选中。该变量是,SPSS,产生的中间变量,如果删除它则自动取消样本抽样。,(,1,)选择菜单,Data,Select cases,(,2,)根据分析需要选择数据选取方法,(,3,),Unselected cases are,指定对未选中个案的处理方式,Filtered,表示在未被选中的个案号码上打一个,“,/,”,标记;,Deleted,表示将未被选中的个案从数据编辑窗口中删除。,数据选取的基本操作:,数据的选择,Select Cases,如果条件满足,过滤,删除,select,unselect,筛选条件:有高血压家族史(,genic 0,),如果选用,Deleted,,则一定要将筛选后的文件另存一个文件名,filter_$,变量,,0,表示未选中该记录,,1,表示选中该记录,不符合条件的记录,被用斜线筛除,2.3,数据的编辑,数据的算术处理,1.,变量的加权处理,统计分析中的加权处理是极为常见的,如计算加权平均数等。,SPSS,中指定加权变量的操作步骤:,(,1,)选择菜单,Data,Weight Cases,。,(,2,)选择,Weight Cases by,选项,并将某变量作为加权变量选到,frequency,框中。,注意,(1),一旦指定了加权变量,那么以后的分析处理中加权是一直有效的,直到取消加权为止。取消加权应选择,Do not weight cases,选项。,(2),加权操作完毕后,数据编辑窗口中的数据并没有变化,仅在状态栏有已经加权(,weight on,)的提示信息。,2.,数据的运算与新变量的生成,(,1,)数据的转换处理,在原有数据的基础上,计算产生一些,含有更丰富信息,的,新数据,。例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,这些新变量具有,更直观更有效,的特点。,(,2,)对数据的原有分布状态进行转换,对原有数据的分布进行转换,以满足建模中某些模型对数据分布的要求。,非正态或非线性数据的处理,时间序列平稳化处理,标准化处理,变量计算的目的,SPSS,变量计算是在原有数据的基础上,根据用户给出的,SPSS,算术表达式,以及,函数,,对,所有,个案或满足条件的,部分,个案,计算产生一系列,新变量,。,(,1,)变量计算是针对所有个案(或指定的部分个案)的,每个个案都有自己的计算结果。,(,2,)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。,在变量计算过程中涉及到几个概念:,SPSS,算数表达式、,SPSS,条件表达式和,SPSS,函数。,指出按照什么方法计算变量;,SPSS,算术表达式(,Numeric Expression,)是由常量、变量、算术运算符、圆括号、函数等组成的式子。,字符型常量应当用引号括起来,变量是指那些已存在于数据编辑窗口中的原有变量,算术运算符主要包括,、*、,/,、*,(乘方),在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算,SPSS,算术表达式,在变量计算中通常要求对,不同的个案,分别按照,不同的方法,进行计算,于是就需要通过一定的方式来指定个案;,SPSS,条件表达式是一个对条件进行判断的式子。其结果有两种取值:,如果判断条件成立,则结果为真;,如果判断条件不成立,则结果为假。,条件表达式包括,简单条件表达式,和,复合条件表达式,。,SPSS,条件表达式,(,1,)简单条件表达式,由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括,、,、,。,(,2,)复合条件表达式,又称逻辑表达式,是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。,逻辑运算符号包括,&,或,AND,(并且)、,|,或,OR,(或者)、或,NOT,(非),。,NOT,的运算优先级最高,其次是,AND,,最低是,OR,。,可以通过圆括号改变运算的优先级。,(年龄,=35,),and not,(职称,28.0,。,定义新的变量名:,bmi _ gr,4.,缺失值的替代,大量的缺失值会给数据分析带来极大的影响,这就需要采用科学的方法对缺失值进行插补。操作步骤如下:,(,1,)选择菜单,Transform,replace missing values,(,2,)将需要插补的变量单击按钮送到,New Variables,框中,该变量自动会生成一个新的变量,变量名为原变量名,_1,(,3,)在,Method,中选择插补方法。,(,1,),Series mean,:,该变量所有非缺失值的均值,(,2,),Mean of nearby points,:该变量相邻非缺失值的均值,(,3,),Median of nearby points,:该变量相邻非缺失值的中位数,(,4,),Linear interpolation,:线性内插法(用缺失值前后两点的中点值做替代,如果前后值有一个是缺失值,则得不到替换值),(5,),Linear trend at point,:用线性拟合方式确定替代值,自变量为,1-n,的数值。,2.3,数据的编辑,数据的合并,数据文件的合并,纵向连接:几个数据集中的数据相加,组成一个新的数据集,新数据集中的记录是原来几个数据集中记录数的总和。,横向连接:指的是按照记录的次序,或者某个关键变量的数值,将不同数据集中的不同变量合并为一个数据集,新数据集中的变量数是所有原数据集中不重名变量的总和。,数据文件的合并,一、数据文件的纵向连接,纵向合并实质就是将两个数据文件的变量列,按照各个变量名的含义,一一对应的进行首尾相接。,纵向合并必须遵循两个条件:,第一,两个合并的,spss,数据文件,其内容合并是有实际意义的。,第二,为方便,spss,数据文件的合并,在不同的数据文件中,最好起相同的名字,变量类型和变量长度也要尽量相同。,数据文件的合并,纵向合并:增加记录,Merge Files.Add Cases,打开数据文件,ABGG.sav,作为“,工作数据文件,”,打开,ABMM.sav,作为“,外部数据文件,”,二、数据文件的横向合并,横向合并的实质是将两个数据文件的记录,按照记录对应,一一进行左右对接。,横向合并遵循三个条件:,第一,如果不是按照记录号对应的规律进行合并,则两个数据文件必须至少有一个变量名相同的公共变量,这个变量是两个数据文件横向合并的依据,成为关键变量。,第二,如果是使用关键变量进行合并的对应,则两个数据文件都必须事先按关键变量进行升序排列。,第三,为方便,SPSS,文件的合并,在不同的数据文件中,数据含义不相同的列,变量名不应取相同的名称。,数据文件的合并,横向合并:增加变量,Merge Files.Add Variables,打开,ABGTRY.sav,作为“,工作数据文件,”,打开,ABMTRY.sav,作为“,外部数据文件,”,展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




医学研究的数据管理与分析——第八章.ppt



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/12684629.html