属性数据列联表.pptx
《属性数据列联表.pptx》由会员分享,可在线阅读,更多相关《属性数据列联表.pptx(43页珍藏版)》请在咨信网上搜索。
1、属性数据列联表l在市场研究中在市场研究中,为了了解一种新产品得吸引为了了解一种新产品得吸引力力,根据顾客就是否已看到这种新产品得广根据顾客就是否已看到这种新产品得广告及就是否已购买该厂新产品告及就是否已购买该厂新产品,将顾客分为将顾客分为不同组、不同组、l这种类型得数据可以方便地汇总在一张表这种类型得数据可以方便地汇总在一张表格中格中,用来表示每个组中得观测个数、用来表示每个组中得观测个数、属性数据分析属性数据分析一、属性数据一、属性数据l1、变量得类型变量得类型l根据变量得取值情况可以分为以下几种:(1)名义变量名义变量l变量值就是几个没有次序之分得不同状态,她给变量值赋予名称、例如,性别就
2、就是一个名义变量,用“男”和“女”作为其取值、也可以用“1”和“2”代表取值,但这二个数字只就是取值得名称,她们在数值上没有任何意义、l人们驾驶得汽车类型也就是名义变量得例子,可以把“Toyota”,“Chevrolet”,“Volkswagens”等作为变量值得代码;也可以用“1”代表Toyota牌,“2”代表Chevrolets牌,“3”代表Volkswagens牌等等、l但就是这些数字除了把该变量得一个值与一个名称联系起来之外没有任何其她得意义、还有职业、血型、就是否患病、喜爱得颜色等等都就是名义变量、(2)(2)有序变量有序变量l变量值就是有严格次序得不同状态、例如民意测验中常用到以下
3、取值得有序尺度:坚决拥护、拥护、弃权、反对、坚决反对,比如:“我认为新得税法比老税法有改进”得一种陈述,要求在有序尺度中选择代表自己意见得回答、又如按治疗效果,把病人分为治愈(1)、显效(2)、好转(3)、无效(4)等四类、把产品按质量分为:不好、一般、好、很好、文化程度分为高、中、低等、在以上几个例子中,变量得取值有内在得顺序、l同名义数据一样,您可以给这些值赋予不同数字,而您赋给变量得具体数字并不重要,但规定得这些数字与取值顺序必须相匹配、对于治疗效果得例子,既可以规定变量值为1,2,3和4,也可以规定为1,10,20和100、l如果选择得分析方法适用于该变量,那么该方法只依赖变量值得顺序
4、而与变量得数值无关、(3)区间变量(或间隔变量)l区间变量就是有顺序大小得数值变量,且数值间得差值就是有意义得、l例如考虑温度,40度比10度热30度,而40度和10度就是相对于人们取定得0度而言得、这类变量对减法:两值之差就是有意义得;l但对两值得比率就是没有意义得。l例如由4010=4,而认为40度比10度热3倍得说法就是不合适得、l区间变量与有序变量相对比,有序变量值之差就是没有什么意义,如治疗效果就是有序变量,2和1之间得差与3和2之间得差不具有同样得意义、(4)比率变量(或比例变量)l比率变量也就是数值变量,不仅数值之差有意义,而且要求有绝对得零点,两数值得比率也就是很重要、例如,金
5、子得重量就就是一个比率变量;还有食物中得卡路里数也就是比率变量,含有2000卡路里得食物就是含有1000卡路里得食物得两倍;与温度相比较,我们不能说40度就是20度得两倍,因为温度得0度只就是一个任选得参考点、l以上这四类变量中,名义变量和有序变量也称为属性变量(或定性变量),有时也称为离散变量;而区间变量和比率变量称为定量变量,有时也称为连续变量、2、属性数据l来自社会调查、医学、心理学等领域中,由属性变量得到得数据都就是属性数据、例如问卷调查结果得分析,医药和流行病研究资料得分析等,都就是对属性数据进行分析、l属性数据一般都就是汇总为表格(即列联表)后再进一步地进行分析、l在方差分析和回归
6、分析中,研究因变量与一些自变量得相关关系、l在方差分析中,自变量就就是属性变量,她们都只取几个离散得值、l在回归分析中,自变量就是连续变量、但方差分析和回归分析中得因变量都必须就是连续变量。l当我们研究得指标就是一个属性变量,并希望用其她变量来说明或预测这个属性变量得取值时,不管用以说明得变量就是属性得或连续得,使用得统计方法统称为属性数据分析,所以属性数据分析就是一种有着广泛实际应用得统计方法、l对属性数据进行分析,将达到以下几方面得目得:l(1)产生汇总分类数据列联表;l(2)检验属性变量间得独立性(无关联性);l(3)计算属性变量间得关联性统计量;l(4)对高维数据进行分层分析和建模、第
7、九讲列联表、列联表、c c2检验和对数线性模型检验和对数线性模型 例例1l下面就是对123人进行关于某项政策调查所得结果得一个简单得三维表,她显示了人们得收入和性别对该项政策得观点。l下表表示不同收入和不同性别人群对某项政策得观点。大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点三维列联表三维列联表(关于某项政策调查所得结果关于某项政策调查所得结果)观点:赞成观点:不赞成低收入中等收入高收入低收入中等收入高收入男201055810女25157279列联表列联表l前面就就是一个所谓得三
8、维前面就就是一个所谓得三维列联表列联表(contingency table)、l这些变量中每个都有两个或更多得可能取值。这这些变量中每个都有两个或更多得可能取值。这些取值也称为水平些取值也称为水平;比如收入有三个水平比如收入有三个水平,观点有观点有两个水平两个水平,性别有两个水平等。该表为性别有两个水平等。该表为322列联列联表表l在下面在下面SPSS数据中数据中,表就和上面得不同表就和上面得不同,收入得收入得“低低”、“中中”、“高高”用代码用代码1、2、3代表代表;性性别得别得“女女”、“男男”用代码用代码0、1代表代表;观点观点“赞赞成成”和和“不赞成不赞成”用用1、0代表。有些计算机数
9、据代表。有些计算机数据对于这些代码得形式不限对于这些代码得形式不限(可以就是数字可以就是数字,也可以也可以就是字符串就是字符串)。列联表列联表l列联表得中间各个变量不同水平得交汇处列联表得中间各个变量不同水平得交汇处,就就是这种水平组合出现得频数或计数就就是这种水平组合出现得频数或计数(count)。l二维得列联表又称为交叉表二维得列联表又称为交叉表(cross table)。l列联表可以有很多维。维数多得叫做高维列联表可以有很多维。维数多得叫做高维列联表。列联表。l注意前面这个列联表得变量都就是定性变注意前面这个列联表得变量都就是定性变量量;但列联表也会带有定量变量作为协变量。但列联表也会带
10、有定量变量作为协变量。二维列联表得检验二维列联表得检验 l研究列联表得一个主要目得就是看这些变研究列联表得一个主要目得就是看这些变量就是否相关。比如量就是否相关。比如前面例子中得前面例子中得收入和收入和观点就是否相关。观点就是否相关。l这需要形式上得检验这需要形式上得检验二维列联表得检验二维列联表得检验 l下面表就是把该例得三维表简化成只有收下面表就是把该例得三维表简化成只有收入和观点得二维表入和观点得二维表(这就是这就是SPSS自动转化自动转化得得:Analyze-Descriptive Statistics-Crosstabs-、)、二维列联表得检验二维列联表得检验l对对于于上上面面那那样
11、样得得二二维维表表。我我们们检检验验得得零零假假设和备选假设为设和备选假设为lH H0 0:观点和收入这两个变量不相关观点和收入这两个变量不相关;H H1 1:这两这两个变量相关。个变量相关。l这里得检验统计量在零假设下有这里得检验统计量在零假设下有(大样本时大样本时)近似得近似得c c2 2分布。分布。l当该统计量很大时或当该统计量很大时或p p-值很小时值很小时,就可以拒就可以拒绝零假设绝零假设,认为两个变量相关。认为两个变量相关。二维列联表得检验二维列联表得检验l实际上有不止一个实际上有不止一个c c2 2检验统计量。包括检验统计量。包括Pearson c c2 2统计量和似然比统计量和
12、似然比(likelihood ratio)c c2 2统计量统计量;她们都有渐近得她们都有渐近得c c2 2分布。分布。l对于我们得数据对于我们得数据,根据计算可以得到根据计算可以得到(对于对于这两个统计量均有这两个统计量均有)p p-值小于值小于0 0、001001。因此。因此可以说可以说,收入高低得确影响观点。收入高低得确影响观点。Pearson c c2 2统计量统计量似然比似然比c c2 2统计量统计量二维列联表得检验二维列联表得检验l刚刚才才说说,这这些些c c2 2统统计计量量就就是是近近似似得得,那那么么有没有精确得统计量呢?有没有精确得统计量呢?l当当然然有有。这这个个检检验验
13、称称为为FisherFisher精精确确检检验验;她不就是她不就是c c2 2分布分布,而就是超几何分布。而就是超几何分布。l对对本本问问题题,计计算算FisherFisher统统计计量量得得到到得得p p-值也小于值也小于0 0、001001。lFisherFisher精确检验得又一例子精确检验得又一例子二维列联表得检验二维列联表得检验l聪聪明明得得同同学学必必然然会会问问,既既然然有有精精确确检检验验为什么还要用近似得为什么还要用近似得c c2 2检验呢?检验呢?l这这就就是是因因为为当当数数目目很很大大时时,超超几几何何分分布布计计算算相相当当缓缓慢慢(比比近近似似计计算算会会差差很很多
14、多倍倍得得时时间间););而而且且在在计计算算机机速速度度不不快快时时,根根本本无无法法计计算算。因因此此人人们们多多用用大大样样本本近近似似得得c c2 2统统计计量量。而而列列联联表表得得有有关关检检验验也也和和c c2 2检验联系起来了。检验联系起来了。具体运算具体运算:先先加权加权,加权之后加权之后,按照次序选按照次序选AnalyzeDescriptive StatisticsCrosstabs。在打开得对话框中在打开得对话框中,把把opinion和和ine分别选入分别选入Row(行行)和和Column(列列););至于哪个放入行或哪个放入列至于哪个放入行或哪个放入列就是没有关系得。就
15、是没有关系得。如果要如果要Fisher精确检验则可以点精确检验则可以点Exact,另外在另外在Statistics中选择中选择Chi-square,以得到以得到c c2检验结果。最检验结果。最后点击后点击OK之后之后,就得到有关就得到有关Pearson c c2统计量、似统计量、似然比然比c c2统计量以及统计量以及Fisher统计量得输出了统计量得输出了(这里得这里得Sig就就是就就是p-值值)。下面就就是下面就就是SPSSSPSS计算机对于这个问题得输出计算机对于这个问题得输出高维列联表和高维列联表和(多项分布多项分布)对数线性模型对数线性模型 l前面例子前面例子原始数据就是个三维列联表原
16、始数据就是个三维列联表,其检其检验和对两维类似。验和对两维类似。l但高维列联表在计算机软件得选项上有所但高维列联表在计算机软件得选项上有所不同不同,而且可以构造一个所谓而且可以构造一个所谓(多项分布多项分布)对对数线性模型数线性模型(loglinear model)来进行分析。来进行分析。l利用对数线性模型得好处就是不仅可以直利用对数线性模型得好处就是不仅可以直接进行预测接进行预测,而且可以增加定量变量作为模而且可以增加定量变量作为模型自变量得一部分。型自变量得一部分。对数线性模型对数线性模型l现在简单直观地通过二维表介绍一下对数线性模型现在简单直观地通过二维表介绍一下对数线性模型,假假定不同
17、得行代表第一个变量得不同水平定不同得行代表第一个变量得不同水平,而不同得列代而不同得列代表第二个变量得不同水平。用表第二个变量得不同水平。用mij代表二维列联表第代表二维列联表第i行行,第第j列得频数。人们常假定这个频数可以用下面得公式列得频数。人们常假定这个频数可以用下面得公式来确定来确定:这就就是所谓得对数线性模型。这里这就就是所谓得对数线性模型。这里a ai i为行变量为行变量得第得第i个水平对个水平对ln(mln(mijij)得影响得影响,而而b bj j为列变量得第为列变量得第j个水平对个水平对ln(mln(mijij)得影响得影响,这两个影响称为主效应这两个影响称为主效应(main
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 属性 数据 列联表
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。