6观察性研究统计分析策略.pptx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 观察 研究 统计分析 策略
- 资源描述:
-
观察性研究的统计分析策略观察性研究的统计分析策略两类医学研究两类医学研究1.1.干预性研究干预性研究 研究者主动地决定给部分实验对象某种处理,给另部分实研究者主动地决定给部分实验对象某种处理,给另部分实验对象某种对照处理的研究设计形式。验对象某种对照处理的研究设计形式。例如例如,随机对照试验随机对照试验 (Randomized Controlled Trials(Randomized Controlled Trials,RCTRCT)2.2.观察性研究观察性研究 不对研究对象施加任何干预。通过对研究对象的客观观察不对研究对象施加任何干预。通过对研究对象的客观观察和记录,描述观察结果和记录,描述观察结果,并分析因素之间的关系。并分析因素之间的关系。随机对照试验的局限性随机对照试验的局限性对象对象 许多许多RCTRCT的患者是高度选择的,未必代表典型的患者是高度选择的,未必代表典型患者的特征,例如,医生平时所看的病人可能较年轻、患者的特征,例如,医生平时所看的病人可能较年轻、病不重、合并症少;病不重、合并症少;显示功效显示功效 (efficacy),(efficacy),而不是效果而不是效果(effectiveness)(effectiveness)RCTRCT通常是新疗法和安慰剂比较,而不是和现有最好的通常是新疗法和安慰剂比较,而不是和现有最好的疗法比,医生难以区别不同疗法;疗法比,医生难以区别不同疗法;昂贵、短期、对象少昂贵、短期、对象少 不可能观察较多患者、随访较不可能观察较多患者、随访较长时间,因而有可能漏掉很普遍的副反应和较长时间长时间,因而有可能漏掉很普遍的副反应和较长时间才出现的事件,低估它们的发生率。才出现的事件,低估它们的发生率。-虽然虽然RCTRCT很重要,也有必要进行观察性研究,很重要,也有必要进行观察性研究,以提供有关日常临床决策的更多信息。以提供有关日常临床决策的更多信息。观察性研究的实践性观察性研究的实践性1.1.欲比较多种药物在欲比较多种药物在“真实世界真实世界”的有效性,必的有效性,必须广泛收集在各种级别和类型的医疗机构使用须广泛收集在各种级别和类型的医疗机构使用各种药物的效果。各种药物的效果。2.2.对于临床上普遍而强烈地认可的某种意见(例对于临床上普遍而强烈地认可的某种意见(例如,糖尿病服用胰岛素),出于伦理或其他原如,糖尿病服用胰岛素),出于伦理或其他原因,不可能随机地令一部分患者晚用或不用。因,不可能随机地令一部分患者晚用或不用。3.3.对于罕见不良事件(致癌),只有长期观察才对于罕见不良事件(致癌),只有长期观察才能出现事件。能出现事件。观察性中医研究尤其重要观察性中医研究尤其重要传统中医科学基于观察传统中医科学基于观察 实践实践 -观察观察 总结总结-观察观察 总结总结 现代中医,现代中医,“实践实践”:患者成千上万:患者成千上万 “观察观察”:手段更丰富:手段更丰富 “总结总结”:工具更先进:工具更先进现代中医的观察性研究现代中医的观察性研究 -电子病历电子病历 +统计分析!统计分析!观察性研究目的观察性研究目的描述疾病的分布及发病率确定或探索致病/死因素评价预防、控制和治疗效果随机对照试验随机对照试验面对的挑战面对的挑战观察性研究观察性研究的优势的优势观察性研究与随机对照试验观察性研究与随机对照试验互相补充互相补充第一部分:观察性研究的常见设计第一部分:观察性研究的常见设计和统计方法和统计方法横断面研究横断面研究病例对照研究病例对照研究队列研究队列研究观察性研究的常见设计方法观察性研究的常见设计方法TimePast Present FutureCohort study:disease experience is collected prospectively,retrospectively or retrospectively and prospectivelyCase-control study:past experience of cases and controls is recalledCross-sectional study:past experience and current disease status are collected at the same time横截面调查横截面调查队列研究队列研究队列研究队列研究病例对照研究病例对照研究队列研究队列研究一、横断面研究的统计分析一、横断面研究的统计分析横断面研究(cross-sectional study):采用一时性调查方法,获得某地某人群在某一时点上关于某种疾病及有关因素暴露水平的信息,以查明疾病与暴露因素之间的相关性,又称现况调查。时间:某一时点或很短时期内的调查对象:一个人群的描述性调查(descriptive survey)目的:估计该人群一组变量的代表性水平,了解其现状Cross-sectional studyPopulation(Random)SampleExposure statusDiseases statusPresentAbsentNon-exposedExposedNowNow横断面研究的目的横断面研究的目的描述疾病或健康状况在时间、地区和人群中的分布,从而发现高危人群或有关的病因线索。探索某些因素与疾病的关联,确定危险因素:如通过对冠心病及其危险因素的调查,探索高血压、高血脂、超重、吸烟及有关职业与冠心病的关系。评价防治措施及效果:如在采取措施若干时期后,重复进行横断面研究,根据患病率差别的比较,考核前段时期干预措施的效果。为疾病监测或其他类型流行病学研究提供基础资料。(一)统计描述均数标准差、中位数(四分位数间距)、率、构成比、相对比和实验性研究方法一致和实验性研究方法一致横断面研究的统计学方法横断面研究的统计学方法(二)比较性研究比较2组或多组群体某项指标有没有差异独立样本的比较,与实验性研究方法一致独立样本的比较,与实验性研究方法一致两样本两样本t t检验,多样本方差分析,两样本秩和检验,检验,多样本方差分析,两样本秩和检验,多样本秩和检验多样本秩和检验举例举例对无淋巴细胞转移与有淋巴细胞转移的胃癌患者,对无淋巴细胞转移与有淋巴细胞转移的胃癌患者,观察其生存时间(偏态数据),问两组患者的生观察其生存时间(偏态数据),问两组患者的生存时间是否不同?存时间是否不同?应如何分析?应如何分析?例子:例子:某研究者在某单位工作人员中进行了体重指数(BMI)抽样调查,随机抽取不同年龄组男性受试者各16名,测量了被调查者的身高和体重值,计算了体重指数,请问,不同年龄组的体重指数有无差异。项目项目18岁岁30岁岁4560岁岁21.6527.1520.2820.6628.5822.8818.8223.9326.49样本量样本量161616平均值平均值22.0725.9425.49标准差标准差8.978.117.19应如何分析?应如何分析?上述两个例子上述两个例子均不进行人为干预,研究者只负责调查,数据采集一个两组,应采用秩和检验一个三组,应采用方差分析(三)关联性研究观察性研究往往采集到多个变量观察性研究往往采集到多个变量变量之间可能存在着一定的关系变量之间可能存在着一定的关系研究不同变量之间的相关性是医学研究重要内容研究不同变量之间的相关性是医学研究重要内容相关性:事物是普遍联系的事物间关系的表现形式:确定性形式非确定性(随机)形式r圆的面积与圆的半经间关系如下:圆的面积与圆的半经间关系为一一对应的函数关系10-20-30-40-50-60-年龄(岁)血压年龄与血压的关系如下:年龄与血压的关系表现为非确定的随机形式年龄与血压的关系表现为非确定的随机形式什么是统计学上的相关?什么是统计学上的相关?在大量的实际问题中,随机变量之间虽有某种关系,但这种关系很难找到一种精确的表示方法来描述(不像数学函数)例如,人的年龄与血压之间有一定的关系,知道一个人的年龄可以大致估计出他的血压,但并不能算出血压的精确值。其原因在于人有较大的个体差异,因而年龄和血压的关系,是既密切但又不能完全确定的关系。相关和相关分析定义相关和相关分析定义在这种大量存在于随机变量间既互相联系,但又不是完全确定的关系,称为相关关系。对相关关系的有无和关系大小做出统计推断的方法称为相关分析。医学研究中的相关医学研究中的相关年龄与血压药物剂量与反应(动物的死亡率)血糖的浓度与胰岛素水平肺活量与体重身高与体重相关的种类:相关的种类:1.正相关(positive correlation)2.负相关(negative correlation)3.非线性相关(nonlinear correlation)4.零相关(zero correlation)(1)(2)(3)(4)正相关正相关负相负相关关曲线相曲线相关关无相无相关关 举例 现有15例糖尿病患者,测得每位患者的胰岛素和血糖水平,见表1。问题:糖尿病患者胰岛素和血糖水平有无关系?序号123456789101112131415胰岛素161319101118257161024178179血糖8.411.27.512.813.78.27.815.79.610.68.49.413.6104.14.1资料的特征及统计分析策略(1)双变量是正态分布的定量资料双变量关系为线性关系采用直线相关采用直线相关理论知识点理论知识点卡方检验卡方检验直线相关直线相关(linear correlation):(linear correlation):两个随机变量X、Y之间呈线性趋势的关系,又称简单相关(simple correlation)。体重体重BMI020406080100120051015202530354012例调查对象的体重和BMI值散点图如何判断直线相关关系?如何判断直线相关关系?通过散点图可以对两个变量之间有无相关关系进行大致的描述。散点图不能准确反映变量之间的关系密切程度因此,为准确度量两个变量之间的关系密切程度,最好的办法是采用数学的方式展示相关程度。相关系数是对两个随机变量之间线性关系密切程度的度量。直线相关系数又称 Pearson相关系数(Pearson coefficient),或积差相关系数总体相关系数:若0,称X和Y线性相关,简称相关;若0,则简称X和Y不相关。样本相关系数r :往往用来代替总体相关系数 式中 分别表示X的离均差平方和、Y的离均差平方和、X与Y的离均差乘积和。样本相关系数样本相关系数r r的计算的计算r r的特点的特点 r的取值范围为r1,绝对值大小表示两变量之间直线联系的密切程度。当r为负值时,表示当一个变量的取值增大时,另一个变量的取值减小,即呈相反的变化方向,称为负相关;当r为正值时,表示两个变量的变化方向一致,称为正相关。所以相关系数r是表示两个随机变量之间呈直线相关的强度和方向的统计量。现有15例糖尿病患者,测得每位患者的胰岛素和血糖水平,见表1。数据详见lincorr.sav 问题:糖尿病患者胰岛素和血糖水平有无关系?案例1表1 15例糖尿病患者胰岛素和血测定结果序号123456789101112131415胰岛素161319101118257161024178179血糖8.411.27.512.813.78.27.815.79.610.68.49.413.610.414.1如何进行分析?如何进行分析?首先,要考察直线的可能性?其次,计算r值第三,从样本推断总体总结:直线性关系的有无及大小第一步,做散点图v 两变量间两变量间存在线性相关存在线性相关趋势趋势v 没有发现没有发现明显的异常值明显的异常值第二步,计算相关系数 根据样本资料计算出的相关系数r是一个样本统计量,存在抽样误差。因此必须对r进行检验,以判断其是否来自总体相关系数0的一个样本。第三步,进行假设检验 常用的检验方法常用的检验方法查相关系数临界值表t 检验,统计量为:t t检验方法检验方法(1)建立检验假设并确定检验水准 H0:0,即血糖与胰岛素间无直线关系 H1:0,即血糖与胰岛素间有直线关系 0.05 (2)计算检验统计量 (3)确定P值,做出推断结论n查t界值表,n 4.4416.60,因此P0.001,n按照检验水准a=0.05,拒绝H0,接受H1,差异有统计学意义,可以认为糖尿病患者胰岛素和血糖水平有线性相关关系。直线相关分析直线相关分析SPSSSPSS分析分析选入希望进行相关分析的变量选择相关分析指标v Pearson相相关关系系数数为为-0.878,P 0,表示直线与纵轴的交点在原点的上方;a 0,则交点在原点的下方;a=0,则回归直线通过原点。a=0a 0XYb0,直线从左下方走向右上方,Y 随 X 增大而增大;b0b0b=04.4.统计模型构建统计模型构建l问题:这条直线怎么得到的?如何构建方程?l关键的问题:这条可以表示X、Y的因果关系的直线中,a,b的值是多少?哪一条最能代哪一条最能代表直线趋势?表直线趋势?求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。该过程称为拟合过程,是回归分析的核心任务,所形成的方程(函数),可以称之为“统计模型”拟合的基本原理l预测值 最接近Y的时候a、b是最佳的l预测值与实际值的差值称为残差(residual),即 。l残差最小,函数(模型)最佳线性趋势由于考虑到所有点的()有正有负,通常变成考察所有点的()平方和最小,这种理念,称之为最小二乘原则(least squares method)。l 设有 n例观察对象,即样本含量为 n,对第i例观察对象取得一对观测值(Xi,Yi),共有n对观测值(X1,Y1),(Xn,Yn)。l a及b计算公式为 l对案例1分析,构建15例糖尿病患者糖尿病患者胰岛素和血糖水平的直线回归方程接下来的工作接下来的工作:5.5.线性回归的统计推断线性回归的统计推断 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否总体参数 0?b 0 等同于 0?对于回归系数 的推断可采用方差分析(模型总体有效性分析)或t检验(对因变量分析)对于简单直线回归,两者检验结果一致。t t检验检验(1 1)建立建立检验假设,确定检验水准检验假设,确定检验水准 H0:=0 H1:0 =0.05(2)(2)计算计算检验统计量检验统计量t t(3)(3)确定确定P P值,作出推断结论值,作出推断结论 (1)建立检验假设,确定检验水准H0:糖尿病患者胰岛素和血糖水平无线性依存关系即=0 H1:糖尿病患者胰岛素和血糖水平有线性依存关系即0 =0.05(2)计算检验统计量t(3)确定P值,作出推断结论得P0.001,按照检验水准=0.05,拒绝H0,接受H1。可以认为糖尿病患者胰岛素和血糖水平线性回归方程成立。回归方程应该有实际意义,仅相关不能进行回归。作回归方程之前要先作散点图,观察两变量之间是否有线性趋势,还可以提示是否有异常点。建立线性回归的基本假设:独立性、正态性(残差服从正态分布),方差齐性(在自变量范围x内,无论x取何值,y都具有相同的方差)。6.6.线性回归分析中要注意的问题线性回归分析中要注意的问题 案案例例 仍仍以以血血糖糖和和胰胰岛岛素素为为例例,进进一一步步作作回回归归分分析,计算两者之间的回归方程。析,计算两者之间的回归方程。分析:分析:与相关分析类似,在回归分析之前首先要考虑的问题是两变量是否存在某种趋势,通过前面的散点图已经得到了肯定的结论,因此直接进行回归分析。简单直线回归简单直线回归SPSSSPSS分析分析简单回归分析简单回归SPSS分析选择结局变量选择原因变量简单回归SPSS分析结果分析v 对各自变量纳入模型情况的汇总,本例只有一个自变量。结果分析v对回归方程拟合情况的描述。本例决定系数为(R2值)0.770。R值越大,说明建的方程模型对真实的关系模拟度越高。e.g.R=0.99,说明真实世界完全可以用方程来模拟出来结果分析v 对模型进行方差分析的结果,P0.05,则说明模型具有统计学意义,说明模型建模成功。简单回归分析结果分析v回归方程中的常数项、回归系数的估计值和检验结果,P0.05说明因果关系成立,可写出回归方程如下:血糖=16.852-0.415胰岛素胰岛素最重要109Y,X单因素直线回归单因素直线回归 Y,X1,X2,Xm多因素回归(多重、多元回归)多因素回归(多重、多元回归)研究中经常碰到研究多个因素和一个结果的关系研究中经常碰到研究多个因素和一个结果的关系资料的特征及统计分析策略(3)(五)多因素线性回归(多元、多重线性回归)五)多因素线性回归(多元、多重线性回归)一个应变量与多个自变量间的关系儿童身高与年龄、性别的关系儿童身高与年龄、性别的关系肺活量与年龄、性别、身高、体重肺活量与年龄、性别、身高、体重以及胸围的呼吸差等因素的关系以及胸围的呼吸差等因素的关系多因素多因素线性回归线性回归多因素线性回归的数据格式多因素线性回归的数据格式1120为回归方程的常数项(constant),表示各自变量均为0时Y的平均值;m为自变量的个数;1、2、m为偏回归系数(Partial regression coefficient)意义意义:如1 表示在X2、X3 Xm固定条件下,X1 每增减一个单位对Y 的效应(Y 增减个单位),表明Xm对Y的影响力。e为去除m个自变量对Y影响后的随机误差,称残差(residual)。1.1.多因素回归模型多因素回归模型113 为y的估计值或预测值(predicted value);b0为回归方程的常数项(constant),表示各自变量均为0时y的估计值;由样本估计而得的多因素回归方程:b1、b2、bm为偏回归系数(Partial regression coefficient)意义:如 b1 表示在X2、X3 Xm固定条件下,X1 每增减一个单位对Y 的效应(Y 增减 b 个单位)。114适用条件适用条件:线性(线性(linear)、独立性()、独立性(independent)、正态性()、正态性(normal)、)、方差齐性(方差齐性(equal variance)“LINE”。线性线性自变量与应变量的关系是线性的。自变量与应变量的关系是线性的。用散点图判断。用散点图判断。独立性独立性任意两个观察值互相独立。任意两个观察值互相独立。常利用专业知识判断。常利用专业知识判断。正态性正态性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y均服从正均服从正态分布。即要求残差服从正态分布。态分布。即要求残差服从正态分布。常用残差图分析。常用残差图分析。方差齐性方差齐性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y的方差的方差均相同。即要求残差的方差齐性。均相同。即要求残差的方差齐性。用散点图或残差图判断。用散点图或残差图判断。115(1)用各变量的数据建立回归方程(2)对总的方程进行假设检验(3)当总的方程有统计学意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数无统计学意义,则应把该变量剔除,重新建立不包含该变量的多元回归方程。2.2.多元回归分析步骤多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。多因素回归实例多因素回归实例例例1 1 为研究男性高血压患者血压与年龄、身高、体重等变量的关系,随机测量了32名40岁以上男性的血压y、年龄x1、体重指数x2,年龄x3 试建立多重线性回归方程。数据文件见mreg2.sav。简单分析实例初步分析简单分析实例初步分析第一,要根据知识判断三个自变量,在理论上是否可能会影响血压的改变。第二,与简单线性回归相类似,先绘制散点图,以便在进行回归分析之前了解各变量之间是否存在线性关系。本例有两个自变量与一个反应变量,绘制散点图矩阵,如下。v 绘制散点图矩阵绘制散点图矩阵多多因素回归因素回归SPSSSPSS分析分析多多因素回归因素回归SPSSSPSS分析分析简单分析实例结果分析v 给出了自变量进入模型的方式,此处尚未涉及变量筛选问题,因为两个变量是被强行纳入模型的(Method为全因子模型全因子模型),当然就不存在剔除变量的事情了。简单分析实例结果分析v 模型拟合优度情况的检验,结果显示,决定系数(R2值)为0.794,调整的决定系数为0.686,说明对真实世界模拟度还算不错简单分析实例结果分析v 回归模型的假设检验结果,显示F35.878,P0.001,说明所建立的回归模型是有统计学意义的,至少有一个自变量的回归系数不为0。简单分析实例结果分析v 给出了模型的常数项以及两个自变量的偏回归系数及其检验结果。表明年龄和性别对血压的影响有统计学意义,体重指数则没有,说明年龄和性别是影响因素,暂时还不能说明体重指数是影响因素。简单分析实例结果分析v 偏偏回回归归系系数数的的意意义义。例例如如性性别别B=-0.872B=-0.872,说说明明性性别别变变量量中中从从1 1变变化化到到2 2,血血压压平平均均变变化化-8.72,-8.72,即即男男性性和和女女相相比比,血血压压要高要高8.72,8.72,所以结论是:所以结论是:男性是高血压的危险因素。男性是高血压的危险因素。简单分析实例结果分析v 偏偏回回归归系系数数的的意意义义。例例如如年年龄龄B=1.243B=1.243,说说明明年年龄龄每每增增加加一一岁岁,则则血血压压平平均均变变化化1.243,1.243,所所以以结结论论是是:年龄是高血压的危险因素。年龄是高血压的危险因素。二、病例对照研究二、病例对照研究(回归性调查回归性调查)病例对照研究(case-control study)病例组;对照组比较发病/死亡前接触某危险因素的状况。为确证性研究提供线索。Case-control study(Random)sample(Random)sampleControlsCasesNowPastExposedNon-exposedExposedNon-exposedPopulationNon-casesCases观察性研究的四格表资料形式 暴露暴露疾病疾病合计合计发生发生未发生未发生暴露暴露aba+b非暴露非暴露cdc+d合计合计a+cb+dn病例对照研究资料的病例对照研究资料的分析分析优势比/比数比(odds ratio,OR)优势(odds)是指二分类事件中一类事件相对于其对立事件的优势。病例组中暴露VS非暴露对照组中暴露VS非暴露(一)简单关联性分析根据“暴露”相对于“非暴露”的优势计算优势比,即 OROR值大于值大于1 1,提示暴露因素是危险因素;,提示暴露因素是危险因素;OROR值小于值小于1 1,提示暴露因素是保护因素;,提示暴露因素是保护因素;OROR值等于值等于1 1,提示暴露因素无意义,提示暴露因素无意义。简单关联性分析简单关联性分析简单关联性分析简单关联性分析n在结果表达上,在结果表达上,OROR值、值、P P值、值、95CI95CI缺一不可缺一不可nOROR值值95%95%可信区间与可信区间与P P关系关系可信区间不包括可信区间不包括1 1,则,则P P0.050.050.05136(二)回归分析:(二)回归分析:Logistic Logistic 回归回归 Logistic Logistic 回归是一种适用于应变量为分类值的多因回归是一种适用于应变量为分类值的多因素概率型曲线模型。最基本的模型应变量为二分类素概率型曲线模型。最基本的模型应变量为二分类变量变量病例对照结局变量为二分类,主要分析原因。病例对照结局变量为二分类,主要分析原因。因此,常用用因此,常用用LogisticLogistic单、多因素回归分析进行统单、多因素回归分析进行统计分析计分析137二项分类应变量为的二项分类应变量为的logisticlogistic回归资料。回归资料。应变量(应变量(Y Y)在一组自变量()在一组自变量(X X)的作用下所发生的结果赋值)的作用下所发生的结果赋值规则为:规则为:线性回归中,线性回归中,Y Y是定量资料,可以直接构建线性方程是定量资料,可以直接构建线性方程但如果但如果Y Y是二分类资料,无法直接构建线性方程是二分类资料,无法直接构建线性方程 出现阳性的结果 1 ,其概率用P来表示;出现阴性的结果 0 ,其概率用Q或(1 P)来表示。138研究者发现,ln(P/(1-P)作为Y可以构建线性方程,由样本估计而得的logistic回归模型:139将P/Q称为比数(odds,优势、比值);两个比数之比称为OR(odds ratio,优势比、比值比)。则:则:140bj=0时,ORj=1,说明因素xj对疾病不起作用;bj0时,ORj1,说明xj是一个危险因素;bj0时,ORj1,说明xj是一个保护因素。例1 某医师希望研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度 异 常)与 冠 心 病 ca是 否 有 关,数 据 见logistic_binary.sav。简单分析实例简单分析实例LogisticLogistic回归回归SPSSSPSS分析分析选入自变量选入应变量LogisticLogistic回归回归SPSSSPSS分析分析LogisticLogistic回归回归SPSSSPSS分析分析结果分析v 纳入研究样本量,如果有些观察指标缺失,那么样本量会降低,影响检验效能。因此尽量不要有指标缺失结果分析v 本表输出当前模型的-2log(似然值)和两个伪决定系数,但对于logistic回归而言,通常看见的伪决定系数不像线性回归模型中的决定系数那么大。结果分析v 此表输出模型中的各自变量的偏回归系数及其标准误、Wald 2、自由度、P 值、OR值(即exp(B)、OR值95%CI。结果分析v结果表达:性别对冠心病的影响具有统计学意义(OR=3.88,95%CI 1.33-11.33,P=0.013)。v解释:表明男性(sex=1)较女性(sex=0)冠心病发病风险将近提升3.882。性别是冠心病的高危风险。结果分析v结果表达:年龄对冠心病的影响具有统计学意义(OR=1.097,95%CI 1.02-1.18,P=0.008)。v解释:表明年龄每提升一岁,冠心病发病风险将近提升1.097倍。年龄是冠心病的高危风险。结果分析v疑问:性别OR=3.88,年龄OR=1.097,可否说嘛性别对冠心病影响比较大?v由于量纲不一样,不能直接比较。年龄1岁可以增加1.097,那么10岁,20岁累计风险就比较高了。SPSSSPSS分析哑分析哑变量设置变量设置在回归模型中,回归系数b表示其他自变量不变,x每改变一个单位时,所预测的y的平均变化量,当x为连续性变量时,这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到很好的解释。但是当x为多分类变量时,仅拟合一个回归系数就不太合适了,此时需要使用哑哑变变量量(dummy variabledummy variable)方式对模型进行定义。例2 Hosmer 和Lemeshow于1989年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿,考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:logistic_step.sav。)n 该数据库中有一个变量为种族,变量值为白人/黑人/其他人,为无序多分类资料,不能按照定量资料模式来。SPSSSPSS分析哑分析哑变量设置变量设置SPSSSPSS分析哑分析哑变量设置变量设置SPSSSPSS分析哑分析哑变量设置变量设置选入无序多分类变量设置参照水平SPSSSPSS分析哑分析哑变量设置变量设置结果分析v 数据的基本情况结果分析v 哑变量(种族)的设置情况两列都是0的是对照。黑人是(1),其他人是(2)v race(1)race(1)代表黑人,代表黑人,race(2)race(2)代表其他人,白人是对代表其他人,白人是对照组。可以看出黑人照组。可以看出黑人OR=3.515,OR=3.515,其他人其他人OR=2.578OR=2.578,都有,都有统计学意义。白人风险最低。统计学意义。白人风险最低。结果分析 参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平组要有一定的频数作保证,应不少于30或50例;对有序自变量的分析:从专业出发确定;分别以哑变量和连续性变量的方式引入模型进行比较后确定。哑变量设置应该注意的问题哑变量设置应该注意的问题三、队列三、队列研究统计分析策略研究统计分析策略队列研究(cohort study)又称前瞻性研究(prospective study)或随访研究(follow-up study),是对研究因素不同暴露水平(或不同治疗方法)的对象进行追踪观察,确定其疾病发生(康复、死亡、生存等)情况,从而分析暴露因素(治疗措施)与疾病发生(临床效果)之间的因果联系。队列研究结局资料可以是二分类资料(发病/未发病,有效/无效,生存/死亡);也可以是定量资料常见队列研究原理示意图出现结局出现结局未出现结局未出现结局未出现结局未出现结局出现结局出现结局收集资料的方向比较比较暴暴露露组组非非暴暴露露组组1、暴露因素、暴露组、非暴露组暴露因素指的是调查对象是否具有某项属性、特征、或接受何种治疗、具有某种行为。队列研究根据对象是否具有暴露因素分为暴露组和非暴露组,是为队列。暴露因素是吸烟。暴露组为吸烟者,非暴露组为非吸烟者暴露因素是治疗。暴露组为治疗者,非暴露组为不治疗者队列研究基本概念队列研究基本概念2、结局事件队列研究比较的暴露组与非暴露组结局事件发生率的差异。结局事件:发病、死亡、复发等“阳性”事件。队列研究基本概念队列研究基本概念按研究目的和对象分为:按研究目的和对象分为:1.前瞻性队列研究 研究开始,确定研究对象暴露水平,随访各暴露水平人群的健康结局情况(研究开始以后得到资料,称前瞻性队列研究)。例 中西医结合治疗慢性肾炎。某医院开展中西医治疗25-70岁居民3855人,随访5年,死亡50人,存活3805人 开展西医治疗25-70岁居民,4375人,随访5年,死亡51人。2.历史前瞻性队列研究(回顾性队列研究)历史前瞻性队列研究(回顾性队列研究)研究特殊人群,常回顾性地收集历史档案。这类研究的暴露资料的收集是回顾性的(档案资料),结局的发生则调查现状得到。优点:将暴露时间的观察点大大地推前,减少随访时间,节省大量的人力、物力和时间。例 中西医结合治疗慢性肾炎。某医院根据电子病历库,对已经接受中西医治疗25-70岁居民进行电话调查,发现10年内接受治疗的,死亡50人,存活3805人;开展西医治疗25-70岁居民,4375人,死亡51人。3.双向性队列研究双向性队列研究 历史资料积累的时间太短达不到疾病的潜隐期时,需继续观察一段时间以满足研究的要求。这种在历史性队列研究之后继续观察一段时间的研究称双向性队列研究。队列研究方法示意图队列研究方法示意图 非暴露组暴露组非暴露组暴露组非暴露组收集已有的历史资料过去某时点暴露组收集已有的历史资料历史性队列研究双向性队列研究前瞻性收集资料前瞻性队列研究将来某时点现在队列研究资料的统计分析方法队列研究资料的统计分析方法(一)定量结局的分析进行t检验、F检验,秩和检验,评价不同组别随访一段时间后某项数值是否存在差异进行线性回归分析,研究定量结局的有关影响因素比如评价中/西医治疗1年后,系统性红斑狼疮患者生命质量得分的影响因素有疗法、性别、年龄、教育程度、收入、等因素共同起作用相对危险度相对危险度(relative risk,(relative risk,RRRR)暴露组发病率与非暴露组发病率的比值,表示暴露相对于非暴露发病的危险程度。治疗组有效率与非治疗组有效率的比值,表示治疗相对非治疗的相对效果(二)简单关联性分析(分类、常见)相对危险度(relative risk,RR)描述暴露因素与终点结局事件关联。P1:暴露队列终点事件发生率,:暴露队列终点事件发生率,P0:非暴露队列终点事件发生率:非暴露队列终点事件发生率举例举例 吸烟与肺癌发病关系的队列研究吸烟与肺癌发病关系的队列研究SmokingLung cancerTotalPresentAbsentYes45(a)355(b)400(m1)No5(c)595(d)600(m0)Total50(n1)950(n0)1000(n)RR的计算(关联性分析)式中,pe为吸烟组组的发病率,po为不吸烟组的发病率。RR13.5表示吸烟者患肺癌的风险为不吸烟者的13.5倍。RRRR的检验的检验(Mantel-Haenszel 2检验)H0:总体RR1;H1:总体RR1;0.05wP P0.0010.001,吸烟与罹患肺癌有的关联性有统计学,吸烟与罹患肺癌有的关联性有统计学意义,吸烟组肺癌发病率为非吸烟组的意义,吸烟组肺癌发病率为非吸烟组的13.513.5倍倍。RR的95可信区间(Woolf法)w该区间不包含该区间不包含1 1,暴露因素与疾病的关联有统计,暴露因素与疾病的关联有统计意义意义(三)回归分析三)回归分析-logistic-logistic回归回归/possion/possion回归回归例1 某医师跟踪随访已发病冠心病病人,研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca复发是否有关。先有原因,再有复发。在设计理念是队列研究。例1 某医师希望研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca发病是否有关。数据见logistic_binary.sav。现有结局,在回顾病人的原因,可以做病例对照研究。队列研究多因素回归分析策略队列研究多因素回归分析策略l经典的队列研究回归方法是Possion 回归,计算RR值(SPSS无法计算)l代替的方法是Logistic 回归,计算OR值(用OR值来代替RR值)Logistic Logistic 回归回归对于发病率很低的慢性病(如心脑血管疾病、恶性肿瘤等),由于Pt)P(Xt),如,如P(X3)P(X3)、P(X5)P(X5)等,也可以获得这些病人的缓解率曲线。等,也可以获得这些病人的缓解率曲线。2.2.比较生存过程比较生存过程-KM-KM 方法方法 在获得生存率及其标准误的估计值后,进行两在获得生存率及其标准误的估计值后,进行两组或多组生存率比较。组或多组生存率比较。例如不干预的情况下,比较不同方案治疗白血例如不干预的情况下,比较不同方案治疗白血病的缓解率曲线,以了解哪种方案较优。病的缓解率曲线,以了解哪种方案较优。存在着分组不均衡可比性差,结论不可靠的状况存在着分组不均衡可比性差,结论不可靠的状况实验实验性研究的数据也可开展性研究的数据也可开展K-MK-M分析,但是分组均衡,分析,但是分组均衡,结论可信结论可信 3.3.生存过程的影响因素分析生存过程的影响因素分析 例如分析影响乳腺癌病人手术后预后的因素,例如分析影响乳腺癌病人手术后预后的因素,可以是病人的年龄、病程、术前健康状况、有无淋可以是病人的年龄、病程、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养等。巴结转移、术后有无感染、辅助治疗措施、营养等。通常用通常用CoxCox比例风险回归来分析。比例风险回归来分析。模型结构:设有n名病人,第i名病人的生存时间为ti,同时该病人具有一组伴随变量xi1,xi2xip。该病人生存到时间ti的风险函数hi(t)是其基础风险函数ho(t)与相应自变量的函数的乘积,其数学表达式为:hi(t)=h0(t)exp(1xi1+.+pxip)式中的h0(t)是当所有伴随变量xi1,xi2,xip都处于0或标准状态下的风险函数,是一个不确定的值,1,2,p为回归系数,须用实际资料来估计。CoxCox回归模型回归模型将h0(t)移至等式左边并去展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




6观察性研究统计分析策略.pptx



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/4884175.html