合理进行均值比较——泊松分布回归模型.pdf
《合理进行均值比较——泊松分布回归模型.pdf》由会员分享,可在线阅读,更多相关《合理进行均值比较——泊松分布回归模型.pdf(5页珍藏版)》请在咨信网上搜索。
1、2023 年第 36 卷第 S1期四川精神卫生http:/合理进行均值比较泊松分布回归模型胡纯严1,胡良平1,2*(1.军事科学院研究生院,北京 100850;2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029*通信作者:胡良平,E-mail:)【摘要】本文目的是介绍与泊松分布回归模型有关的6个基本概念、计算方法、一个临床调查实例及其SAS实现。基本概念包括泊松分布、泊松分布回归模型、偏移量、标准化死亡比(SMR)、偏差信息准则和最高后验密度区间。计算方法涉及泊松分布回归参数的经典估算方法和贝叶斯估算方法。临床调查实例涉及1975年-1980年苏格兰56个县的唇癌观察和预期病
2、例的数据。本文给出了采用SAS处理实例中计数资料的全过程,包括基于bglimm过程构建5个泊松分布回归模型和展示预测的SMR与观测的SMR之间的吻合程度。对输出结果作出了解释,并基于模型拟合效果评价统计量,对所构建的多个泊松分布回归模型进行比较,得出了适合本文资料的最优泊松分布回归模型。【关键词】泊松分布回归模型;偏移量;标准化死亡比;偏差信息准则;最高后验密度区间中图分类号:R195.1 文献标识码:A doi:10.11886/scjsws20230201003 Reasonably carry out mean value comparison:Poisson distribution
3、regression modelsHu Chunyan1,Hu Liangping1,2*(1.Graduate School,Academy of Military Sciences PLA China,Beijing 100850,China;2.Specialty Committee of Clinical Scientific Research Statistics of World Federation of Chinese Medicine Societies,Beijing 100029,China*Corresponding author:Hu Liangping,E-mail
4、:)【Abstract】The purpose of this paper was to introduce 6 basic concepts,calculation methods,a clinical investigation example and its SAS implementation related to the Poisson distribution regression model.The basic concepts included the Poisson distribution,Poisson distribution regression models,off
5、sets,standardized mortality ratio(SMR),deviation information criteria and the highest posterior density intervals.The calculation method involved the classical estimation method and the Bayesian estimation method of the Poisson distribution regression parameters.The clinical investigation example in
6、volved the data on observed and expected cases of lip cancer in 56 Scottish counties from 1975 to 1980.This article presented the whole process of using SAS software to deal with the count data in the example,including constructing five Poisson distribution regression models based on the bglimm proc
7、edure and showing the degree of agreement between the predicted SMR and the observed SMR.The output results were explained,and based on the evaluation statistics of the model fitting effect,the multiple constructed Poisson distribution regression models were compared,and finally the optimal Poisson
8、distribution regression model suitable for the data in the paper was obtained.【Keywords】Poisson distribution regression model;Offset;Standardized mortality ratio;Deviation information criterion;Highest posterior density interval在单因素k(设k=2)水平下收集的两个服从泊松分布的计数结果,可以采用Z检验进行均值之间的比较1-2。然而,在多个协变量影响下,且当k10时,收
9、集的k个服从泊松分布的计数结果,就不适合采用Z检验了。此时,需要构建泊松分布回归模型。根据问题的复杂程度,回归模型可能是普通的广义线性回归模型3,也可能需要采用广义混合效应回归模型4-5。本文将结合一个临床调查资料,展示如何合理选择拟合效果好的泊松分布回归模型1,5。1 基本概念 1.1泊松分布定义:若离散型随机变量X的取值为非负整数,且相应的概率函数由式(1)给出,则称随机变量X服从泊松分布,记作XP(k;)。P(X=k)=kk!e-,k=0,1,2,0(1)式(1)中,k为随机变量X的具体取值,为随机变量X的总体平均值。13四川精神卫生 2023 年第 36 卷第 S1期http:/1.2
10、泊松分布回归模型定义:设 Y是一个服从泊松分布的随机变量,X=(1,x1,x2,xm)是 一 个 协 变 量 向 量,=(0,1,2,m)是参数向量。若Y的数学期望的对数可以表示为协变量的线性表达式:E(Y|X)=exp(X),则称(X,Y)服从泊松分布回归模型1。对应的表达式见式(2)。P(Y=k|X)=k()X e-()Xk!,k=0,1,2,3,(2)式(2)中,均值(X)的表达式见式(3):(X)=exp(0+1x1+2x2+mxm)=exp(X)(3)1.3偏移量文献 6 给出了地区特定相对风险的扩展模型,见式(4)。i=exp0+1x+i,i=1,56(4)式(4)中,0和1是固定
11、效应参数,i是第i县的随机效应参数,x=Employmenti/10是从事农业、渔业和林业工作的人口比例。与第i个县对应的泊松变量的平均值(以随机效应为条件)可用下式表达,见式(5)。i=Eii(5)将式(4)代入式(5)等号右边,再对该式两边取对数,得到式(6)。log(i)=log(Ei)+0+1Employmenti10+i(6)式(6)中,log(Ei)是一个偏移量,一个回归变量,已知其系数为1。注意,假设Ei是已知的,它们是与各县对应的一个比例常数。1.4标准化死亡比标准化死亡比(standardized mortality ratio,SMR)是指某人群实际死亡数与预期死亡数之比。
12、预期死亡数是某人群(通常为某一特殊职业人群)各年龄组人口数与标准人口的各年龄组死亡率乘积的总和。1.5偏差信息准则偏差信息准则(deviation information criterion,DIC)是评价模型对资料拟合效果的统计量,它是通过使用模型中参数的后验均值估计值来计算的。在SAS输出的“偏差信息准则表”中,还包括其他3个相关的统计量,即偏差的后验均值(Dbar)、后验均值评估的偏差(Dmean)和有效参数个数(pD)5。1.6最高后验密度(HPD)区间100(1)%最高后验密度(HPD)区间是满足以下两个条件的区域:该区域的后验概率为100(1)%;该区域内任何点的最小密度大于或等于
13、该区域外任何点的密度。HPD是所估计参数的大部分分布所在的区间。一些统计学家更喜欢这个区间,因为它是最小的区间。2 计算方法 2.1泊松回归参数估计基于最大似然法求泊松分布回归模型中参数估计值的步骤如下1:第一步,基于泊松分布回归模型构建对数似然函数l();第二步,对对数似然函数求各参数的二阶偏导数,并形成估计方程组;第三步,求解估计方程组,得到各参数的估计值。值得一提的是,采用Newton-Raphson迭代法对l()求最大值,同样可得到参数的最大似然估计mle。基于贝叶斯理论和马尔科夫链蒙特卡罗(MCMC)方法求泊松分布回归模型中参数估计值的方法非常复杂7-8,它主要基于不同的回归模型,选
14、择不同的随机抽样算法,从已知样本中产生与各参数对应的马尔科夫链随机样本,通过大规模随机抽样,以各参数的大样本随机抽样结果的均值作为各参数的估计值,并构造各参数的95%HPD5。2.2偏差信息准则的计算偏差信息准则(DIC)是一种模型评估工具,它是Akaike信息准则(AIC)和贝叶斯信息准则(BIC,也称为Schwarz准则)的贝叶斯替代方法9。DIC使用后验密度,这意味着它考虑了先验信息。DIC可应用于非嵌套模型和具有非独立同分布数据的模型。MCMC中DIC的计算是微不足道的它不需要参数空间的最大化,如AIC和BIC。较小的DIC表示所拟合的模型更适合数据集。让代表模型的参数,DIC的公式见
15、式(7)。DIC=-D()+pD=D()+2pD(7)式(7)中,D()=2logf(y)-logP(y|),其中,P(y|)代表具有归一化常数的似然函数;f(y)是一个标准化项,是数据的唯一函数,该项相对于参数是常数。由于该项在DIC比较中被抵消,故通常省略其计算。142023 年第 36 卷第 S1期四川精神卫生http:/3 实例与SAS实现 3.1问题与数据结构3.1.1一个临床调查问题及数据【例1】文献 10 提供了1975年-1980年苏格兰56个县的唇癌观察和预期病例的数据。预期病例数是由一个单独的乘法模型确定的,该模型考虑了各县人口的年龄分布。原作者收集到的数据(共56行)形式
16、见表 1。试完成以下 3项任务:构建由协变量x=Employment/10预测患唇癌人数的回归模型;基于DIC评价不同模型对资料的拟合效果;展示预测的SMR与观测的SMR之间的吻合程度。3.1.2对数据结构的分析数据集中的“县(County)”是观察单位,相当于普通统计资料中的“受试对象”;观察的唇癌患者人数(Observed)是一个的结果变量;期望的唇癌患者人数(Expected)是一个计量的结果变量;从事农业、渔业和林业工作的人口比例(Employment)是一个计量的自变量;标准化死亡率(SMR)是一个计量的结果变量。这是一个非常特殊的数据结构,真正可以用于建模的变量为“Observed
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 合理 进行 均值 比较 分布 回归 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。