科百科
当前位置: 首页 范文大全

spss logistic线性回归分析(Logistic回归简明教程)

时间:2023-05-15 作者: 小编 阅读量: 1 栏目名: 范文大全

如果结局是分类变量,回归分析主要分析影响阳性事件发生的因素,预测阳性事件的发生。P值越大,阳性事件发生的可能越大。相反,如果另一名患者为女性、年龄49岁、心电图ST段轻度异常、同时糖尿病而无高血压,则她患冠心病的概率是0.262。简而述之:OR值大于1,提示暴露促进阳性事件的发生;OR值小于1,提示暴露阻碍阳性事件的发生;OR值等于1,提示暴露与阳性事件发生无关。

性研究领域,无论是现况调查、病例对照研究、还是队列研究,经常遇到分类的健康结局,包括二分类(如:生存与死亡、阳性与阴性、发病与未发病)或者多分类变量(如:疾病转归,治愈、无效、死亡;根据损伤程度分级的结局指标,如结核性胸腔积液胸膜粘连程度、视网膜出血程度、早产儿脑室缺血程度)以及一些可进行分类的生理生化、免疫指标等(如血压值、血镁值、血脂和胆固醇等)。当研究的健康终点是二分类变量时,线性回归分析往往无法进行(线性回归分析要求残差服从线性、正态性、独立性、方差齐性),此时可以考虑Logistic回归模型。

尤其是病例对照研究,它的结局全部为分类结局,很对Logistic胃口,同时病例对照研究往往要求计算的评价暴露因素影响程度的OR值(优势比),这一指标Logistic也能够计算得到。因此,病例对照研究设计与logistic回归分析乃是天作之合。因此,本系列紧跟病例对照研究方法篇,介绍Logistic回归分析。实例分析

例1:某医师基于某医院开展病例对照研究,探讨冠心病发病有关的影响因素,收集新发冠心病患者作为病例组,收集同期医院非循环系统疾病患者作为对照组,研究的暴露因素是病人的年龄age、性别sex、心电图检验是否异常ecg、高血压hyper、糖尿病diabetes。数据见casecontrol.s

av。

1统计分析策略

探讨影响因素研究,有基础统计学方法和高级分析方法(病例对照研究的基本统计分析策略);一般来说,基础统计学方法无法满足影响因素的研究,一般需要开展回归分析,且需要多因素回归分析。

线性回归常见包括线性回归、Logistic回归、Cox比例风险模型,三者分别用于定量数据、分类数据、带有结局的生存时间资料。

本案例是病例对照研究,该研究结局是分类变量资料。采用的方法是Logistic回归方法(病例对照研究的基本统计分析策略)。

2logistic回归分析的基本原理

回归分析的主要功能是研究影响因素、开展预测。线性回归分析是通过构建线性函数,探讨影响与预测定量数据结局大小的因素。如果结局是分类变量,回归分析主要分析影响阳性事件发生的因素,预测阳性事件的发生。在本文案例中,冠心病的发生是需要探讨的阳性事件。

影响与预测阳性事件发生,可以用概率P来表示。P值越大,阳性事件发生的可能越大。如果一个因素可以导致概率P增大,说明该因素是重要的影响因素或者预测因素。

借鉴线性回归的原理,我们希望建立起一个关于P的线性函数:

遗憾的是,P与x的关系并不符合线性回归分析所要求的线性关系前提条件(它们的关系是S型曲线的关系),因此方程无法成立。之前推文介绍过,线性回归若线性条件不符合,可以对Y或者X进行转换,以满足线性回归的要求。因此,统计研究者对P进行了转换,称之为logit转换,或者logit(P):

于是,我们就建立了关于P与结局的转换线性关系,这一回归模型被称之为广义线性模型,其中logit(P)的转换模型叫做Logistic回归。

只从数据本身考虑的话,Logistic回归模型都是包括一个分类因变量及若干自变量(可以是分类变量,也可以是连续变量),反映了m个自变量对因变量的线性影响。无论对于病例对照研究还是队列研究,这种形式都是不变的。

基于上述公式,我们可基于多个自变量预测结局Y。上述公式可以转为以下关于P的更直接的公式:

比如有一名患者,女性、年龄57岁、心电图ST段重度异常、同时患有高血压和糖尿病,则可计算得到她患冠心病的概率为0.961。相反,如果另一名患者为女性、年龄49岁、心电图ST段轻度异常、同时糖尿病而无高血压,则她患冠心病的概率是0.262。好的模型,残差越小越好,残差均方越小越好。因此,logistic回归模型中,残差也是非常重要的评价指标。

3Logistic OR值计算

Logistic回归核心的功能之一是研究影响因素,它用于评价暴露因素影响程度的指标是OR值。

关于OR值,我在前文有详细的介绍(病例对照研究的基本统计分析策略)。观察性研究无论是横截面调查、病例对照研究或者队列研究,经常需要借助OR值暴露因素效应值,实际上实验性研究也经常使用该指标来评价干预措施的疗效。OR值指的是,优势比/比数比(odds ratio,OR)。优势(odds)是指二分类事件中一类事件相对于其对立事件的优势。病例组中优势是暴露者数/非暴露数,对照组中暴露数/非暴露数。

Logistic回归分析,实际上也是关于优势的回归模型。诸位稍微思考思考可以放发现a/(a c)、b/(b d)便是P,c/(a c), d/(b d)是1-P。a/(a c) 除以c/(a c) 即P/1-P,即阳性事件的优势。因此,可以得到以下的公式:

现在如果要探讨性别的影响,男性与女性的差异,可以从两个角度来分析讨:第一,计算回归系数β1,说明性别变量X对Y的影响;第二,计算OR值,两者是等同的,男性(P1)相对女性(P0)的影响回归系数b值等于ln(OR)值。

简而述之:

OR值大于1,提示暴露促进阳性事件的发生;

OR值小于1,提示暴露阻碍阳性事件的发生;

OR值等于1,提示暴露与阳性事件发生无关。

相对来说,OR值比b值在解释对结局的影响上更有意义,它能够说明结局Y风险增加的程度。比如OR=2,大致可以说明暴露因素增加发生阳性结局1倍的概率(千万注意,此处只能说大致、或者左右,原因后续再论)

医学研究中,风险大小估计是重要的内容。由于能够巧妙地计算OR值,Logistic回归在医学领域大受欢迎,特别是病例对照研究。

4Logistic回归分析类型

依据研究设计不同,可分为非条件Logistic回归模型和条件Llogistic回归模型。非条件Logistic回归用于成组设计的观察性研究,而条件Logistic 回归一般用于匹配设计研究。

依据因变量类型(水平数量),又可分为二分类Logistic回归模型和多分类Logistic回归模型;二分类Logistic回归也称二元Logistic回归(SPSS软件的叫法)

此外,根据多分类因变量是否有序,又可以分为多分类有序logistic回归模型和多分类无序logistic回归模型。

Logistic回归模型分类(本图来源于“医学统计分析学习”公众号)

本研究是基础教程,多分类、配对Logistic回归不再学习范围之内,我就介绍最基本的二分类非Logistic回归分析。本例所采用的方法便是多因素非条件Logistic回归分析。

SPSS操作

1Logistic回归入口

分析--回归--二元Logistic回归

①因变量:放入“是否患有冠心病(ca)”

②协变量:即自变量,放入年龄、性别、心电图表现、糖尿病、高血压

③保存:可分别计算除预测值(即P值)和残差,残差包括原始残差和标准化残差。

④选项:可计算霍斯黙-莱梅肖拟合优度(Hosmer-Lemesho,H-L检验)(①)、OR值的95%CI置信区间(②)

3Logistic回归分析结果及其解读

Logistic回归得到诸多结果,初学者仅需要重点关注以下几个表格。

首先提供的是Omnibus Tests of model Coefficients :指的是对模型的总的全局检验,为似然比检验。

结果里面的三行分别指的是:步骤(step)统计量是每一步与前一步的似然比检验结果,块(block)是指将block n与block n-1 相比的似然比检验结果,模型(model) 一行输出了Logistic回归模型中所有参数是否均为0的似然比检验结果,这是总体评价的关键检验。P<0.05表示本次拟合的模型中,纳入的变量中,至少有一个变量的OR值有统计学意义,即模型总体有意义。

其次,Logistic 回归提供模型拟合优度(Goodness of Fit)评价。所谓拟合优度,指的是模型构建的效果如何,与真实情况或者理想情况相比,差距有多大。线性回归分析一般采用R^2来反映拟合优度的效果。logistic回归拟合优度包括两类:从量评价拟合优度和从质提供拟合优度效果

量化评价拟合优度效果。Logistic回归分析提供类似于R^2的,考克斯-斯奈尔R方(Cox & Snell R^2)和内戈尔科R方(Nagelkerke R^2)。不过,这两种R^2有时被称为伪R^2,在Logistic回归中意义不大(与线性回归中的不同),可以不予关注。-2对似然值(-2 log likelihood,-2LL))是模型评价重要的指标,该值越小越好,可以用于不同模型评价效果。

图片质性评价拟合优度效果。霍斯黙-莱梅肖拟合优度检验(Hosmer-Lemesho,H-L检验)可以用于评价模型是否充分利用了现有的信息最大化地拟合了模型、解释了模型的变异。该研究若P>0.05,则可说明模型拟合优度效果较好,若P<0.05,则说明可以模型构建效果欠佳。

本例P=0.485,说明模型拟合优度情况良好。

最后为核心分析的结果:Logistic回归分析分别回归系数b值、b值的标准误、Wald 卡方值(瓦尔德)、自由度、P值(显著性)、OR值(Exp B)及其置信区间。

其中,Wald 卡方值(瓦尔德)和P值是对回归系数b值的假设检验。P<0.05, 说明该变量对结局的影响具有统计学意义;本例,性别、年龄、心电图表现、有无高血压变量对结果具有统计学意义。

Exp B即OR值,与回归系数的关系是e^b值。OR值置信区间与P值的关系是:当P<0.05,则置信区间不包括1;当P>0.05,则置信区间包括1。

特别要提醒诸位的是:OR值大于1,是否就是危险因素?OR值小于1是否就是保护因素呢?

这种说法非常武断。

首先,对OR值不能再采用危险还是保护的说法,危险、保护做法往往针对不良的阳性事件结局,用词倾向性太严重。在临床上或者更多领域,更中性、更容易理解的是用促进或者阻碍的说法来反映。

OR值大于1,提示暴露因素是阳性事件发生的促进因素;

OR值小于1,提示暴露因素是阳性事件发生的阻碍因素;

OR值等于1,提示暴露因素对阳性事件的发生无影响。

其次,要理解OR值必须得非常清晰地明确:暴露因素的对照组是谁?阳性事件又是谁。

SPSS统计结果表给不了太多信息。比如性别,它只告诉我们性别对阳性事件发生有影响。但是到底男性风险大还是女性风险大?OR=6.24到底针对谁呢?

要读懂统计结果表,读懂OR值,必须明确:

(1)何为阳性事件。我们可能想当然认为阳性事件必然是冠心病发生;然而在SPSS分析中,阳性事件指的是数据库结局变量赋值较大的结局。在本例中,若是否有冠心病(ca)变量,如果(冠心病是0,未发生冠心病是1),那么未发生冠心病的是阳性事件。

是不是听起来特别别扭?我想要研究的是发生冠心病的风险呀!怎么办? 那就请诸位在构建数据库时,将所指认的阳性事件给予更高的赋值,高于阴性事件。对于二分类的结局,最好用0、1表示(0代表阴性事件,1代表阳性事件),保证你理念中的阳性事件与SPSS的阳性事件定义的统一,不容易出错。

(2)要明确自变量,谁为对照?

对于定量数据,比如年龄,b值代表x每增加一个单位,结局改变的量;OR值更有意义,OR代表,x增加一个单位,比如年龄增加一岁,阳性事件出现的概率将大约增加(OR-1)倍;对于年龄,比如年龄增加一岁,平均风险将增加0.091倍,这意味着,年龄越大,冠心病风险越高。对于二分类定性数据,OR值也代表x增加一个单位,结局改变的量。比如性别,x增加一个单位,风险增加大约5.24倍。那么,如何理解此处“增加一个单位”的意思呢? 实际上指的是数据库性别变量赋值增加一个单位吗(性别变量从0增加1),风险增加大约5.24倍(不过不像年龄,性别变量x只能增加1次)。

很多时候,如此解释还别扭,我们更倾向寻找对照作为支点,进行比较分析。性别从0到1,那就是性别变量赋值为1和赋值为0的相比,风险增加5.24。0是什么?0是女性,而1是男性,那意味着是男性与女性相比,风险大概增加5.24倍。

SPSS统计分析在二分类自变量的影响时,默认是以自变量赋值较低作为对照,探讨赋值较大者能否相对能否增加阳性事件概率。

对于等级资料,其解释与定量数据无异,也就是X每加一个等级,比如年龄增加一岁,阳性事件出现的概率将增加(OR-1)倍左右;比如对于心电图异常情况变量,意味着心电图异常情况平均每增加一个等级,冠心病的风险将增加2.406倍左右。

此外,高血压变量在数据库中赋值为0=无高血压,1=有高血压,意味着对照组是无高血压,有高血压的病人与之相比,风险增加9.814倍左右。糖尿病无统计学意义。

总之,OR值是探讨SPSS数据库中自变量赋值较大者,对SPSS数据库中阳性事件(也是赋值较大者)的影响。如果不注意这一点,只看OR值就论是否危险因素,可能会得到了相反的结论。

最后,由于在本文SPSS操作中,勾选了计算预测值和残差,数据库给出了两个新的变量,分别是PRE_1(预测值)和RES_1(残差) ,两组相加,刚好是ca“冠心病”。

统计结果的撰写

规范文字1:纳入年龄、心电图和性别等构建多因素Logistic回归方程。结果发现:心电图异常对冠心病的影响具有统计学意义(OR=3.40, 95%CI 1.81-6.37, P<0.001);年龄对冠心病的影响具有统计学意义(OR=1.09, 95%CI 1.03-1.15, P=0.001);性别对冠心病的影响具有统计学意义(OR=6.24,95%CI 2.50-15.56, P<0.001);高血压状况对对冠心病的影响具有统计学意义(OR=10.81,95%CI 4.15-28.20, P<0.001)。

规范文字2:纳入年龄、心电图和性别等构建多因素Logistic回归方程。结果发现:心电图异常等级增加将增加冠心病的风险,具有统计学意义(OR=3.40,95%CI 1.81-6.37, P<0.001);年龄越大冠心病风险越高,具有统计学意义(OR=1.09, 95%CI 1.03-1.15, P=0.001);相对女性,男性增加冠心病发生的风险,差异具有统计学意义(OR=6.24,95%CI 2.50-15.56, P<0.001);高血压增加冠心病的风险,差异具有统计学意义(OR=10.81,95%CI 4.15-28.20, P<0.001)。

特别提醒:Logistic回归OR值不能代表风险增加的准确倍数,因此文字描述,切勿说相对女性,男性增加冠心病风险5.24倍的说法。

规范表格:

对于二分类定性数据,OR值也代表x增加一个单位,结局改变的量。比如性别,x增加一个单位,风险增加大约5.24倍。那么,如何理解此处“增加一个单位”的意思呢? 实际上指的是数据库性别变量赋值增加一个单位吗(性别变量从0增加1),风险增加大约5.24倍(不过不像年龄,性别变量x只能增加1次)。

很多时候,如此解释还别扭,我们更倾向寻找对照作为支点,进行比较分析。性别从0到1,那就是性别变量赋值为1和赋值为0的相比,风险增加5.24。0是什么?0是女性,而1是男性,那意味着是男性与女性相比,风险大概增加5.24倍。

SPSS统计分析在二分类自变量的影响时,默认是以自变量赋值较低作为对照,探讨赋值较大者能否相对能否增加阳性事件概率。

对于等级资料,其解释与定量数据无异,也就是X每加一个等级,比如年龄增加一岁,阳性事件出现的概率将增加(OR-1)倍左右;比如对于心电图异常情况变量,意味着心电图异常情况平均每增加一个等级,冠心病的风险将增加2.406倍左右。

此外,高血压变量在数据库中赋值为0=无高血压,1=有高血压,意味着对照组是无高血压,有高血压的病人与之相比,风险增加9.814倍左右。糖尿病无统计学意义。

总之,OR值是探讨SPSS数据库中自变量赋值较大者,对SPSS数据库中阳性事件(也是赋值较大者)的影响。如果不注意这一点,只看OR值就论是否危险因素,可能会得到了相反的结论。

最后,由于在本文SPSS操作中,勾选了计算预测值和残差,数据库给出了两个新的变量,分别是PRE_1(预测值)和RES_1(残差) ,两组相加,刚好是ca“冠心病”。

统计结果的撰写

规范文字1:纳入年龄、心电图和性别等构建多因素Logistic回归方程。结果发现:心电图异常对冠心病的影响具有统计学意义(OR=3.40, 95%CI 1.81-6.37, P<0.001);年龄对冠心病的影响具有统计学意义(OR=1.09, 95%CI 1.03-1.15, P=0.001);性别对冠心病的影响具有统计学意义(OR=6.24,95%CI 2.50-15.56, P<0.001);高血压状况对对冠心病的影响具有统计学意义(OR=10.81,95%CI 4.15-28.20, P<0.001)。

规范文字2:纳入年龄、心电图和性别等构建多因素Logistic回归方程。结果发现:心电图异常等级增加将增加冠心病的风险,具有统计学意义(OR=3.40,95%CI 1.81-6.37, P<0.001);年龄越大冠心病风险越高,具有统计学意义(OR=1.09, 95%CI 1.03-1.15, P=0.001);相对女性,男性增加冠心病发生的风险,差异具有统计学意义(OR=6.24,95%CI 2.50-15.56, P<0.001);高血压增加冠心病的风险,差异具有统计学意义(OR=10.81,95%CI 4.15-28.20, P<0.001)。

特别提醒:Logistic回归OR值不能代表风险增加的准确倍数,因此文字描述,切勿说相对女性,男性增加冠心病风险5.24倍的说法。

规范表格:

    推荐阅读
  • 天能金刚e5电池是多少安的(超动力超耐力超寿命)

    天能金刚e5电池是多少安的大品牌缔造好品质作为中国动力电池行业的领军企业,34年来,天能始终保持对产品的高度专注,着眼于产品,用实力说话,创造了一次又一次的销售奇迹。相信品牌的力量,选择天能电池!完美贴合使用人群电动车不仅是他们出行的交通工具,更是他们赖以谋生的“最佳伙伴”!上班族、学生党,最怕遇上早高峰。思来想去还是电动车靠谱,当然电池还得选择E5金刚,动力强劲耐跑,平稳飞跃斑马线。业内首款高功率电池

  • 秦二世深度解读(秦二世之死温室里的花朵)

    那么根据举手表决结果只能是,赵高献给胡亥的是一匹马。但太监生理缺陷,难免心理会有变态。在阎乐发起冲锋之前,赵高把阎乐的母亲劫持到他家里当人质。胡亥这等废物被赵高设计,这当然是一场没有悬念的战斗。胡亥就是最大的贼,杀的就是他。胡亥霸道一世,糊涂一世,窝囊一世,死亡对他或许是最好的解脱。然而还没等士兵动手,胡亥就自杀了。胡亥死了,老畜生赵高终于可以上登台了。

  • 橄榄绿 背景(设计师用橄榄绿)

    设计师李坤这次改造的对象正是LOFT。关于电视柜位置的选取,设计师李坤也有一番自己的考量,考虑到背景墙与沙发之间的距离较近,设计师将电视柜搬到了拐角的位置,而将背景墙重心的位置留给了装饰画。改造前的主卧其实只能算是原先的次卧,但经过设计师李坤的一番改造后,这间房从次卧正式升级为家中的主卧。

  • 红光鲨鼠标怎么样(游戏宏辅助吃鸡不在难)

    不过好在这些配重块是可以拿掉的。鼠标移动速度很慢,差不多是不断拖着、抬起、再拖着完成绘制,适合慢性子的慢悠悠。这个弹道管理说白了直接对鼠标移动进行细微调整,为的就是压枪压的准,对每次压枪的移动距离以及时间间隔进行微调。

  • 雨水管道DN500是什么意思(雨水管道DN500是啥意思)

    d500一般是指内径500mm,dn500公称直径500mm公称直径又叫平均外径,既不是外径,也不是内径,但接近于内径,是在内径附近的一个数据,一般=内径+壁厚的平均值,公制mm为基准,称DN,它是我们计算用直径,反应的是管道的实际通水能力.,我来为大家讲解一下关于雨水管道DN500是什么意思?跟着小编一起来看一看吧!雨水管道DN500是什么意思d500一般是指内径500mm,dn500公称直径500mm。

  • 银手镯为什么会变黑(银手镯为什么会变黑怎么清洗)

    纯银的饰品可以和空气中的硫化物发生化学反应,被氧化导致变黑。有些人的汗液含酸比较多,有些人比较少,这些都是导致银饰表面变黑的物质。不同体质的人戴银镯的状况确有不同,有的女孩带纯银手镯,银镯会越来越亮,但有的女孩却能将银镯戴得发乌或发黑。若银镯变黑,有可能和身体的排泄物、周围的空气水源、所接触的东西里面含有硫或砷有关系。从这个角度讲,带银手镯也可以帮助自己注意一下自己的体质。

  • 挺立上海一夜之间(挺立上海一夜之间)

    一起打响“疫情防控保卫战”!在这场“疫情防控保卫战”中,文艺工作者们选择了挺身而出,用原创作品来激励大家的斗志。傅亮表示,上海的艺术家和诗人在发声,全民抗疫,我们不能缺席。网友们纷纷为此诗点赞:疫情严峻,更需要艺术家和诗人为这个城市,为这个城市的人民发声。国内首个艺术嗓音语音计算机实验室创立者。■宋怀强宋忆宁著名话剧表演艺术家、国家一级演员,毕业于上海戏剧学院表演系。

  • 周杰伦这几年很少有好听的歌(周杰伦最值得听的这几首歌)

    周杰伦这几年很少有好听的歌周杰伦是目前华语乐坛最火的也是水平最高的华语男歌手,凭借其超强的创作力和天马行空的创意征服了一代又一代的年轻人,直至今日,周杰伦累计已经发布了一百多首传世经典作品,而且最近又传出周杰伦要出新专辑,这对于歌迷来说绝对是天大的喜事。那么今天,我们就来盘点一下周杰伦最好听的五首歌曲,听过三首以上的绝对是真爱粉!

  • 李小璐慵懒写真(李小璐钟爱的鸭锁骨)

    有网友在微博上秀出了李小璐的照片粉丝纷纷惊叹:锁骨好美!李小璐本人也跟着回复说“你们怎么知道我爱吃鸭锁骨”连明星都爱吃的鸭锁骨Whataboutyou?

  • 黑金刚鱼的养殖方法(黑金刚如何种植)

    黑金刚鱼的养殖方法土壤:种植黑金刚的土壤要具有肥沃性、疏松性和排水性等特点,这样能够让黑金刚的长势变得更好一些。温度:种植黑金刚的温度最好保持在25摄氏度左右,温度过高或者过低都可能会导致黑金刚的叶子出现脱落现象。