搜索
您的当前位置:首页正文

医学研究中Logistic回归与其他方法的结合应用

来源:爱够旅游网
维普资讯 http://www.cqvip.com 数理医药学杂志 文章编号:1004—4337(2007)06—0763—02 中图分类号:R311;R195.1 2007年第2O卷第6期 文献标识码:A ・方法评介・ 医学研究中Logistic回归与其他方法的结合应用 张国龙 陈景武 线性问题,仍然需要我们寻找更为有效的方法¨9 。 2 Logistic回归在ROC分析中的应用 (潍坊医学院卫生统计教研室 潍坊261O42) Logistic回归(1ogistic regression)属于概率型非线性回 归,是分析反应变量为独立分类资料的常用统计分析方法,由 于对资料的正态性和方差齐性不做要求、对自变量类型也不 做要求等,使得近年来Logistic回归模型在医学研究各个领域 ROC是受试者工作特征(Receiver Operating Characteris— tic)或相对工作特征(Relative Operating Characteristic)的缩 写,目前已广泛应用于临床诊断性能的评价,ROC曲线是以 试验结果的每一个值作为可能的诊断界值,由此计算得到相 应的灵敏度和特异度,以假阳性率即特异度为横坐标,以真阳 性率即灵敏度为纵坐标绘制而成的曲线即为ROC曲线,其曲 线下面积的大小可作为诊断试验准确度的衡量指标,其取值 范围为0.541。ROC曲线下面积估计可分为参数和非参数 两种方法,在实际应用中可根据样本量大小来选择使用¨】 。 ROC曲线下面积指标因其不受患病率和诊断界值的影响,以 及可对两个诊断试验的准确度进行综合比较,因而成为目前 被广泛用,如流行病学、病因学的队列研究、病例对照研究,临 床诊断的判别模型,治疗效果评价等。 同时与其他传统的统计学方法一样,Logistic回归也有许 多的应用条件:当自变量为连续型变量时,Logitp与自变量成 线性,对多元共线性敏感,以及参数估计条件等¨】 ],使Logis- tic回归在单独面对医学领域日益庞大和复杂多变的数据信息 时,往往受到一定的限制,无法使数据信息得到充分利用,应 用不当还会得出错误结论。因此随着统计学方法的不断发展 和新的统计学方法的出现,Logistic回归在越来越多的医学研 究的文献资料中常常不再独自出现,而是与其他方法相互结 合取长补短,充分利用资料中的信息,从而得出相对正确的结 论。本研究将对近几年Logistic回归在医学研究中与其他方 公认的最佳评价指标¨】。3。ROC分析中结合Logistic回归模 型简单有效,尤其适用于有协变量或多指标联合诊断试验的 分析评价。在一项诊断试验中,由于变异的存在,必然有很多 混杂因素(或协变量)对试验的评价产生影响,它们可能对疾 病的状态产生影响,也可能对测量结果产生影响。其中可以 识别的因素,一般在试验设计阶段应加以控制。但在实际工 作中,由于病例来源问题,在设计阶段进行控制非常困难,因 法相互结合及比较应用作简要介绍。 1主成分Logistic回归分析 Logistic回归模型与多元线性回归一样,对自变量中存在 的多元共线性很敏感。自变量之间的任何相关都表示存在多 元共线性。在多元共线性程度较高时,可能导致模型参数的 不精确估计,使变量的单独影响不易分解出来,从而把一些 本应对应变量有显著影响的变量排除在模型之外。解决共线 此在统计分析阶段,尽可能地识别、控制混杂因素(或协变量) 显得尤为重要。Logistic回归模型能够纳入诊断指标之外的 影响圜索,有效控制混杂因素,使ROC分析更接近于总体实 际情况 ” 。 性的方法一般有:删除冗余的自变量,但在实际中往往会因为 无法区别有意义的变量与冗余变量而误删,从而造成模型误 设;增加样本含量,使标准误减少,抵消多重共线性的影响。 但这种方法只有在多重共线性是rcI测量误差引起或偶然存在 3 Logistic回归与数据挖掘技术的结合应用 数据挖掘(Data Mining)是从大量的、不完全的、有噪声 的、模糊的、随机的数据中提取隐含在其中的、人们事先不知 道的但又是潜在有用的信息和知识的过程l】 。数据挖掘技术 于原始样本而不存在于总体时才适用;用逐步Logistic旧归, 寻求建立一种最佳回归方程,这种方法容易损失一些信息;用 主成分Logistic回归,通过主成分变换,将高度相关的几个变 量的信息综合起来参与I口]归|8 ,主成分分析能够用少数变量 是近几年兴起来的一个新的研究领域,其与传统数据分析的 本质区别在于:数据挖掘是在没有明确假设的前提下去挖掘 信息、发现知识。目前与Logistic同归的结合使用多见于以下 形式: 分类树模型:分类树模型属于决策树(decision tree)[” 的 一对相天变量进行综合,既能降低指标的维数,又能充分反映指 标的信息,从而将变量问共线性问题减弱,对结果不产生影 响,这是口前我们最常用的解决共线性的方法。但总的来说. 主成分I ̄gistic【41归也没有从根本上克服Logistic 归的共 收稿日期:2007—06 27 通讯作者:陈景武 种形式。在应用回归模型分析因变量与自变量之问的回归 ・763・ 维普资讯 http://www.cqvip.com Journal of Mathematica1 Medicine Vo1.2O No.6 2007 关系时,常常需要考虑各自变量之间对因变量可能存在的交 互作用。当模型中的自变量数量较多,需要考虑的交互作用 就会比较复杂,操作起来有一定的困难。而分类树模型作为 一~llZ. 2王济川,郭志刚.Logistic回归模型一方法与应用.高等教育出版 社,2001. 3 Cyrus RM,Nitin RP.Exact logistic regression:theory and exam- pies.Stat.in ivied,1995,15:2143t2160. 种人工智能分析方法,能够快速寻找并发现对因变量的主 要影响因素,并在展示自变量间交互作用上有着独到的优势, 但它无法分析自变量的线性叠加效应,并且往往把一些自变 量之间的线性叠加效应的关系错误地用分层关系进行表达, 而回归模型不仅可以较方便地表达自变量之间的线性叠加效 应,而且在已知树模型结果的情况下,可以对应构造相应的回 归模型表达分层的情况和实现分层统计分析。将这两种模型 4 Hirji KF,Mehta CR,Patel NtL Computing distributions for exact logistic Regression.JASA,1987,82 711l0t1117. 5刘启军,曾庆,周燕荣,等.精确Logistic回归及其SAS应用程序. 中华流行病学杂志,2003,24(8):725t728. 6张宏,沈其君,陈启光.前瞻研究中Logistic回归参数估计的应用条 件.中国公共卫生,2004,20(8):1018t1019. 的优势在分析层次数据时结合起来加以利用,将会大大方便 研究工作[16,17]。 BP(Back propagation)神经网络【1 :BP神经网络是一种 非传统的多元非线性模型,自变量可以是连续的也可以是离 散的,对变量不要求满足正态性和独立性等条件,可以识别变 量间复杂的非线性关系,尤其是用现有统计方法无法达到目 的或效果不好时,采用此模型往往收到很好的效果。当然BP 神经网络在使用过程中尚有些问题需要解决,如权重系数的 假设检验,计算权重系数的可信区间,含隐含层时权重系数的 医学解释,判断输人变量的判别能力,输人变量的选择 等Dg,z0]。因此目前的很多文章中,都是将BP神经网络与Lo— gisUc回归比较使用,来判断其判别效果。 目前数据挖掘技术在医学领域的应用特别是与传统统计 方法的结合应用还处于起步阶段,随着该方法的逐步普及,其 与传统统计方法优势互补的特点将会不断显现,使用前景是 十分广阔的。 综上几个方面可以看出,在医学研究中,无论是做为分析 还是检验手段,Logistic回归与其他方法的结合应用,使优势 互补,已经是其发展的一种的趋势,虽然在其应用过程中可能 还会出现一些目前无法解决的问题,但随着我们研究的深人 一定会逐步克服这些问题,使这一统计学方法的使用得到更 大的发展,同时促进其他统计方法的不断向前发展。 参考文献 1陈峰.医用多元统计分析方法.北京:中国统计出版社,2001,111 ・ 764 ・ 7张宏,陈启光,沈其君.病例对照研究中Logistic回归参数估计的应 用条件研究.中国卫生统计,2006,23(3):206t208. 8冯国双,陈景武,周春莲.Logistic回归应用中容易忽视的几个问 题.中华流行病学杂志,2004,25(6): 9赵字东,刘嵘,刘延龄,等.多元Logistic回归的共线性分析.中国卫 生统计,2000,17(5):259t261. 1O陈雄飞,董晓梅,汪宁,等.多因子共线性的主成分Logistic回归分 析.中国卫生统计,2003,20(4):212t215. 1l宋花玲,贺佳,黄品贤,等.R0C曲线下面积估计的参数法与非参 数法的应用研究.第二军医大学学报.2006,27(7):726t728. 12傅华.预防医学.第4版,人民卫生出版社,2004,318t323. 13陈卫中,潘晓平,倪宗瓒.Logistic回归模型在R0c分析中的应 用.中国卫生统计,2007,24(1):22t24. 14邵峰晶,于忠清.数据挖掘原理与算法.中国水利水电出版社, 2003,126~17O. 15 梁华金,中深,陈海雯.基于决策树的选案分析模型设计.现代计 算机,2002,6(141):21t23. 16张文彤,吴擢春.分类树中QuEST算法与多水平Logistic模型的 联合应用与比较.中国卫生统计,2004,21(1);28t35. 17赵自强,郑明.应用分类树模型筛选Logistic回归中的交互因素. 中国卫生统计,2007,24(2):114t116. 18 Lippmann.R P.An introduction to computign with neural net— works.IEEE ASSP Magazine.1987,4:22. I9周利锋,高尔生,金丕焕.BP神经网络与Logistic回归对比初探. 中国卫生统计,1998,15(1):It4. 2O李丽霞,王彤,范逢曦.BP神经网络与Logistic回归的比较研究. 中国卫生统计,2005,22(3):138t140. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top