手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

偏最小二乘回归的扩展及其实用算法构建

蒋红卫

  偏最小二乘(PLS)回归是一种基于高维投影思想的新的非参数回归方法,是对一般最小二乘(OLS)的改进,比较有效地克服了OLS的部分缺点。其基本思想早在20世纪60年代就出现了,但直至70年代提出的NIPALS算法,解决了PLS算法实现的问题;到了90年代,在法国召开了偏最小二乘回归国际研讨会,才真正有力地促进了PLS理论和应用的发展。目前在国外,偏最小二乘回归被誉为第二代多元统计分析方法,其方法已广泛应用于化学计量、工业设计、计量经济学等各个领域;而在国内,无论是在理论方面,还是在应用方面,对其都未引起足够的重视。本研究对偏最小二乘回归理论与方法以及在卫生与医学研究中的应用进行了相关探讨和研究。本文不仅在已有文献的基础上,对偏最小二乘回归的研究历史和现状做出了比较系统的归纳和总结,并且在其基本理论性质方面加以了扩展和论证;给出了几种PLS实用算法;比较了四种常用的偏最小二乘回归离群点检测方法,分别指出它们的优缺点及应用条件;通过深入了解偏最小二乘回归的基本思想,改进了它的优化准则,并运用Monte Carlo随机法对该改进作出实验模拟;同时,结合卫生与医学研究中的具体实例和需要解决的具体问题,探讨了偏最小二乘回归结果分析和运用事项;并自行编写了大量的SAS程序。本次研究的具体工作和研究结果分为如下四个部分。1、比较系统地介绍了偏最小二乘回归的基本思想、数学原理、理论第四军医大学硕士学位论文算法及基本性质等几个方面。偏最小二乘回归的基本思想是在对解释变量空间与反应变量空间的解释程度及它们之间的密切程度之间作出一个恰当的平衡,兼顾此三者,使得回归模型具有更好地拟合优度、可解释性以及稳健性;理论算法是根据协方差最大化准则,同时从解释变量空间和反应变量空间抽取解释潜变量(即解释主成份)和反应潜变量(即反应主成份),运用一般最小二乘法分别建立解释变量空间关于解释潜变量、反应变量空间关于反应潜变量以及反应潜变量关于解释潜变量的三个回归方程,从而,间接建立起解释变量空间与反应变量空间的回归关系。同时,也简要介绍了偏最小二乘回归的四种离群点检测方法,即偏F检验、残差图与正态分位数图、主成份图(T/T图)、样本点贡献图。这四种检测方法中,第一、二种是回归分析中常用的离群点检测方法,第三种在潜变量分析中比较常用,第四种则是偏最小二乘回归中比较特殊的检测方法;它们分别从不同的角度定义了回归模型中离群点对模型影响程度的数量化度量方法,然后根据某种判断准则,从样本点中筛选出可疑离群点;2、根据偏最小二乘回归的基本性质,扩展和推导出了PLS的部分性质,反映出其与其它多元统计分析方法的不同之处;另外,根据偏最小二乘回归的基本理论,结合线性空问与计算方法等数学工具,我们自行给出了这几种实用算法的详细实现过程,包括三种NDALS实用算法(迭代法、特征值法和奇异值法)和一种SIMPLS实用算法,在附录分别给出了它们相应SAS宏程序的主体部分。3、为了克服偏最小二乘回归存在的不足之处,我们首先推导出与协方差最大化准则等价的新准则,分析了该准则的几何意义和物理意义,并在此基础上,对它加以了一定的改进。对具有明确几何学意义的特殊改进进行了 Monte Carlo模拟实验,列举了三种不同模拟条件下的实验结V第四军医大学硕士学位论文果,对它们逐一加以分析。由此得出,就线性模型的回归系数估计偏差性以及稳健性两方面而论,该特殊改进的估计基本上处于偏最小二乘估计与一般最小二乘估计之间,这一实验结论与我们事前预期基本一致。本次模拟实验均在SAS下完成,并在附录中给出了SAS模拟程序。4、选取了在卫生与医学研究领域中两个比较典型的实例,运用偏最小二乘回归对它们分别予以分析。实例一的资料来自于卫生管理研究,主要用于偏最小二乘回归与一般最小二乘回归之间的优劣比较,以及偏最小二乘回归离群点检测方法的实际运用。实例二的资料来自于健康调查研究,主要用于了解偏最小二乘回归的实际用途,以及其结果的实际分析过程。通过这两个实例分析,表明偏最小二乘回归具有良好的估计特性和广阔的运用范围……   
[关键词]:线性回归模型;偏最小二乘;一般最小二乘;潜变量;主成份;离群点;残差图;正态百分位数图;蒙特卡洛随机法;模拟试验;卫生与医学研究;SAS软件
[文献类型]:硕士论文
[文献出处]:中国人民解放军第四军医大学2003年