本项目是2003-2006年度国家自然科学基金统计方向重点项目“复杂数据的统计建模,推断及其应用”中统计稳健性及其应用部分的04-05系列论文,其研究成果的主要内容与创新点分如下4个方面进行阐述: 1. 研究了纵向数据和多元线性模型中t-型回归估计的渐近性质,包括崩溃点,稳健性质, 强弱相合性和渐近正态性等,并实际用于纵向数据的分析,获得了显著的效果,彻底解决了t-型回归估计的相合性这一文献所遗留悬而未决的问题(见论文[1],[7])。进一步研究表明,t-型回归估计在稳健性方面要明显优于最小二乘估计,最小一乘估计以及相关的M估计,而效率则非常接近最优的最小二乘估计。说明在探索性数据分析中,t-型回归估计是推荐首选的既稳健又效率高的估计,不仅如此,在SPLUS统计软件包中我们已编好标准程序供实际使用(见论文[9])。其大部分内容分别在2004年7月的国际稳健统计大会(ICORS04,北京) 和 第六届国际泛华统计大会上做邀请报告和分组报告;在2005年7月 中美概率统计联合会议及第七届中国现场统计大会上作分组报告,受到好评,著名统计学家D.E.Tyler 在ICORS04期间评价道:T-型方法可靠灵活,且理论证明极富有技巧性,计算快捷,很值得推广应用。对于这一方面的研究,只有He Xuming 等(2000)提出了T-型估计后,由于遗留的理论问题比较困难,特别是相合性和比较问题,因而很少有人来进一步讨论它的性质,我们的工作目前是这方面最为完整和彻底的后续工作。不少学者在听了我的报告后,积极找我寻求讲稿和具体算法,表示要在实际应用中用T-方法代替最小二乘估计和最小一乘估计方法。 2.研究了深度函数及由深度函数所诱导估计(其中包括位置,散布阵和回归系数估计)的诸多性质,包括:有限样本、大样本性质和稳健性。特别对它们的仿射同变性(不变性),相合性,渐近正态性,极限分布,有效性,最大偏差,影响函数,整体和局部敏感度,以及崩溃点性质的研究,同时给出了比较和选择以指导在如多元质量控制图等实际中的应用。同时圆满解决了Stahel-成功Donoho 估计渐近分布为正态分布的这一长达20年的猜想,以及最大偏差和敏感函数的“维数自由”的猜想(见论文3,4,5,6)。共有3篇论文发表在被誉为统计四大天王的“Ann.Statist.”上,由于这部分工作是我2001年在美国访问期间与Zuo Yijun 和 He Xuming 教授合作完成的,因为我们的合作工作,Zuo Yijun拿到了2003年美国Career 基金(杰出青年基金)“统计深度函数及其应用”,虽然为第二作者,但部分思想方法和绝大部分证明由我完成,同时我也是这一基金的第一参加者。上述工作应是在Zuo Yijun 和Serfling (Ann.Statist. 2000a,b,28)基础上的后续和深入的工作,此项工作也得到了著名统计学家R. Serfling 和 R.Y.Liu教授的高度评价,指出这是“相当杰出和有突破的工作”。 关于统计深度函数方面的研究还刚刚开始不久,国际上有Zuo Yijun, R.Y.Liu, C.Massue,Kim等,国内有金蛟和谢田法博士,林路教授进行过研究。 3. 给出了空间(spatial)统计数据的稳健回归分析,包括回归系数的估计,估计的性质,回归系数估计渐近正态分布中方差阵的估计,统计假设检验等。特别是获得了回归系数M 估计的诸多渐近性质。由于统计假设检验的需要,对于回归系数估计渐近正态分布中方差阵的估计历来是一个有趣而又困难的问题, 这是因为数据的高度相关性和渐近方差阵参数过多,因此一般方法均不具有相合性,这一问题的难点在He Xuming等发表在Biometrika(2002,86(3))上的文章提到,并给出了一个方法。而我们巧妙地利用了数据的空间相关结构,给出了截尾型的渐近方差阵的相合估计(见论文[2])。目前这一方面的工作并不多见,评审人认为我们的工作具有相当的技巧性和难度。 4.研究并给出了半参数回归模型中回归参数的Huber-Dutter估计,得到了参数估计的渐近正态性,和非参数函数估计的最优收敛速度,在通常M估计中引入刻度参数,并同时参与最优化,使之M估计的效率更高。实例和模拟效果也表明了这一点,其结果也在国际稳健统计大会(ICORS04)上做了报告,并获得好评。 上述的研究成果只是一个我们在稳健统计课题中的一个阶段性成果,后续的工作我们还在进行,它也是探索性数据分析中的一个重要环节,有着比较广阔的应用前景,比如,我们已进行的生物基因预测的稳健判别分析,多维稳健的质量控制图,数据的异常点判别等方面的应用都已取得了重要成果。 正因为我们在稳健统计方面所作的贡献,2004年7月国际稳健统计大会(ICORS04)组委会决定将此次会议首次放在中国举行,会议由北京师范大学数学科学学院统计与金融数学系主办, 并由我担任当地组委会主席。共有110余人参加了这次大会,其中国外代表有77人,共有88 位代表作了大会报告, 其中有20多位代表被邀请作了大会特邀报告, 中国只有我和赵林城教授被邀请作大会特邀报告, 会议代表们认为我们在稳健统计领域的研究水平已达到国际领先水平,下面是来自于权威网站的评论和引证。 来自于MathSciNet 网站的评论: 对论文[1]的评论:Summary: "We consider a robust estimator of linear regression for longitudinal data by maximizing the marginal likelihood of a scaled t-type error distribution. The marginal likelihood can also be applied to the de-correlated response when the within-subject correlation can be consistently estimated from an initial estimate of the model based on the working assumption of independence. While the t-distributed errors can be motivated with a latent hierarchical model as an extension of Gaussian mixed models, our estimators have asymptotic normal distributions for a wider class of error distributions. The estimators have bounded influence functions and can achieve positive breakdown points regardless of the dimension of the covariates." Reviewed by Yurij S. Kharin 对论文[2]的评论:The problem of estimating regression parameters in a linear model with spatially correlated errors is considered. The authors give sufficient conditions for the consistency and asymptotic normality of an $M$-estimator. These conditions do not refer to the spatial correlation structure. The results are applicable for the least-squares estimators and the least absolute deviation estimator. Reviewed by Kurt Hoffmann 对论文[3]的评论:The paper under review focuses on the asymptotic behavior of the depth-weighted L-type location estimators, called DL-estimators of location. The authors give sufficient conditions under which the DL-estimators are asymptotically normal and note that these conditions have already been established in the literature for some commonly used depth measures. Next, the authors turn to a class of projection depth functions and show that the corresponding DL-estimators satisfy all conditions needed for Gaussian limiting distributions. The asymptotic normality of the Stahel-Donoho estimator follows as a special case. Finally, the finite-sample efficiency and breakdown robustness of considered location estimators is discussed. Reviewed by J. A. Melamed 对论文[4]的评论:From the summary: "The authors study aspects of robustness for two types of projection depth based estimators. They are projection medians and projection depth weighted means, the latter of which includes the Stahel-Donoho estimator \ref[see Y. J. Zuo, H. J. Cui and X. He, Ann. Statist. 32 (2004), no. 1, 167--188 MR2051003 (2005a:62073)] as a special case. Exact maximum bias, the influence function, contamination and gross error sensitivity are derived and studied for both types of estimators. Sharp upper bounds for the maximum bias and the influence functions are established. Comparisons based on these robustness criteria reveal that the projection depth based estimators enjoy desirable local as well as global robustness and are very competitive among their competitors." Reviewed by Nikolai Volodin 对论文[7]的评论:"We consider a robust estimator (t-type regression estimator) of a multiple linear regression model by maximizing the marginal likelihood of a scale t-type error t-distribution. The marginal likelihood can also be applied to the decorrelated response when the within-subject correlation can be consistently estimated from an initial estimate of the model based on an independent working assumption. This paper shows that such a t-type regression estimator is consistent." Reviewed by Ivan K\u riv\'y 引证情况,来自于http://portal.isiknowledge.com网站。 Zuo YJ, Cui HJ Depth weighted scatter estimators ANNALS OF STATISTICS 33 (1): 381-413 FEB 2005 Times Cited: 1
Zuo YJ, Cui HJ, He XM On the Stahel-Donoho estimator and depth-weighted means of multivariate data ANNALS OF STATISTICS 32 (1): 167-188 FEB 2004 Times Cited: 4
Zuo YJ, Cui HJ, Young D Influence function and maximum bias of projection depth based estimators ANNALS OF STATISTICS 32 (1): 189-218 FEB 2004 Times Cited: 3
He XM, Cui HJ, Simpson DG Longitudinal data analysis using t-type regression JOURNAL OF STATISTICAL PLANNING AND INFERENCE 122 (1-2): 253-269 MAY 1 2004 Times Cited: 1
本项目获第八届全国统计科研优秀成果奖课题论文类一等奖。
项目负责人:崔恒建;课题组主要成员:左义君、何旭铭
|