计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

论加权回归与建模(1)网(2)

2013-05-22 01:30
导读:3 模型评价与加权回归 3.1 回归模型评价指标 建立回归模型,从一般的意义上讲有以下3个目的(刘璋温等,1983): 结构 分析——对观测数据进行分析,以便

3 模型评价与加权回归
3.1 回归模型评价指标

  建立回归模型,从一般的意义上讲有以下3个目的(刘璋温等,1983):
  分析——对观测数据进行分析,以便描述存在于解释变量与目标变量之间的结构关系;
  预测——以已知解释变量的值来预测目标变量的未来值或期望值;
  控制——为使目标变量的值保持在一个理想的水平上,而适当调整解释变量中可调整的变量值。
  在上述3个目的中,预测是最根本的。因为结构分析可以考虑为在更一般的条件下预测目标变量的变化问题,而控制可以考虑为针对解释变量的不同水平来预测相应的目标变量的值,以便从中选择最佳变量的问题。事实上,林业上的所有通用性数表的编制都可以看成是用于预测的超总体回归模型的建立问题。如何评价这类模型的优劣,一直是林业数表领域所面临的一个课题。
  关于回归模型评价的常用指标,包括残差平方和Q、剩余标准差S、复相关系数R、修正复相关系数R、参数变动系数(稳定性)、残差分布(随机性)、参数的可解释性以及信息量准则AIC和CP准则等(骆期邦等,1992;刘璋温等,1983;钟义山,1992;盛承懋等译,1989)。除此之外,笔者认为对用于预测目的的回归模型,尚需考虑以下4大指标:
                            (7)

                         (8)

  平均相对误差绝对值       (9)

  预估精度                   (10)

  或,预估误差            (11) 式中:yi为实测值;i为预估值;n为样本单元数;tα为置信水平α时的t分布值;T为回归模型参数个数;为平均预估值,可由f()给出。另外,因为这类回归模型必须具有通用性质,需满足随自变量x从小到大时模型的上述指标应基本保持一致,所以还需分段对上述指标作出评价。 (科教作文网http://zw.nseAc.com)
  应特别强调的一点是,因为相对误差公式一般表示为:

 

从而在林业应用上对(7)~(9)式过去几乎都是写成(预估值-实测值)/实测值,即习惯性地将实测值当成了真值。将实测值当真值正确与否,需视具体情况而定。如某一株D=20cm、H=15m的杉木,经实测其材积为0.24m3。如果用于立木材积的目测训练,正确的做法自然是将0.24m3作为该树的材积真值来检测每个人的目测水平;如果是用于立木材积表的编制,则0.24m3只是满足D=20cm、H=15m这一条件的某株杉木的材积实测值,在这种情况下不存在真值的概念,而只有实测值与预估值(或期望值)之分。误差计算在林业数表领域的应用基本上都是后一种情形,因此一般应采用前面给出的(7)~(9)式。
  预估精度(10)式或预估误差(11)式是笔者提出的评价通用性模型的新指标,从后面的讨论将看到,它是反映模型预估效果的最重要的评价指标。它的成立需满足条件总体为正态分布这一前提条件。对于林业生产应用中的绝大多数情况,这一条件都是基本满足或近似满足的。
3.2 模型评价与加权回归
  为了说明加权回归方法对建立通用性模型的重要性,现以一组实测数据为例,来对普通最小二乘法和加权最小二乘法得出的模型进行评价。
  所用数据为杉木地上部分干物质生物量,采集自江西省德兴市的人工杉木林中。共计50株样木,来自6个样地,样地按幼、中、成3个龄组和中、好两个立地等级各分布1块。如果从建立立木生物量模型这一目的考虑,所用数据严格讲并不符合建模要求(后面将讨论到),但用作不同方法结果的对比是可以的。表1给出了常规生物量模型W=a(D2H)b两种回归估计方法的对比结果,表2列出了(7)~(10)式的评价指标值,其中包括将整个建模样本按胸径D的大小以株数平分为5段所算出的评价指标值。 (科教范文网 lw.AsEac.com编辑整理)
  从表1、表2可以明显看出,尽管加权回归(特指按前面的最佳权函数(3)式加权,下同)的残差平方和为普通回归的2.1倍,剩余标准差为1.4倍,但按(7)~(10)式所给指标进行分段检验的结果,加权回归模型明显优于普通回归模型。普通回归模型随自变量x从小到大各评价指标从劣到优,即主要只照顾绝对值大的样点,而对绝对值小的样点很少考虑。但是,加权回归模型却各段的检验结果基本一致,而且加权回归模型还有一个很好的特性,即总系统误差为0,这从(6)式可以推知。

表1 普通回归与加权回归估计的拟合结果
Tab.1 Fitting results of ordinary regression and weighting regression estimation

表2 普通回归与加权回归估计的检测结果
Tab.2 Testresultsofordinaryregressionandweightingregressionestimation

需要说明的一点是,由于模型本身的参数是未知的(假定模型结构为已知——模型结构设计也是建模的重要环节之一,本文不作讨论),因此,只有事先得到其普通回归估计值,才能进行加权回归估计。严格来讲,以模型本身为权函数进行的加权回归估计,应该是权函数所赋参数值与回归估计得出的参数完全相等;如果不相等,应再以新的回归模型为权函数重新进行拟合。一般地,要达到完全稳定需经数次的反复拟合,而且参数越多,所要拟合的次数也越多。如上述表1中的例子,就经过了7次加权回归才使参数完全稳定不变(指5位有效数)。但是,从消除异方差这一目的考虑,经过1~2次加权回归就基本上具有齐性方差了,模型的总系统误差已接近于0。
  加权回归估计与普通回归估计的结果之所以产生如此大的差别,根本原因在于求解模型参数的准则不同。普通回归是使Q=Σ(y-)2最小,即保证总相对误差为0(由于非线性回归估计中的非线性模型是用泰勒级数展开式近似表示的,故存在一定偏差,使估计出来的模型其总相对误差并不等于0,可参见表2),必然优先考虑y绝对值较大的点;而加权回归是使Q′=Σ(y/-1)2最小,即保证总系统误差为0,考虑的是相对值,每个样点都同等重要,故必然会照顾到所有的样点。总之,不论理论分析还是实际对比结果都表明,通用性回归模型的建立必须采用加权回归估计方法。 (科教作文网http://zw.NSEaC.com编辑发布)
  关于回归模型的评价,Q、S、R、R及参数稳定性等指标主要用于比较确定不同的模型形式,最终回归模型的评价则必须重点考虑(7)~(10)式中的指标值,而且其分段检验结果尤为重要。

共4页: 2

论文出处(作者):
上一篇:宁波市城市行道树选择的探讨(1) 下一篇:没有了