计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

论加权回归与建模(1)网(3)

2013-05-22 01:30
导读:4 收集建模样本的基本原则 要建立一个好的通用性模型,对建模样本是有一定要求的。如林业上一些通用性数表的编制,对样本资料的要求在部颁技术规定

4 收集建模样本的基本原则
  要建立一个好的通用性模型,对建模样本是有一定要求的。如林业上一些通用性数表的编制,对样本资料的要求在部颁技术规定(林业部,1990)中都作了具体规定。但是也不难发现,其中对建模样本的要求仍然不是很明确,还有必要再作进一步探讨。
4.1 样本单元数
  作为建模样本,首先涉及样本单元数的问题。文(中华人民共和国林业部,1990)中提到了一条原则:“样本单元数应根据各项因子的变动范围和精度要求按数理统计原理确定”,但是对精度要求都是用“系统误差”这一指标来规定的,如“蓄积量计量数表的系统误差不超过±3%”。这里的系统误差是(7)式的总相对误差还是(8)式的总系统误差或其它什么含义,并未明确。根据数理统计原理,体现精度要求的误差概念应该是(11)式所表示的预估误差,这样才可据此确定样本单元数。
  作为通用性模型,预估精度是针对每一个预估值而言,因此必须落实到与每一个自变量xi所对应的预估值i。对于林业上的常用模型,xi为连续变量,因此应该在其取值范围内确定m个能反映因变量yi的变化规律的点,再分别根据与这m个xi所对应的yi的变动系数及精度要求,确定各点的子样本单元数,m个子样本单元数之和即为整个建模样本的单元数。只有当各点的变动系数相同,其对应的子样本单元数才要求相等。
  上面只是考虑一个自变量的情况。如果有多个自变量,则情况要复杂一些,但原则相同。以二元立木材积表的编制为例,首先需定出m个直径值,再针对每个直径值定出k个树高值,最后按一定要求收集m×k个子样本,合起来形成整个建模样本。假定每个子样本有相同的变动系数(如10%),按±5%的预估误差要求(置信水平95%),则各需16个样本单元(取t0.05=2,实际操作时应随n作调整)。按最低限度取m=5、k=3,则共需240个样本单元。如果要求预估误差为±3%,且其它条件不变,则共需667个样本单元。一般情况下,材积变动系数会随D、H的增大而增大,因此,如果建模样本中对应较大D、H组合的点所取子样本单元数较少,则必然会造成大径级立木的材积估计值达不到预定的精度要求。 (科教作文网 zw.nseac.com整理)
4.2 样本构成
  样本构成指样本单元数随自变量的分布情况。仍以二元立木材积模型为例,样本构成涉及上述m、k的确定及每一个子样本中具体建模样木的选取。
  关于径级数m和每个径级中的树高级数k,文(中华人民共和国林业部,1990)中建议分别在10~15左右和不少于3个。因为m、k的大小直接影响收集样本的工作量,提供一个最低限度指标是必要的。对于材积模型,因为其曲线变化趋势比较单一,故取m=5~8、k=3~5即可。如果是变化趋势比较复杂的模型(如“S”型生长曲线),可适当增加至m=7~10。在确定m、k之后,具体选取哪些径级和树高级时,应掌握如下原则:最小、中等和最大者必选,然后再在其间适当增选;目标变量变化规律未知时考虑等距均匀分布,变化规律已知时宜典型选取,其中变曲点处必选。由于树高级的确定是在已定径级基础上进行的,故应考虑影响树高变动的各种因素。
  具体针对某一径级和树高级组合的子样本,其样木的选取必须考虑影响材积变动的各种因素,在根据各种影响因素划分的类型中去典型选样。因为异方差性的存在,笔者认为各子样本样木的D、H应尽可能地一致,以正确地估计其平均数的方差和变动系数。尽管整个样本看起来呈现离散性,但不会影响建模效果。相反,因为各子样本的收集都达到了建模要求,只要模型选取得当,其预估精度是肯定可以达到预定要求的。
  样本资料的收集是建模的首要环节,其质量好坏直接影响建模效果。通过模拟数据的对比检验结果可以发现,一套理想的建模样本数据,不管是采用普通回归还是加权回归估计方法,其结果几乎是一致的。也即由一套好的样本资料所建立的模型,其总相对误差和总系统误差都应该接近于0。因此可以说,2种估计方法得出的回归模型的差异大小,在一定程度上反映了建模样本的质量好坏。

(科教范文网http://fw.nseac.com)


4.3 检验样本与精度检验
  建立通用性回归模型时,一般要求在收集建模样本的同时,还另收一套检验样本。如文(中华人民共和国林业部,1990)中提到收集编表资料的另一条原则:“要同时收集编表和检验两套样本,用编表样本编表,用检验样本检验所编数表的精度。”检验样本的收集原则和方法类似于建模样本,此处只着重讨论检验方法及这一检验的必要程度。
利用检验样本进行所谓“适用精度”检验,必须分别径级进行。正确的方法应是先按(7)式算出总相对误差E′,然后判断它是否超过公式:

    (12)

的计算结果。式中,CV为检验径级的预估材积的变动系数,n′为该径级检验样本单元数,tα为置信水平α时的t分布值(自由度为n′-T,T为模型参数个数)。如果不超过,则认为模型是可以接受的。
  由(11)式知,(12)式中的变动系数CV可表示为:

    (13)

式中Ep为检验径级的材积预估误差,n为该径级的建模样本单元数,tα为置信水平α时的t分布值(自由度为n-T)。将(13)式代入(12)式,可得到接受模型的条件为:

    (14)  

如果n′=n,则只要检验样本的总相对误差不大于建模样本的预估误差就行了。另外,(14)式还反映出了一条信息,即各径级检验样本单元数必须满足n′>T。
  从上述检验方法可看出,整个检验行为并不能提出一个反映所建回归模型预估精度的指标值,而只是作出一个可否接受模型的判定。可以推断,只要建模样本的收集符合要求,就基本上能以(1-α)的概率作为接受模型的判定,也即作出否决模型的判定只是一个小概率事件。万一真是出现此种情况,也只能按要求去完善样本资料重新建模。因此,与其花费一部分工作量去收集检验样本,还不如在收集建模样本时多花点功夫以确保其质量。真正体现回归模型预测精度的,还是预估误差这一指标。

5 结论 (科教范文网http://fw.ΝsΕΑc.com编辑)
  样本资料收集、回归估计方法和模型评价是建立回归模型的3个重要环节。
  建模样本单元数必须根据预定精度要求和目标变量的变动系数及变化规律综合确定。样本的构成关系到样本的质量,而样本的质量好坏将直接影响所建回归模型的精度。
  加权回归估计方法是建立通用性回归模型所应采取的方法。任何回归模型的最佳权函数就是模型本身。以模型本身为权函数所进行的加权回归估计,一方面将所有建模样本单元同等对待,从而保证了模型的总系统误差为0;另一方面彻底消除了模型中可能存在的异方差性。
  对回归模型的评价,除了残差平方和、剩余标准差、复相关系数、修正复相关系数、参数变动系数、残差分布图以及信息量准则AIC和Cp准则等等指标以外,还需考虑另外4大重要指标,即总相对误差、总系统误差、平均相对误差绝对值和预估精度(或预估误差)。

共4页: 3

论文出处(作者):
上一篇:宁波市城市行道树选择的探讨(1) 下一篇:没有了