论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
导 言
在犯罪与罪犯研究领域,常常会遇到彼此有关系的两列或多列变量。对于这些变量之间的关系,可以根据不同的研究目的,从不同的角度去分析。如果要分析变量之间关系的强度,我们可以采用相关分析的方法,但是,如果要确定变量之间所可能具有的数量关系,并将这种形式表示为某个模型,就需要用回归分析。
回归分析应用非常广泛。在领域,如果建立了变量之间的数学模型,实际上就是确立了变量之间的关系模型,从而可以从某些变量的变化来预测其他变量的变化情况。例如,我国学者杨家騄建立了物价指数与盗窃犯罪案件之间的数学模型,从而依据某年度的物价指数来预测该年度的盗窃案件数量;[1]我者高树桥等在犯罪人的受年限与犯罪次数之间建立了数学模型,根据某犯罪人的教育年限,我们就可以预测其可能的犯罪次数。[2]
但是,由于犯罪现象是一种非常复杂的现象,往往牵扯到多个变量之间的关系问题。因此在回归分析中常常需要分析两个及两个以上的自变量,分析变量之间的关系,推导出含有多个自变量的函数,这种方法就是多元回归分析。多元回归分析要比一元回归分析更为科学,这是由事物的复杂性决定的。例如,盗窃案件的数量不单与价格指数有关,还受其他一系列因素的影响,国外有学者甚至研究了防盗门的销售量与盗窃案件的关系。可见,当我们研究某一个犯罪问题时,多元回归分析更为准确和有效。
多元回归自变量的个数很多,计算相当繁琐,一般手工计算几乎不大可能,我们可以借助SPSS来满足计算要求。
一、多元线性回归分析方法
多元线性回归的数学模型为:
其中, 为应变量; 为p个自变量。 为常数项, 称为偏回归系数; 为随机误差,又称残差,它是 的变化中不能用自变量解释的部分,服从 )分布。
多元线性回归分析的前提条件是:线性、独立、正态和等方差,在进行回归分析时,应当首先进行这些假设。
还有一个重要问题就是如何选择自变量。实际上,模型中包含的自变量是无法事先确定的,如果把一些不重要的或者对应变量影响很弱的变量引入模型,则会降低模型的精度。所以自变量的选择是必要的,基本思路是:尽可能将对应变量影响大的自变量选入回归方程中,并尽可能将对应变量影响小的自变量排除在外,这样才能建立最优方程。这里就涉及到筛选自变量的方法,现在比较常用的是逐步回归法。这种方法的特点在于,每引入一个自变量,都会对已在方程中的变量进行检验,对符合剔除标准的变量要逐一剔除。
另外,在进行多元线性回归分析中,由于自变量之间还可能具有高度相关关系,导致所建立的模型的解释力受到削弱,因此,还要对模型进行多重共线性检验,最后计算出相对更优的数学模型。
二、对刑事发案率的多元线性回归分析
刑事发案率的影响因素很多,有、、等社会因素,也有个体性因素,所涉及的变量相当复杂,创建一个完全周延的数学模型几乎是不可能的。鉴于本文主要是介绍SPSS在犯罪学研究中的意义,同时也为了深化《发展报告》中关于犯罪率与社会发展指标的研究,因此在社会指标的选择上,仍然参照《报告》所采用的指标,包括人均GDP、受教育状况、城市化和基尼系数。《报告》中只是计算了这四项指标与刑事发案率的相关系数[3],如果要确定他们之间的数量关系,就需要建立数学模型,进行回归分析。
表 SEQ 表 \* ARABIC 1刑事发案率与其他社会指标表
数据来源:朱景文,《中国法律发展报告》,中国人民大学出版社,2007;中国统计年鉴(1993-2005)。其中,刑事发案率是指每10万的(公安机关)立案数量;GDP按照人均国内生产总值指数计算,1978年为100;城市化按照城镇人口占总人口的比例计算;受教育状况按照每100000人口大学生数量计算;4.基尼系数是笔者根据中国统计年鉴中的收入分组数据计算得出。
首先绘制散点图(见图1),判断这四个变量对刑事发案率有无影响,借助的是SPSS软件中的多元线性回归分析,使用Stepwise法来进行判断。
图 SEQ 图 \* ARABIC 1 发案率对学生化残差的散点图
图中观察点学生化残差的绝对值均小于2,也没有发现极端点,这表明人均GDP、城市化、受教育水平和基尼系数对刑事发案率均有影响,该回归模型符合假设,无需重新拟合。
其次,对SPSS生成的结果进行解释。首先看模型的筛选过程(见表2),模型1用逐步法选入了城市化,然后模型2用逐步法选入了人均GDP,城市化仍在模型2中;模型3用逐步法选入了基尼系数,城市化、人均GDP扔在模型3中;模型4用逐步法选入了教育状况,城市化、人均GDP、基尼系数仍在模型4中。
表 SEQ 表 \* ARABIC 2 模型的筛选过程
Variables Entered/Removed(a)
a Dependent Variable: 发案率