引言 在科学文献的引用行为中,引用动机大多是(3)
2013-05-12 02:09
导读:如所示,a0 为企业a 的发表专利集合,a1 为a0 的引用专利集合(后向引用),a2为引用a0 的专利集合(前向引用);b2 为b0 的前向引用专利集合。通过对a
如所示,a0 为企业a 的发表专利集合,a1 为a0 的引用专利集合(后向引用),a2为引用a0 的专利集合(前向引用);b2 为b0 的前向引用专利集合。通过对a2 和b2 取交集运算,得到企业a、b 的专利共被引次数。同理,对任意两家企业的前向引用专利集合进行交集运算,最终构造出全部232 家企业的专利共被引矩阵。
表2列出了部分企业的专利共被引矩阵,检索时间段设定为2000-2012年。对角线上的数值为企业的专利总被引次数,其余数值为两家企业的专利共被引次数。专利被引次数最多的企业为日立公司,总被引264637次,它与东芝公司的专利共被引次数为65965次,与IBM的专利共被引次数为65965次。
2.2 方法
2.2.1 共被引系数矩阵由于不同企业发表的专利数量差别很大,例如汽车行业的丰田、福特;电子电器行业的索尼、松下、飞利浦历年发表的专利数量都数十万计。而信息技术的甲骨文、埃森哲历年发表的专利只有几千条。所以必须对原始的共被引次数矩阵进行标准化处理,即创建共被引系数矩阵。常见的计算共被引系数矩阵的方法有Jaccard系数、Cosine系数等,但是Van Eck与Waltman 认为关联强度(association strength)指标比Jaccard和Cosine更适合用来进行聚类分布的分析[20]。本文在此采用关联强度的计算方法将表2中的共被引次数矩阵转换成共被引系数矩阵,如下式所示:
2.2.2 专利地图构造类似于多维尺度分析(multidimensional scaling),在这一步骤中,将企业按照相似性矩阵中的相似性距离关系反映到二维平面中。企业i和企业j在地图中的距离是根据二者之间的相似度sij来计算的。两家企业的相似度越大,在地图中的距离则越小。
3 结果
3.1 基于相似性矩阵的企业聚类分布作者在此采用荷兰莱顿大学科学与技术研究中心(Centre for Science and TechnologyStudies,Leiden University)开发的VOSviewer 对232 家世界500 强企业进行可视化分析[20]。VOSviewer 与其余软件的多维尺度分析分析(例如SPSS、Ucinet、Pajek)所不同的是,为了避免样本数量太多造成点和标签的重叠,它在构图的时候开发出独特的去除重叠标签和层级显示技术,突出显示最重要节点的标签,如图2 所示。图中的232 个节点代表了232 家企业,节点的大小反映了该企业的被引次数,例如被引次数最高的企业日立公司(被引264637 次),其节点尺寸也是最大的。两节点之间的距离反映了两企业的共被引关联强度,例如左上角丰田汽车、日产汽车、通用汽车之间的距离非常小。由于VOSviewer 在构图上的去除重叠标签和层级显示技术,有部分节点的标签显示得比较淡或者没有显示,而那些最为重要的节点则得到突出显示。节点的不同颜色是按照Fortune 500 给每个企业的行业归类来划分的。39 种颜色代表了这232 家企业分属的39 种行业。 VOSviewer 中对全部232 家企业进行聚类。首先选择程序默认的Resolution 等于1.0,得到6 个聚类。如图3 所示。
(转载自http://www.NSEAC.com中国科教评价网) 进而选择 Resolution 等于2.0,得到24 个聚类,比较图4 与图3 可以发现,最明显的差异有两处:(1)图3 中右上方较大的节点都被划分成独立的聚类。例如三菱电机与日立、东芝、松下本来都属于电子电器行业,但是在图4 中它们被划分成许多分散的聚类。(2)图3 左下角的大聚类被重新划分为3 个小聚类,分别是最下边的杜邦、拜耳、默克、雅培等组成的化工制药聚类;化工制药聚类右上方由联合技术、波音、通用电气、霍尼韦尔等组成的航空国防聚类;以及其他零散企业组成的综合聚类。
如果进一步提高Resolution 值,会对被引次数较小的那些企业进行更为准确的聚类。传统的聚类分析都是通过树状图和龙骨图对样本进行聚类,如果样本过多的话(例如本文中的232 个样本),则需要很大的构图空间。而VOSviewer 创造性地将多维尺度分析与聚类分析结合起来,既大大节省了构图空间,又可以更加清晰直观地对聚类与聚类之间、样本与样本之间的关系进行判断。