基于WEB的论文相近度的比较系统(6)

2013-10-20 01:52

导读：该模块中要注意论文的格式，繁简体以及其中用到的公式，图片等其它形式的。将其统一转换到简单格式方便相似度比较。 5 相似度比较方法 5.1 特征选择

　　该模块中要注意论文的格式，繁简体以及其中用到的公式，图片等其它形式的。将其统一转换到简单格式方便相似度比较。

　　5 相似度比较方法

　　5.1 特征选择

　　特征表示就是以一定特征项（词条或描述）来表示文本信息。常用的有布尔型，向量空间型和概率型。本文采用向量空间模型（VSM）即使用向量表示文本，该模型在文本分类、自动索引、信息检索等领域得到了广泛的应用，向量空间模型已逐渐成为最简便最高效的文本表示模型之一。本文的研究即采用向量空间模型。向量空间模型中，文本的内容由一些特征来表达，一般由文本所含有的基本单位（字、词、词组或短语）来表示，即文本可以表示为Document=D(t1，t2，⋯，tn)，其中ti 表示各个项，都被赋予一个权重W，以表示这个特征项在该文本中的重要程度，权重一般都以特征项的频率为基础进行计算的，目前计算主要采用TFIDF 公式，其中TF 是特征项在文本中的绝对频率，而IDF 表示特征项在文本中的文本内频数。TFIDF 的计算公式很多，目前使用一种比较普遍的TFIDF 公式：

公式（1）

　　其中，tfi(d)为词条ti 在段落d 中出现的词频，N 为所有文档的数目，ni 为出现了词条ti 的文档的数目。这样文本就可以表示为(t1，w1；t2，w2；⋯；ti，wi，⋯；tn，wn)，可以简记为D=D(w1，w2，⋯，wn)。

　　5.2 基本思想

　　本系统分为两步：第一步基于全文整体比较；第二步在全文比较基础上，针对目前检测系统的不足对段落进行相似度比较。综合基础上得出比较结论。本文提出了基于段落相似度的论文抄袭判断算法。在计算段落文本相似度时，向量的相似度计算可以采用设定适当的阈值判定比较结果。

　　基于段落相似度的论文相似度比较方法的特点是：以段落为单位可以防止引用者将论文的段落顺序打乱；段落向量相似度比较可以检测到将段落语句次序打乱重新组合或更改部分词语的情况。由于最后做出的结论有一定误差，还需要人工进一步判定，所以在两个窗口中输出待查论文和原论文的相似的段落，这样使得用户不必再从整篇论文中查找、定位相似内容，方便用户直接查看与判定

　　为提高查准率，对于段落相似度的阈值设定很重要。当阈值过大时，容易漏查；而当阈值过小时，容易误查，当然这两种情况下查准率都不高。要想设定一个非常恰当的阈值非常困难，所以我们提出设定两个阈值，一个阈值是门限值，只要高于这个阈值就可以怀疑抄袭，当然有可能误查，需要进一步人工判定；另一个阈值是临界值，只要超过此临界值，就判定为抄袭，不再需要人工判定。当然临界值比门限值要大，实际处理过程是：在比较时如果低于门限值则排除，超过门限值而没有超过临界值则判定为疑似抄袭，超过临界值则直接判定为抄袭并输出。另外，由于有时要进一步人工判定，所以如果判定为抄袭或者疑似抄袭系统会分别在两个窗口输出抄袭论文和原论文的相似段落，以供用户查看。

　　相似度比较流程如图：

　　 SHAPE \* MERGEFORMAT

图10 相似度比较流程

　　5.3基本算法

　　本文段落文本比较采用空间模型(VSM)来表示，在计算段落文本相似度时，向量的相似度计算可以采用余弦夹角公式，给定段落di=("i1，#i2，⋯⋯，$in)T，dj=(%j1，&j2，⋯⋯，’jn)T。di 和dj 的相似度定义如下：

公式（2）

　　公式2中的权重W采用的是上文中的TFIDF 公式1，根据公式1计算相似度。

　　下面给出基于段落相似度的论文相似度比较的具体算法。

　　步骤1：提取指定论文的中图分类号与关键词序列并保存；

　　步骤2：在论文库中，先通过中间分类号进行筛选，若相同或相近则进入下一步，否则排除；

　　步骤3：在摘要中检索，若有一个或多个关键词与指定论文的关键词序列相同，则进入下一步，否则排除；

　　步骤4：对于指定论文和筛选过的论文库中的任一篇论文进行比较：

　　（1）对指定论文进行分词，设去除虚词、语气词和停用词后单词个数为n；

　　（2）所有的段落表示成n 维的向量；

　　（3）两篇论文的相似度计算如下：

　　1) 先把两篇论文的所有段落任意配对，计算出所有可能的配对的段落相似度；

　　2) 取相似度最大的一对，并将它们归为一组，并记录相似度值simi；

　　3) 在剩下的段落的配对相似度中，取最大的一对，并为一组，记录其相似度值，以此类推，直到所有段落都完成分组；

　　4) 如果相似度值simi 低于门限值（这里取15%）则排除，超过门限值而没有超过临界值（这里取50%）则判定为疑似抄袭，超过临界值则直接判定为抄袭；

　　（4）分别在两个窗口输出检测论文和原论文的指定段落，以供用户查看；

　　步骤5：从筛选过的论文库中取出另一篇再与指定论文进行比较，比较过程同前，直到文件夹中的所有论文都与指定论文比较完为止。

　　5 结束语

　　本文介绍了该系统的相关理论知识。本系统的研究目标是针对论文中文本部分的相似度比较。根据设计目标，完善的系统应该具有较高的精确度，但仍存在一定的误差，因此日后在系统比较基础上还需要进一步人工判定。另外，在实际应用中，随着文档数和类别数的增加，设计出的系统的比较的效率仍有提高的空间。论文相似度比较系统不但可以精确论文相似度的情况，而且在某种程度上对论文的类别进行合理的划分提高工作效率。

　　参考文献：

　　【1】李荣陆，《文本分类及其相关技术研究》，复旦大学，2005 ，26-33

　　【2】赵俊杰谢飞，《基于段落相似度的论文抄袭判定》，电脑与电信，2008（8），5-9

　　【3】赵俊杰，《基于分类思想的论文抄袭判定系统的设计与实现》，数字论坛2009（8），23-26

　　【4】赵俊杰，《论文抄袭检测特征选择》，COMPUTER SYSTEMS & APPLICATIONS ，2009 18(9) 45

　　【5】冯是聪，《中文网页自动分类技术研究及其在搜索引擎中的应用》，，2003 3-5

　　【6】史彦军滕弘飞金博，《抄袭论文识别研究与进展》，大连理工大学学报， 2005(1) 56-58

　　【7】章成敏鞠海燕，《基于混合策略的巾文查询串相似度计算》，中国科大学情报杂志2005（11）

　　【8】聂规划付志超陈冬林刘平峰《基于本体的论文复制检测系统》工程2009（3）

　　【9】萨师萱，《数据库系统概论》，2008

　　【10】刘亮亮潘忠强，《精通ASP.NET 2.0数据绑定技术》，2008