计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

基于WEB的论文相近度的比较系统(2)

2013-10-20 01:52
导读:2.1 总体设计基本思路 对于论文相似的比较的检测,首先应该不同的文档格式统一转换成较为简单的word格式放入论文数据库中,根据分类思想并确定其属性

  2.1 总体设计基本思路

  对于论文相似的比较的检测,首先应该不同的文档格式统一转换成较为简单的word格式放入论文数据库中,根据分类思想并确定其属性类别,然后在同类的论文集中查找相似的论文。在进行相似度判定时,可以先进行全文比较,主要是根据关键字及摘要分析。经过初步比较,可以筛选出比较相似的若干论文,然后再把每一篇论文与抄袭论文进行逐段比较,主要是根据词频的重复比例。最后,如果判定抄袭则输出抄袭的具体内容,否则输出“无抄袭现象!”的结论。

  整个系统的处理过程流程图如图1所示:

 SHAPE  \* MERGEFORMAT

图1 系统处理流程

  2.2 开发工具的要求

  本系统采用的是Windows操作系统,选用ASP.NET+SQL Server组合以满足系统的需要,确保系统的性能最佳。

  开发工具使用的是Windows2000/XP/2003 server平台的Visual C++6.0和Visual C#2005.NET,测试使用的运行是Wind0WS XP(SP2),处理器是PIV2.0GHz,内存512MB。

  2.3 系统优缺点

  优点:1) 覆盖面广,通过混合引擎覆盖约188亿个网页和490万篇论文。本软件检测结果只能作为一个参考,可以使用表格右键导出详细检查结果发送给被检查本人,本软件不对是否剽窃做结论,只是告诉你与现存文献相似度高于80%的文字比例所占文章总数比例是多少。高于80%相似度的文字才是需要关注的。

  2)规范引文及参考文献去除,降低误判可能性。段落检测机制,将文章的每一文本块与其他文档的相似度都精确的表示出来了,每一文本块约为50字至200字不等(可自定义),以红色表示极度相似(相似度大于80%),一目了然,清晰醒目。当设为50个字一块时,可以在较低信息粒度上查找出可能相似的文献。

  3)相似文档模块跟踪技术,可以通过简单操作直接定位相似文档中哪些内容被引用     

  4)结果分析功能,自动分析文档相似结果,给出评价意见。

  5)多种文件格式支持,包括PDF、DOC、PPT、XLS、TXT等文档。

  6)专有数据文件保存,不用反复检测,浪费时间。

  缺点:1)本论文相似度检测系统不能覆盖世界上所有中英文文献,关于覆盖率与查全率的相关性问题,正在研究中。

  2)检测时间略长,一篇8000字的文档至少耗费约5分钟,需要一点点耐心。 本系统结果存在一个小的误差,用更小的文档块进行检测,可以减少误差,但需要的时间会相应增加,经过多种试用情况,块数大小定为200字较为合适,此时误差率也是可以接受的,文档相似率一般是比实际的要低。

上一篇:高校图书管理系统 下一篇:没有了