基于WEB的论文相近度的比较系统(2)
作者:佚名; 更新时间:2014-12-05

  2.1 总体设计基本思路

  对于论文相似的比较的检测,首先应该不同的文档格式统一转换成较为简单的word格式放入论文数据库中,根据分类思想并确定其属性类别,然后在同类的论文集中查找相似的论文。在进行相似度判定时,可以先进行全文比较,主要是根据关键字及摘要分析。经过初步比较,可以筛选出比较相似的若干论文,然后再把每一篇论文与抄袭论文进行逐段比较,主要是根据词频的重复比例。最后,如果判定抄袭则输出抄袭的具体内容,否则输出“无抄袭现象!”的结论。

  整个系统的处理过程流程图如图1所示:

 SHAPE  \* MERGEFORMAT

基于WEB的论文相近度的比较系统

图1 系统处理流程

  2.2 开发工具的要求

  本系统采用的是Windows操作系统,选用ASP.NET+SQL Server组合以满足系统的需要,确保系统的性能最佳。

  开发工具使用的是Windows2000/XP/2003 server平台的Visual C++6.0和Visual C#2005.NET,测试使用的运行环境是Wind0WS XP(SP2),处理器是PIV2.0GHz,内存512MB。

  2.3 系统优缺点

  优点:1) 覆盖面广,通过混合引擎覆盖约188亿个网页和490万篇论文。本软件检测结果只能作为一个参考,可以使用表格右键导出详细检查结果发送给被检查本人,本软件不对是否剽窃做结论,只是告诉你与现存文献相似度高于80%的文字比例所占文章总数比例是多少。高于80%相似度的文字才是需要关注的。

  2)规范引文及参考文献去除,降低误判可能性。段落检测机制,将文章的每一文本块与其他文档的相似度都精确的表示出来了,每一文本块约为50字至200字不等(可自定义),以红色表示极度相似(相似度大于80%),一目了然,清晰醒目。当设为50个字一块时,可以在较低信息粒度上查找出可能相似的文献。

  3)相似文档模块跟踪技术,可以通过简单操作直接定位相似文档中哪些内容被引用     

  4)结果分析功能,自动分析文档相似结果,给出评价意见。

  5)多种文件格式支持,包括PDF、DOC、PPT、XLS、TXT等文档。

  6)专有数据文件保存,不用反复检测,浪费时间。

  缺点:1)本论文相似度检测系统不能覆盖世界上所有中英文文献,关于覆盖率与查全率的相关性问题,正在研究中。

  2)检测时间略长,一篇8000字的文档至少耗费约5分钟,需要一点点耐心。 本系统结果存在一个小的误差,用更小的文档块进行检测,可以减少误差,但需要的时间会相应增加,经过多种试用情况,块数大小定为200字较为合适,此时误差率也是可以接受的,文档相似率一般是比实际的要低。

核心期刊快速发表
Copyright@2000-2030 论文期刊网 Corporation All Rights Reserved.
《中华人民共和国信息产业部》备案号:ICP备07016076号;《公安部》备案号:33010402003207
本网站专业、正规提供职称论文发表和写作指导服务,并收录了海量免费论文和数百个经国家新闻出版总署审批过的具有国内统一CN刊号与国际标准ISSN刊号的合作期刊,供诸位正确选择和阅读参考,免费论文版权归原作者所有,谨防侵权。联系邮箱:256081@163.com