对于论文相似的比较的检测,首先应该不同的文档格式统一转换成较为简单的word格式放入论文数据库中,根据分类思想并确定其属性类别,然后在同类的论文集中查找相似的论文。在进行相似度判定时,可以先进行全文比较,主要是根据关键字及摘要分析。经过初步比较,可以筛选出比较相似的若干论文,然后再把每一篇论文与抄袭论文进行逐段比较,主要是根据词频的重复比例。最后,如果判定抄袭则输出抄袭的具体内容,否则输出“无抄袭现象!”的结论。
整个系统的处理过程流程图如图1所示:
SHAPE \* MERGEFORMAT
图1 系统处理流程
2.2 开发工具的要求本系统采用的是Windows操作系统,选用ASP.NET+SQL Server组合以满足系统的需要,确保系统的性能最佳。
开发工具使用的是Windows2000/XP/2003 server平台的Visual C++6.0和Visual C#2005.NET,测试使用的运行环境是Wind0WS XP(SP2),处理器是PIV2.0GHz,内存512MB。
2.3 系统优缺点优点:1) 覆盖面广,通过混合引擎覆盖约188亿个网页和490万篇论文。本软件检测结果只能作为一个参考,可以使用表格右键导出详细检查结果发送给被检查本人,本软件不对是否剽窃做结论,只是告诉你与现存文献相似度高于80%的文字比例所占文章总数比例是多少。高于80%相似度的文字才是需要关注的。
2)规范引文及参考文献去除,降低误判可能性。段落检测机制,将文章的每一文本块与其他文档的相似度都精确的表示出来了,每一文本块约为50字至200字不等(可自定义),以红色表示极度相似(相似度大于80%),一目了然,清晰醒目。当设为50个字一块时,可以在较低信息粒度上查找出可能相似的文献。
3)相似文档模块跟踪技术,可以通过简单操作直接定位相似文档中哪些内容被引用
4)结果分析功能,自动分析文档相似结果,给出评价意见。
5)多种文件格式支持,包括PDF、DOC、PPT、XLS、TXT等文档。
6)专有数据文件保存,不用反复检测,浪费时间。
缺点:1)本论文相似度检测系统不能覆盖世界上所有中英文文献,关于覆盖率与查全率的相关性问题,正在研究中。
2)检测时间略长,一篇8000字的文档至少耗费约5分钟,需要一点点耐心。 本系统结果存在一个小的误差,用更小的文档块进行检测,可以减少误差,但需要的时间会相应增加,经过多种试用情况,块数大小定为200字较为合适,此时误差率也是可以接受的,文档相似率一般是比实际的要低。