基于WEB的论文相近度的比较系统(2)

作者：佚名；更新时间：2014-12-05

　　2.1 总体设计基本思路

　　对于论文相似的比较的检测，首先应该不同的文档格式统一转换成较为简单的word格式放入论文数据库中，根据分类思想并确定其属性类别，然后在同类的论文集中查找相似的论文。在进行相似度判定时，可以先进行全文比较，主要是根据关键字及摘要分析。经过初步比较，可以筛选出比较相似的若干论文，然后再把每一篇论文与抄袭论文进行逐段比较，主要是根据词频的重复比例。最后，如果判定抄袭则输出抄袭的具体内容，否则输出“无抄袭现象!”的结论。

　　整个系统的处理过程流程图如图1所示：

SHAPE \* MERGEFORMAT

基于WEB的论文相近度的比较系统

图1 系统处理流程

　　2.2 开发工具的要求

　　本系统采用的是Windows操作系统，选用ASP.NET+SQL Server组合以满足系统的需要，确保系统的性能最佳。

　　开发工具使用的是Windows2000／XP／2003 server平台的Visual C++6．0和Visual C#2005．NET，测试使用的运行环境是Wind0WS XP(SP2)，处理器是PIV2．0GHz，内存512MB。

　　2.3 系统优缺点

　　优点：1) 覆盖面广，通过混合引擎覆盖约188亿个网页和490万篇论文。本软件检测结果只能作为一个参考，可以使用表格右键导出详细检查结果发送给被检查本人，本软件不对是否剽窃做结论，只是告诉你与现存文献相似度高于80%的文字比例所占文章总数比例是多少。高于80%相似度的文字才是需要关注的。

　　2）规范引文及参考文献去除，降低误判可能性。段落检测机制，将文章的每一文本块与其他文档的相似度都精确的表示出来了，每一文本块约为50字至200字不等（可自定义），以红色表示极度相似（相似度大于80%），一目了然，清晰醒目。当设为50个字一块时，可以在较低信息粒度上查找出可能相似的文献。

　　3）相似文档模块跟踪技术，可以通过简单操作直接定位相似文档中哪些内容被引用

　　4）结果分析功能，自动分析文档相似结果，给出评价意见。

　　5）多种文件格式支持，包括PDF、DOC、PPT、XLS、TXT等文档。

　　6）专有数据文件保存，不用反复检测，浪费时间。

　　缺点：1）本论文相似度检测系统不能覆盖世界上所有中英文文献，关于覆盖率与查全率的相关性问题，正在研究中。

　　2）检测时间略长，一篇8000字的文档至少耗费约5分钟，需要一点点耐心。本系统结果存在一个小的误差，用更小的文档块进行检测，可以减少误差，但需要的时间会相应增加，经过多种试用情况，块数大小定为200字较为合适，此时误差率也是可以接受的，文档相似率一般是比实际的要低。

上一篇：谈计算机操作系统课程知识体系设计

下一篇：高校图书管理系统