论文关键词:相似度 分类 特征选择 段落词频
论文摘要: 本课题主要针对毕业设计文档中存在的雷同现象进行了相似度判别算法的研究。分析了当前论文检测与识别系统的不足之处,并给出一种比较实用的基于分类思想的论文抄袭判定系统的设计思路。系统先对待查论文进行分类,然后通过与同类论文全文相似度计算初步筛选出相似论文集,接着待查论文与每篇相似论文再进行基于段落词频统计的精确比较,最后输出结论。
通过对一定资料的研究分析可以预测出,该系统对较短的文档能够完成大多数情况的相似度判定,可以在一定程度上满足文档的进行相似度判别的要求。但在日后该系统的具体设计中的还有一些不明确的问题,例如在核心算法上还需要深入研究才能做好下一阶段的系统具体设计。
1引言
1.1系统的研究现状
电子学术资源获取的便利性为学术论文的抄袭、非法扩散等不道德行为提供了方便,必须进行学术论文非法复制的防止和检测。论文相似度识别如仅靠人工来做,工作量巨大,效果也无法保证。近年来,我国学术论文的抄袭与剽窃事件频发,学风问题已成为全社会关注的焦点。《现代汉语词典》对抄袭的定义是: “把别人的作品或语句抄来当作自己的”。在学术著作中,“抄袭是指将他人作品或者作品的片段窃为己有。”准确地说,抄袭是指将他人作品或者作品的片段窃为己有并公开发表‘“。对于论文抄袭的界定笔者认为主要分为两种情况:一是论点抄袭,即抄袭他人的论点,自己另行论证,虽然内容不同,但仍应判定为抄袭;二是内容袭,即只要抄袭论文中有一定比例或具体字数的文字与被抄袭论文相同,就认定抄袭成立。19年文化部发布《图书、期刊版权保护实施条例实施细则》第15条规定:“引用非诗词类作品不得超过两千五百字或被引用作品的十分之一,如果多次引用同一部长篇非诗词类作品,总字数不得超一万字”;“凡引用一人或多人的作品,所引用的总量不得超过本人创作作品总量的十分之一,但专题评论文章和古体诗词除外”。
1.2 相关工作学术论文抄袭的形式和手段多种多样,包括直接将他人论文全盘复制,只改动题目和署名;东拼西凑,抄袭多篇论文的部分段落和语句;抄袭论文的图、表与公式等。这里只讨论文字部分的抄袭判定。论文复制检测是针对学术论文的文本复制检测,其核心任务是判断论文文本之间的相似度。文本复制检测技术产生于20 世纪末,已有很多典型的系统。根据其采用的算法,可分为2 类:基于数字指纹的字符串匹配方法的系统和基于词频统计的相似度计算方法的系统。前者有SIF, COPS,KOALA, hingling, MDR 等系统,后者有SCAM, DSCAM,CHECK, CDSDG等系统。
目前,对于论文相似度的判定主要采取数字指纹方法和词频统计方法。数字指纹方法,基本思路是将从文档中选取一些字符串,这些字符串被称为“指纹”(fingerprint)。然后把指纹映射:至lJHash表中,一个指纹对应一个数字。最后统计Hash表中相同的指纹数目或者比率,作为文本相似度依据。词频统计法则是采用空间模型(VSM)来表示,在模型中,论文空问被看作由一组独立词条所组成的向量空间,每个论文表示为一个特征向最进行相似度计算,常采用的计算公式包括点积法和余弦法。
现有的检测或者判定系统大多只能处理全文抄袭或大篇幅抄袭等情况,对于个别段落的抄袭,尤其是从多篇文章进行段落摘抄的情况容易被疏漏。另外,在基于段落相似度比较判定时,由于很多情况下抄袭者也不是整段一字不动的抄袭,有的是调整语序、有的摘抄段落的一部分、还有的是对某些段落进行合并、扩充或者压缩等,所以判定时很容易漏查或误查。针对以上情况,本人设计了一个基于分类思想的论文相似度比较系统,可以在分类结果的基础上比较精确的进行相似度比较,并输出相似度较高的具体内容。
2系统的总体设计本文根据中文学术论文的特点,设置用户登录模式,把论文相似度比较系统系统核心部分分为两大模块:一、文档的录入管理;二、文档的相似度比较。
针对目前文本相似度比较系统的不足,本文提出基于web的分类思想论文相近度比较系统的几个基本设计目标:
(1) 集成各种异构论文库,例如中国学术期刊网、万方数字化资源系统和中国知网的论文库,并能适配多种格式的论文。
(2) 相似度比较要综合考虑语义相似性,有自然语言识别能力。在论文相似度比较系统中加入本体技术,将论文领域本体作为语义理解的基础,可在一定程度上实现自然语言的识别。
(3) 提供一个统一的查询模型。用户通过统一的查询模型,透明的从各个异构的论文库检索论文。
(4) 由于系统是基于分类思想和段落比较的,应有能力为用户提供友好的、准确的检索请求表达方式,而不是让用户去根据需求查找。