目前论文分类法 :
⑴ 词匹配法 词匹配法又可以分为简单词匹配法和基于同义词的词匹配法两种。简单词匹配法是最简单、最直观的文档分类算法,它根据文档和类名中共同出现的词决定文档属于哪些类。很显然,这种算法的分类规则过于简单,分类效果也很差。基于同义词的词匹配法是对简单词匹配法的改进,它先定义一张同义词表,然后根据文档和类名以及类的描述中共
同出现的词(含同义词)决定文档属于哪些类。这种分类算法扩大了词的匹配范围,在性能上要优于简单词匹配法。不过,这种算法的分类规则仍然很机械,而且同义词表的构成是静态的,对文档的上下文不敏感,无法正确处理文档中其具体含义依赖于上下文的词,分类的准确度也很低。
⑵ 基于知识工程的方法 基于知识工程的文档分类方法,需要知识工程师手工地编制大量的推理规则,这些规则通常面向具体的领域,当处理不同领域的分类问题时,需要不同领域的专家制定不同的推理规则,而且分类质量严重依赖于推理规则的质量。因此,在实际的分类系统中较少使用基于知识工程的学习法。
⑶ 统计学习法 统计学习法和词匹配法在分类机制上有着本质的不同。它的基本思路是先收集一些与待分类文档同处一个领域的文档作为训练集,并由专家进行人工分类,保证分类的准确性,然后分析这些已经分好类的文档,从中挖掘关键词和类之间的联系,最后再利用这些学到的知识对文档分类,而不是机械地按词进行匹配。因此,这种方法通常忽略文档的语言学结构,而用关键词来表示文档,通过有指导的机器学习来训练分类器,最后利用训练过的分类器来对待分类的文档进行分类。这种基于统计的经验学习法由于具有较好的理论基础、简单的实现机制、以及较好的文档分类质量等优点,目前实用的分类系统基本上都是采用这种分类方法。
4 数据库设计
4.1 框架结构
根据设计目标,本文提出基于web的论文相似度比较系统框架模型,该系统框架模型分为3 个层次:论文映射层,论文表示层和论文访问层。
SHAPE \* MERGEFORMAT
图5:系统结构框架
(1) 论文映射层 要将数据库映射到文档本身,首先要建立数据库模式和文档之间的映射关系,该语义映射关系以语义元数据的形式来表示。数据库模式是二元模型,是由主键和外键建立表之间的关系。
(2) 论文表示层 该层主要负责存储论文,并进行相似度计算,响应。本文采用关系数据库的方式存储论文。另外该层还要提供相似度计算和推理功能,这些都是建立在语义基础上的,因此,还要定义一个语义词典本体,用以描述论文所涉及到的各专业词汇之间的语义关系
(3) 论文访问层论文访问是通过门户来实现的。门户是面向各类用户提供综合服务的窗口,门户是系统用户的统一入口。系统门户应该集成论文管理、论文相似度检测、论文查询处理等功能。论文查询处理应包含传统的文献检索功能,另外还应该实现智能检索功能,即能根据用户的检索条件,进行语义推理,检索出与检索条件具有相同语义信息的文献。因此,对
用户通过门户提出搜索请求,该功能模块需要对搜索条件作必要的语义推理、重写、分解以及优化检索条件,搜索语义数据。随着语义网的发展,W3C 推荐的语义搜索引擎的检索语言SPARQL 已经成为标准。因此,系统将采用SPARQL 语言来对论文进行查询。不管用户采用何种方式和门户的论文查询模块进入。