相似点:有特定的检索需求;有独立的情报研究机构和情报研究人员;有比较完善的主题词表;有相对完善、独立的数据库;有专业词典。不同点:没有开展过类似的研究;没有一体化的语言系统;没有专门的人机交互系统;保密要求,不能及时获取全部文献;政治原因,人工处理,消除文献间联系。
3.2发现流程及关键技术分析
分析Swanson知识发现方法的原理和Arrowsmith系统工作原理,可将非相关文献知识发现流程分为5个步骤(见图2)。
第一步:主题确定。即确定初始检索词,依据何种主题词表选取初始检索词;是否对文献类型进行限定;确定初始文献集选取范围等。第二步:发现中间词集。具体包括自然语言处理、相关性判定、过滤修剪、确定非相关性几个方面。自然语言处理主要是建立通用语言知识库和专业语言知识库,用于自动抽词、分词。相关性判定可依据词共现、概念共现或二者相结合的方式来选取中间词,此部分算法的改进是学者研究的重点。过滤修剪有很多方法,如停用词表过滤、语义网络过滤、词频过滤、日期过滤、排序过滤、人工过滤,等等,确定非相关性可利用引文分析法。第三步:找出关联词集。与发现中间词集方法类似。第四步:验证关联。利用闭合式知识发现原理进行验证。第五步:判定过程结束。可通过设定阈值、统计参数限定或发现不到新概念作为结束发现过程的标志。
综上所述,无论是在生物医学领域还是航天领域应用非相关文献知识发现方法,其原理与技术是相同的,如果建立起相应的语义映射机制,设计算法,在航天领域应用非相关文献知识发现方法进行情报研究是完全可行的。
4可行性验证
为了验证非相关文献知识发现方法在航天领域应用的可行性,人工模拟验证了等离子体技术应用于飞行器隐身方面的知识发现过程。
·背景:20世纪60年代起,苏联开始研究新型飞行器隐身技术,到80年代左右取得一定进展。美国于20世纪90年代也开始了相应研究,研究成果处于保密。假定1995年左右,希望通过非相关文献知识发现方法发现有价值的研究方向。
·数据库选取:鉴于技术的保密性,航天领域专用数据库中难以检索到有价值的文献。因此选取IEE出版的INSPEC数据库进行检索。该数据库收录了包括物理、电子工程和信息技术等领域的3500余种期刊,1500余种会议记录以及大量图书、报告、学位论文的摘要和索引。
·检索平台:THOMSONISI公司的Webof Knowledge平台。
·检索时间段:1967-1994年。
·初始主题词(C):StealthMaterial(隐身材料)。
·检索方式:主题检索、通用检索。