论文关键词:数字图书馆 信息检索 基于内容的多媒体检索?
论文摘 要:数字图书馆的迅猛发展使得多媒体信息资源的组织与管理成为数字图书馆发展的一个关键性问题,而多媒体信息检索技术也就成为数字图书馆中的核心技术,因而在数字图书馆中引入基于内容的多媒体检索技术成为了必要。?
1 基于内容的多媒体检索原理?
传统的多媒体检索技术,主要是通过对多媒体进行人工分析,对多媒体物理特征和内容特征进行文字著录或标引,建立类似于文本文献的标引著录数据库,并通过检索这些数据库以获得多媒体编号,进而利用这些编号索取实际多媒体。这种检索技术存在不足:①特征不具有代表性,信捷职称论文写作发表网,带有主观性;②人工处理速度慢;③特征信息得不到充分利用;④结果信息提取慢。基于此原因有必要研究基于内容特征的检索(CBR,Content-Based Retrieval ) ,克服传统检索方法的不足,提高多媒体检索效率。CBR是指直接根据描述媒体对象内容的各种特征(如图像颜色,纹理,形状等)进行检索,它能从数据库中查找到具有指定特征或含有特定内容的图像(包括视频片段),区别于传统的基于关键字的检索手段,融合了多媒体理解、模式识别等技术。一般说来,基于内容的图像信息检索主要是根据图像的颜色、纹理、形状开展;而对视频信息检索主要通过对视频分割、视频聚类、关键帧抽取、运动特性抽取、最后完成视频检索。数字图书馆拥有海量多媒体信息资源,只有充分利用基于内容的多媒体检索技术,才能挖掘海量资源库中的信息资源,为广大读者服务。?
2 基于内容的多媒体检索分类及检索方法?
根据检索对象的不同,基于内容的多媒体检索又可以分为基于内容的文本检索、基于内容的图像检索、基于内容的视频检索和基于内容的音频检索四种检索。?
2.1 文本检索?
基于内容的文本检索是涉及文档内容查询的检索技术。其检索模型的构造是基于内容文本信息检索的核心技术,包含3个方面的内容:文档与用户查询的表示、查询匹配策略和匹配结果的相关度表示。典型的文本检索模型又分为布尔模型、向量空间模型和概率模型3种。?
2.1.1 布尔模型(Boolean Model)?
该模型将文档中的特征简单地表示成二元变量,某特征词出现则为1,否则标识为0。文档的相似度则基于布尔量进行计算。该模型有点是简单、速度快,缺点是不够精确,不能反映不同“项目”对一个文档的重要程度的差异。后来陆续有学者针对布尔模型不足,提出改进算法即扩展的布尔模型。?
2.1.2 向量空间模型(Vector Space Model,VSM)?
该模型也称为词袋(Bag of Words,BOW)表示法,该表示法有一个关键假设,即文章中词条出现的先后次序是无关紧要的,个特征词对应特征空间的一维,将文本表示成欧氏空间的一个向量。该模型思想是将文档D(Document)看作是由一定代表性的特征项组成;而特征项t(Term)是指出现在文档中能够代表文档性质的基本语言单(如字、词等),也就是通常所指的检索词。这样一个文档D就可以表示为?D(t-1,t-2,…,t-n),t-i(I=1,2,…n?)表示文档的一个特征项。?
2.1.3 概率模型(Probablistic Model)?
该模型考虑词项、文档之间的内在关联,依据关联信息计算文档类别归属大小,据此推算文档类别。?
布尔模型和向量空间模型都将文档表示词条视为相互独立的项,忽略了表示词条间的关联性。概率模型则考虑到词条、文档间的内在联系,利用词条间和词条与文档之间的概率依赖性进行信息检索。其中二值独立检索模型(BIR)是一种实现简单且效果很好的概率检索模型。概率推理网络是一种新型的检索模型,它模拟人脑的推理思维模式,将文档内容与用户查询匹配的过程转化为一个从文档到查询的推理过程。?
2.2 图像检索?
基于内容的图像信息检索主要根据图像的特征进行,一般地,图像特征包括:①图像的画面内容特征(如图像颜色分布、纹理结构、形状等) ;②图像的主题对象特征(如图像所描述的人、车、建筑等) ;③图像的著录特征(如作者、时间、地点等) ;④图像的移动和组合特征(如影象中的场景) 。目前对图像内容检索研究比较多的是基于图像的颜色、纹理、形状等特征开展的,下面重点论述此三方面的检索。?
2.2.1 基于颜色特征的图像检索?
颜色是一种重要的视觉信息属性,在图像索引与检索中是一种很有用的特征。相对于其他特征,颜色特征非常稳定,具有对旋转、平移、尺度变化、各种形变不敏感特性,而且颜色特征计算简单。因此,颜色特征成为现有检索系统中应用最广泛的特征。较早从事颜色特征进行图像检索的方法是直方图,通过统计各不同灰度值的图像像素数量,达到对图像的信息描述。?
2.2.2 基于纹理特征的图像检索?
纹理描述了图像或图像区域所对应的景物的表面性质。包括表面结构组织及其与周围环境关系的许多重要信息,纹理特征是一种统计特征,具有旋转不变性,并具有较强的抗噪音能力。一般地,体现图像纹理特征的具体指标有均匀度、对比度、方向,其中均匀度反映纹理的尺寸,对比度反映纹理清晰度,方向反映实体是否有规则的方向性。?
2.2.3 基于形状特征的图像检索?
基于形状检索基本上是从形状的轮廓特征和形状的区域特征来建立图像的索引,主要有形状轮廓特征和形状区域特征两重描述。形状轮廓特征主要包括:直线段描述、样条拟合曲线、傅立叶描述子、内角直方图、高斯参数曲线等。而形状区域特征主要包括:形状的无关矩、区域的面积、形状的纵横比等。?
2.3 视频检索?
视频检索实际上属于图像的检索。视频除了具有一般静态图像的特征外,还具有动态性,如镜头运动的变化、运动目标的大小变化、视频目标的运动轨迹等,所以视频又称动态图像,是一组图像按时间的有序连续表现,它的表示与图像序列、时间关系有关。视频数据可用幕、场景、镜头、帧等描述。视频序列主要有镜头组成;镜头由一系列连续的帧组成;帧是一幅静态的图像,是组成视频的最小单位;场景含有多个镜头;幕是由一系列的相关场景组成,表示以完整的事件。视频检索的前提是需要利用可视化特征视频数据建立有效的索引。?
2.4 音频检索?
音频就是对声音数字化后得到的结果。音频一般采用音量、音调、音强、带宽、音长和音色等属性来描述。其中音量、音调、音强、带宽和音长等属性易于通过技术手段进行量化建模,而对音色的处理却相对复杂,对其进行分析和捕捉较为困难。音频检索同视频检索相类似,音频特征随时间而动态变化,分析时计算不同时间段的声波信号的波形,并将波形的均值、方差和自相关系数等记录在波形数据库中。对音频数据进行采样、帧抽取后,运用方差分析等统计方法对音调、音量、音强等音频特征进行量化,并在音频数据库中记录这些量化值,形成索引树,在检索时可以利用这些特征进行示例和指定特征查询。?
参考文献:?
[1] 黄如花,王梅,黄晓斌.数字图书馆原理与技术[M].武汉:武汉大学出版社,2005.
[2] 吴玉萍.基于文本的多媒体检索与基于内容的多媒体检索的比较[J].信息科学.2007(5).?
[3] 管计锁,梁胜利.数字图书馆的信息检索技术[J].图书馆理论与实践.2001(4).?
[4] 翟中文.基于内容的多媒体信息检索技术研究[J].河南图书馆学刊.2005(25).?
[5] 罗德勇,明海.数字图书馆中基于内容的多媒体检索研究[J].情报检索.2003(1).?
[6] 徐建华.一种新型的多媒体检索技术—基于内容的检索[J].情报学报.2000(19).?
[7] 黄蕾.多媒体数据基于内容检索综述[J].情报探索.2000(4).?
[8] 李敏.论数字图书馆的信息检索技术[J].津图学刊.2003(3).?
[9] 徐建华.一种新型的多媒体检索技术——基于内容的检索[J].情报学报.2000(19).?
[10] 杨慕莲,张芳芳.论数字图书馆中的多媒体信息系统的构建[J].咸宁学院学报.2004(5).?
[11] 黄蕾.多媒体数据基于内容检索综述[J].情报探索.2000(4).