浅析搜索引擎的原理及发展前景(2)
作者:佚名; 更新时间:2014-12-05
,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。搜索引擎越来越不能满足挑剔的网民们的各种信息需求,这表现在以下几个方面:
收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。用户经常无法打开查询的结果。网络信息时刻变动,实时搜索几乎不可能。就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。网络信息收集与整理是搜索引擎工作的重要一部分。搜索引擎需要定期不断地访问网络资源。目前网络带宽不足,网络速度不够理想,遍历如此庞杂的网络时间花费是非常庞大的,这就是不能实时搜索的原因。
对多媒体内容的处理尚不成熟。迄今为止,搜索对象主要是文本。基于语义的多媒体搜索技术还不成熟,比如搜索图片时还只能通过周围相关的文字进行判断,而无法根据图片本身的信息提供检索。多媒体技术的发展,对搜索引擎提出了更多的要求。人们期望引擎不仅能挑出自己需要的文章,还能挑出自己所关心的图片、电影、音乐等。
搜索引擎的“智能” 有待提高。 一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。譬如既能处理HTML(Hyper Text Markup Language,超文本标志语言),又能处理SGML(Standard for General Markup Language,通用标志语言标准)和XML(Extended Marked Language,扩展标志语言)文档以及其他类型的文档,譬如Word、WPS等。智能搜索引擎应该可以支持多语言搜索。
搜索引擎应更好地支持动态网页,许多蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大事所趋,解决动态网页查找的问题已经迫在眉睫。
如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。
5 特色搜索引擎
在网络信息多样化和网络用户多样化的呼唤下,人们希望在网络上找到更丰富更实用的资源,不再漫无目的地查找,特色搜索引擎便应运而生了。
寻人搜索引擎。如果您想在网上寻找一位老朋友,那么可以考虑使用Yahoo提供的寻人搜索引擎()。由于Yahoo的用户群极为庞大,大多数网民都拥有或曾经拥有Yahoo的账户,另外其国际化特征明显,用户群包含了全世界各国的网民。因此,它应该是大范围寻人的较好选择。尤其当您寻找的人正好在某些非英语国家,找不到专门的搜索引擎,Yahoo的优势就更为明显。
图像搜索引擎。图像搜索引擎虽然还没有成熟的产品,但是这项研究工作却紧锣密鼓的进行着。据称,美国Purdue大学的研究人员已经开发出了一种新的搜索引擎,这种搜索引擎不再使用关键词文本进行搜索,而是使用图像或者草图进行搜索。不就的将来,用户自己画一幅草图,搜索引擎就可以对数据库进行搜索,并找到所有与草图类似的图像。不过,这要求图像搜索引擎能够快速处理超大容量数据库。这种技术不仅为网民提供了方便,在生物、化学、医学等领域都可能发挥极大的作用。
多媒体搜索引擎。FAST()是国外著名的多媒体搜索引擎,很多同类搜索引擎都会引用此引擎的内容。在FAST搜索多媒体文件,您可以同时搜索图像、音频、视频等多种格式的多媒体文件,图像支持JPEG、GIF、BMP三种格式,音频支持MP3、Wave、AIFF、RealAudio、MIDI五种格式,视频支持AVI、DivX、QuickTime、MPEG四种。FAST为每一个搜索结果提供预览和说明,同时还有可供下载的直接链接,以及该文件所在网站的地址。
房产地图搜索引擎。房产地图搜索引擎是结合地理信息系统(GIS)、数据库系统(DBMS)和动态Web软件技术开发研制,可以通过智能化地理信息分析查找特定范围内的特定目标。例如用户可以选择购房愿望:价格、面积、户型、房屋布局、地理位置、周边商业、交通、自然环境、小区状况等,在互联网上进行查询。引擎立即会将所有满足条件的房源显示出来,并可以任意放大、缩小、移动房源地图。
美国华盛顿大学科学家正在研究一种新型搜索引擎——一搜得(Know It All ),它能像拖网一样“捞到”所需资料网页,然后以目录表格形式将其进行整理。目前的搜索引擎使用起来其实并不“方便”。如果上网用搜索引擎查找和搜集想要的内容,将是一件十分单调乏味的工作,因为你必须访问大量网页,检索大量资料数据。但新一代搜索引擎技术将有可能仅“按一次”鼠标,就能找出你想查找的内容。它的研发者埃齐奥尼说:“这种方法很奇特,它可将一大堆网页中的有关信息以目录表格的形式放在一个单一网页上。”他们的最终目标是让“Know It All ”能回答诸如“列表指出1900年以前出生的全英科学家”这样的问题。
搜索引擎的存在使得每个人与任何问题的答案之间的距离只有点击一下鼠标那么远。搜索引擎改变了我们上网的习惯,改变了我们工作方式甚至是生活方式。搜索引擎正在不断创造奇迹,而我们正在享受着奇迹。
【参考文献】
[1] 张兴华.搜索引擎技术及研究[J].现代情报,2004,(4).
[2] 唐铭杰.论搜索引擎的发展概况及发展趋势[J].情报杂志,2001,(5).
[3] 阳小华.分布式WWW信息收集技术[J].计算机工程与应用,2000,(5).
收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。用户经常无法打开查询的结果。网络信息时刻变动,实时搜索几乎不可能。就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。网络信息收集与整理是搜索引擎工作的重要一部分。搜索引擎需要定期不断地访问网络资源。目前网络带宽不足,网络速度不够理想,遍历如此庞杂的网络时间花费是非常庞大的,这就是不能实时搜索的原因。
对多媒体内容的处理尚不成熟。迄今为止,搜索对象主要是文本。基于语义的多媒体搜索技术还不成熟,比如搜索图片时还只能通过周围相关的文字进行判断,而无法根据图片本身的信息提供检索。多媒体技术的发展,对搜索引擎提出了更多的要求。人们期望引擎不仅能挑出自己需要的文章,还能挑出自己所关心的图片、电影、音乐等。
搜索引擎的“智能” 有待提高。 一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。譬如既能处理HTML(Hyper Text Markup Language,超文本标志语言),又能处理SGML(Standard for General Markup Language,通用标志语言标准)和XML(Extended Marked Language,扩展标志语言)文档以及其他类型的文档,譬如Word、WPS等。智能搜索引擎应该可以支持多语言搜索。
搜索引擎应更好地支持动态网页,许多蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大事所趋,解决动态网页查找的问题已经迫在眉睫。
如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。
5 特色搜索引擎
在网络信息多样化和网络用户多样化的呼唤下,人们希望在网络上找到更丰富更实用的资源,不再漫无目的地查找,特色搜索引擎便应运而生了。
寻人搜索引擎。如果您想在网上寻找一位老朋友,那么可以考虑使用Yahoo提供的寻人搜索引擎()。由于Yahoo的用户群极为庞大,大多数网民都拥有或曾经拥有Yahoo的账户,另外其国际化特征明显,用户群包含了全世界各国的网民。因此,它应该是大范围寻人的较好选择。尤其当您寻找的人正好在某些非英语国家,找不到专门的搜索引擎,Yahoo的优势就更为明显。
图像搜索引擎。图像搜索引擎虽然还没有成熟的产品,但是这项研究工作却紧锣密鼓的进行着。据称,美国Purdue大学的研究人员已经开发出了一种新的搜索引擎,这种搜索引擎不再使用关键词文本进行搜索,而是使用图像或者草图进行搜索。不就的将来,用户自己画一幅草图,搜索引擎就可以对数据库进行搜索,并找到所有与草图类似的图像。不过,这要求图像搜索引擎能够快速处理超大容量数据库。这种技术不仅为网民提供了方便,在生物、化学、医学等领域都可能发挥极大的作用。
多媒体搜索引擎。FAST()是国外著名的多媒体搜索引擎,很多同类搜索引擎都会引用此引擎的内容。在FAST搜索多媒体文件,您可以同时搜索图像、音频、视频等多种格式的多媒体文件,图像支持JPEG、GIF、BMP三种格式,音频支持MP3、Wave、AIFF、RealAudio、MIDI五种格式,视频支持AVI、DivX、QuickTime、MPEG四种。FAST为每一个搜索结果提供预览和说明,同时还有可供下载的直接链接,以及该文件所在网站的地址。
房产地图搜索引擎。房产地图搜索引擎是结合地理信息系统(GIS)、数据库系统(DBMS)和动态Web软件技术开发研制,可以通过智能化地理信息分析查找特定范围内的特定目标。例如用户可以选择购房愿望:价格、面积、户型、房屋布局、地理位置、周边商业、交通、自然环境、小区状况等,在互联网上进行查询。引擎立即会将所有满足条件的房源显示出来,并可以任意放大、缩小、移动房源地图。
美国华盛顿大学科学家正在研究一种新型搜索引擎——一搜得(Know It All ),它能像拖网一样“捞到”所需资料网页,然后以目录表格形式将其进行整理。目前的搜索引擎使用起来其实并不“方便”。如果上网用搜索引擎查找和搜集想要的内容,将是一件十分单调乏味的工作,因为你必须访问大量网页,检索大量资料数据。但新一代搜索引擎技术将有可能仅“按一次”鼠标,就能找出你想查找的内容。它的研发者埃齐奥尼说:“这种方法很奇特,它可将一大堆网页中的有关信息以目录表格的形式放在一个单一网页上。”他们的最终目标是让“Know It All ”能回答诸如“列表指出1900年以前出生的全英科学家”这样的问题。
搜索引擎的存在使得每个人与任何问题的答案之间的距离只有点击一下鼠标那么远。搜索引擎改变了我们上网的习惯,改变了我们工作方式甚至是生活方式。搜索引擎正在不断创造奇迹,而我们正在享受着奇迹。
【参考文献】
[1] 张兴华.搜索引擎技术及研究[J].现代情报,2004,(4).
[2] 唐铭杰.论搜索引擎的发展概况及发展趋势[J].情报杂志,2001,(5).
[3] 阳小华.分布式WWW信息收集技术[J].计算机工程与应用,2000,(5).
热门论文