浅析搜索引擎的原理及发展前景
作者:佚名; 更新时间:2014-12-05
[摘 要]文章简述搜索引擎定义和服务方式,及搜索引擎的发展、工作原理和性能指标,分析了搜索引擎面临的挑战,并对特色搜索引擎进行了简要的阐述。
[关键词]搜索引擎;信息检索
信息技术的不断发展,特别是互联网应用的迅速普及,深入到了人们生活的各个方面,改变了人们生活方式和思维方式,方便了全球信息资源共享。全球目前的网页超过100亿,每天新增加数百万网页,电子信息爆炸似的丰富起来。要在如此浩瀚的海洋里寻找信息,就像“大海捞针”一样。能有一种工具使我们可以在不到1秒钟的时间就迅速找到我们想要的内容吗?答案是“有”,这就是搜索引擎。今天,搜索引擎已成为人们在网络信息海洋中自如冲浪必不可少的利器。
搜索引擎(Search Engines)就是指在WWW(World Wide Web)环境中能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统,是互联网上的可以查询网站或网页信息的工具。它包括信息搜集、信息整理和用户查询三部分。搜索引擎的服务方式分为两种:目录服务和关键字检索服务。目录服务是由分类专家将网络信息按照主题分成若干个大类,用户可以根据分类清晰地找到自己所需要的内容。关键字检索服务可以查找包含一个或多个特定关键字或词组的WWW站点。搜索引擎是互联网的第二大核心技术,涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。
1搜索引擎的发展
1990年以前,没有任何人能实现搜索互联网的功能。互联网发展早期,信息量较少,互联网用户多为专业人士,那时查找信息要相对容易。伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的搜索引擎便应运而生了。所有搜索引擎的祖先,都可以追溯到1990年由蒙特利尔McGill大学学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但因为当时网络的主要用途是传输文件,网络中的文件传输还是相当频繁。由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。
1993年,美国内华达System Computing Services大学开发了一个与Archie非常相似的搜索工具,这个搜索工具既能够检索文件也能够检索网页。
1994年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。
1998 年,斯坦福大学的两位博士生 Larry Page 和 Sergey Brin 开发出了现在世界上最大的搜索引擎——Google。通过对 20 多亿网页进行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,信捷职称论文写作发表网,Google 每天需要为世界各国用户提供 1.5 亿次查询服务。
1997年10月29日,北大天网正式在CERNET上向广大Internet用户提供Web信息导航服务,它是由北大计算机系网络与分布式系统研究室开发的国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,受到学术界广泛好评。
2000年1月,两位北大校友,前Infoseek资深工程师李彦宏与加州大学伯克利分校博士后徐勇在北京中关村创立了百度(Baidu)公司。历经5年的高速发展后,在近两年时间里,百度高居全球网站流量前八名的位置,已经成为全球十大网站之一。百度每天接受着超过一亿人次来自各个方面的内容检索请求,中国9400万网民几乎每天使用1次百度。“有问题百度一下”已经成为中国网络流行语之一。
2002年,中国搜索(原慧聪搜索)正式进入中文搜索引擎市场。在一年多的时间里,就发展为全球著名的中文搜索引擎服务商,为新浪、搜狐、网易、TOM等知名门户网站提供搜索引擎技术。慧聪搜索引擎的优势是从人工审核网站信息源和设置禁查词两个方面入手,有效地过滤了不良信息,降低了垃圾信息的含量。在互联网实时新闻搜索方面,慧聪也实现了网络新闻的实时检索。
2 搜索引擎的工作原理
简单的说,搜索引擎是通过从互联网上提取的各个网站的信息来建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
根据搜索引擎提取数据的方法,可将搜索引擎系统可以分为三大类:
2.1目录式搜索引擎:是一种网站级搜索引擎。目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,一般的搜索引擎分类体系有五六层,有的甚至十几层。先由程序自动搜集信息,然后由编辑员查看信息,人工形成信息摘要,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo就是这类搜索引擎的代表。
2.2机器人搜索引擎:Robot(机器人)一词大家并不陌生,Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。搜索引擎主动派出称为蜘蛛(Spider)的机器人程序定期搜索(比如Google一般是28天),对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。Google、北大天网、百度(Baidu)就是这类搜索引擎的代表。
2.3元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。第一个元搜索引擎,是美国华盛顿大学硕士生Eric Selberg 和 Oren Etzioni 开发的 Metacrawler。元搜索引擎的搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。ByteSearch()、Mamma()、Profusion()就是这类搜索引擎的代表。
3 搜索引擎的性能指标
搜索引擎的目标就是在非常短的时间内搜索的信息全面并且准确。传统信息检索系统的性能参数——召回率和精度同样也可以衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低;精度高时,召回率低。因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。对于网民来说,互联网上的信息不是不够,而是“过剩”,如何精确查找到信息是大家所关心的问题。因此,目前的搜索引擎系统都非常关心精度。
4 搜索引擎面临的挑战
目前搜索引擎是网络上被使用频率最高的服务项目之一。随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。国际数据公司(IDC)曾公布的一份报告表明,被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大
[关键词]搜索引擎;信息检索
信息技术的不断发展,特别是互联网应用的迅速普及,深入到了人们生活的各个方面,改变了人们生活方式和思维方式,方便了全球信息资源共享。全球目前的网页超过100亿,每天新增加数百万网页,电子信息爆炸似的丰富起来。要在如此浩瀚的海洋里寻找信息,就像“大海捞针”一样。能有一种工具使我们可以在不到1秒钟的时间就迅速找到我们想要的内容吗?答案是“有”,这就是搜索引擎。今天,搜索引擎已成为人们在网络信息海洋中自如冲浪必不可少的利器。
搜索引擎(Search Engines)就是指在WWW(World Wide Web)环境中能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统,是互联网上的可以查询网站或网页信息的工具。它包括信息搜集、信息整理和用户查询三部分。搜索引擎的服务方式分为两种:目录服务和关键字检索服务。目录服务是由分类专家将网络信息按照主题分成若干个大类,用户可以根据分类清晰地找到自己所需要的内容。关键字检索服务可以查找包含一个或多个特定关键字或词组的WWW站点。搜索引擎是互联网的第二大核心技术,涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。
1搜索引擎的发展
1990年以前,没有任何人能实现搜索互联网的功能。互联网发展早期,信息量较少,互联网用户多为专业人士,那时查找信息要相对容易。伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的搜索引擎便应运而生了。所有搜索引擎的祖先,都可以追溯到1990年由蒙特利尔McGill大学学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但因为当时网络的主要用途是传输文件,网络中的文件传输还是相当频繁。由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。
1993年,美国内华达System Computing Services大学开发了一个与Archie非常相似的搜索工具,这个搜索工具既能够检索文件也能够检索网页。
1994年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。
1998 年,斯坦福大学的两位博士生 Larry Page 和 Sergey Brin 开发出了现在世界上最大的搜索引擎——Google。通过对 20 多亿网页进行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,信捷职称论文写作发表网,Google 每天需要为世界各国用户提供 1.5 亿次查询服务。
1997年10月29日,北大天网正式在CERNET上向广大Internet用户提供Web信息导航服务,它是由北大计算机系网络与分布式系统研究室开发的国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,受到学术界广泛好评。
2000年1月,两位北大校友,前Infoseek资深工程师李彦宏与加州大学伯克利分校博士后徐勇在北京中关村创立了百度(Baidu)公司。历经5年的高速发展后,在近两年时间里,百度高居全球网站流量前八名的位置,已经成为全球十大网站之一。百度每天接受着超过一亿人次来自各个方面的内容检索请求,中国9400万网民几乎每天使用1次百度。“有问题百度一下”已经成为中国网络流行语之一。
2002年,中国搜索(原慧聪搜索)正式进入中文搜索引擎市场。在一年多的时间里,就发展为全球著名的中文搜索引擎服务商,为新浪、搜狐、网易、TOM等知名门户网站提供搜索引擎技术。慧聪搜索引擎的优势是从人工审核网站信息源和设置禁查词两个方面入手,有效地过滤了不良信息,降低了垃圾信息的含量。在互联网实时新闻搜索方面,慧聪也实现了网络新闻的实时检索。
2 搜索引擎的工作原理
简单的说,搜索引擎是通过从互联网上提取的各个网站的信息来建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
根据搜索引擎提取数据的方法,可将搜索引擎系统可以分为三大类:
2.1目录式搜索引擎:是一种网站级搜索引擎。目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,一般的搜索引擎分类体系有五六层,有的甚至十几层。先由程序自动搜集信息,然后由编辑员查看信息,人工形成信息摘要,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo就是这类搜索引擎的代表。
2.2机器人搜索引擎:Robot(机器人)一词大家并不陌生,Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。搜索引擎主动派出称为蜘蛛(Spider)的机器人程序定期搜索(比如Google一般是28天),对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。Google、北大天网、百度(Baidu)就是这类搜索引擎的代表。
2.3元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。第一个元搜索引擎,是美国华盛顿大学硕士生Eric Selberg 和 Oren Etzioni 开发的 Metacrawler。元搜索引擎的搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。ByteSearch()、Mamma()、Profusion()就是这类搜索引擎的代表。
3 搜索引擎的性能指标
搜索引擎的目标就是在非常短的时间内搜索的信息全面并且准确。传统信息检索系统的性能参数——召回率和精度同样也可以衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低;精度高时,召回率低。因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。对于网民来说,互联网上的信息不是不够,而是“过剩”,如何精确查找到信息是大家所关心的问题。因此,目前的搜索引擎系统都非常关心精度。
4 搜索引擎面临的挑战
目前搜索引擎是网络上被使用频率最高的服务项目之一。随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。国际数据公司(IDC)曾公布的一份报告表明,被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大
热门论文