万维网是一个大规模的,联机式的信息储藏所。那么,应当采用什么方法才能找到所需的信息呢?如果已经知道存放该信息的网点,那么只要在浏览器的地址(Location)框内键入该网点的URL和回车键,就可以进入该网点,但是,若不知道要找的信息在何网点,那就要使用万维网的搜索工具。
在万维网中用来搜索的工具叫搜索引擎(search engine)。搜索引擎的种类很多,但大体上可划分为两大类,即全文检索搜索引擎和分类目录搜索引擎。
全文搜索引擎是一种纯技术型的检索工具,它的工作原理是通过软件(例如一种叫做“蜘蛛”或“网络机器人”的spider程序)到因特网上的各网站收集信息,找到一个网站后可以从这个网站再链接到另一个网站,像蜘蛛爬行一样。然后按照一定的规律建立一个很大的在线数据库供用户查询。用户在查询时只要输入关键词,就从建立的索引数据库上进行查询(并不是实时地在因特网上检索到的信息)。因此很可能有些查到的信息已经是过时的。建立这种索引数据库的网站必须定期对已建立的数据库进行更新维护。现在最出名的全文搜索引擎就是Google(谷歌)网站(www.Google.com),它收集的网页数量超过80亿个,图片超过10亿个,在整个搜索引擎市场中占有的份额超过50%。我们接着jsGoogle搜索技术的特点。在中文搜索引擎中,最出名的是百度位置(www.baidu.com)。
分类目录搜索引擎并不采集网站的任何信息,而是利用各网站向搜索引擎提交的网站信息时填写的关键词和网站描述等信息。经过人工核实编辑后,如果认为符合网站登录的条件,则输入到分目录的数据库中,供网上用户查询,因此,分目录搜索也叫做分类网站搜索。查询时不需要使用关键词,只需要按照分离(先找大分类,在找下面的小类),应而查询的准确性比较好,但分类目录查询的结果并不是具体的页面,而是被收录网站主页的的URL地址,因而所得到的内容就比较有限。相比之下,全文检索可以检索出大量的信息,(一次检索的结果是几百万条,甚至是千万条以上),但缺点是查询结果不够准确,往往是罗列出了海量信息(如上千万条页面),使用户无法迅速找到所需的信息,在分目录搜索引擎中最著名的就是雅虎(www.yahoo.com),国内著名的分类搜索引擎有雅虎中国(cn.yahoo.com),新浪(www.sina.com),搜狐(www.sohu.com),网易(www.163.com)等。
从用户角度看,使用这两种不同的搜索引擎都能够实现自己查询信息的目的,但用户得到的信息的形式不一样。全文检索搜索引擎往往可以直接搜索到相关内容的网页,但分类目录搜索引擎一般只能检索到相关信息的网址,为了用户能够更加方便的搜索到应用信息,目前许多网站往往同时具有全文搜索和分类目录搜索的功能,在英特网上搜索信息需要经验的累积,要多实践才能掌握从英特网获取信息的技巧。
而目前,360搜索引擎具有后起之秀之意(www.so.com)360搜索属于元搜素引擎,这和上面的又有一些技术的不同。
值得注意的是,目前出来垂直搜索引擎(vertical seaarch engine),它针对某一特点领域,特定人群或某一特点需要提供搜索服务。垂直搜索也是提供关键字来搜索的,但被放到一个行业的知识的上下文中,返回的结果更倾向于信息,消息,条目等,例如,对买房子的人讲,他希望查找的是房子的具体提供信息,(如面积,地点,价格等),而不是有关房子的一般性的论文或者新闻,政策等,目前热门的垂直搜索行业有:购物,旅游,汽车,求职,房产,交友等行业,还有一些元搜索引擎(meta search engine),它把用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并把检索结果集中统一处理,以统一的格式提供给客户,因此是搜索引擎之上的搜索引擎,它的主要精力放在提高搜索速度,智能化处理和搜索结果,个性化搜索功能的设置和用户检索界面的友好性上,元搜索引擎的查全率和查准率都比较高。
深圳 · 龙岗 · 大运软件小镇22栋201
电话:400 182 8580
邮箱:szhulian@qq.com