同时进行多个搜寻引擎检索的方法

文档序号:6414433阅读:1398来源:国知局
专利名称:同时进行多个搜寻引擎检索的方法
技术领域
本发明涉及一种同时进行多个搜寻引擎检索的方法,尤指一种应用于网络数据系统,通过输入关键字和/或设定检索参数后,可同时取得许多个网站资讯的方法。
随着英特网(Internet)的飞速发展,网络上的信息也愈来愈丰富,而且每天还有新的网站加入。由于信息数量庞大,让使用者在英特网上找寻信息犹如大海捞针,明知所需的信息一定存在,但是想要自己去找,却几乎无从下手。因此,使用者通常都从一些英特网搜寻引擎(Search Engine)的网站逐一地进行检索。
英特网搜寻引擎是一种在英特网中主动搜索信息并将其自动索引的网站,它在英特网上日夜穿行以便不断地寻找新的网页,并索引其检索到的每个页面中的单字,其索引内容储存于可供查询的大型数据库中;这类搜寻引擎现在很多,如Yahoo,Infoseek,Altavista等。
使用者利用搜寻引擎的目的是要在英特网上浩瀚的信息海洋中,找到使用者所需要的信息;使用者通常并不在意搜寻引擎返回的结果到底有多少个,所关心的是这些搜寻引擎是否能把使用者引领至其想要去的地方,从而获取有价值的信息;因此,使用者希望搜寻引擎能真正返回其所需要的结果。
但是每个搜寻引擎都是独立地在网上进行搜寻的,由于它们各自的检索方式不同,它们搜寻到的站点数据所涵盖的范围也各不相同;每个搜寻引擎的数据索引方式也各有千秋,有的是按类似于图书馆中索引目录的方式进行分类索引,如Yahoo;而有的又是按网页中出现的每个单词进行索引,如OpenText。甚至还有专门搜索某类信息的搜寻引擎,如有专门检索专利信息的,也有专门检索共享软件的。
当利用这些搜寻引擎查找信息时,传统的检索方法是先要开启一浏览器(Browser),如微软公司之Interner Explorer或网景公司之Netscape Navigator,找到某个搜寻引擎的首页(Home Page),在其首页中键入所要查询的关键字(Keyword),必要时需设定一些选项(参数),如返回多少个结果,检索的范围等;然后搜寻引擎就会在其数据库中进行查询,并将检索的结果返回至浏览器;倘若用户不满意检索的结果,便可再移至另一个搜寻引擎的首页重复上述的步骤直到满意为止。
例如,若想使用Yahoo搜寻引擎去寻找一些有关计算机杂志的站点,先得打开网景公司之Netscape Navigator,在其首页中,键入关键字“computermagazine”,按下Search(查找)按钮,如

图1所示;然后,Yahoo搜寻引擎就会返回许多计算机杂志有关的数据,如图2所示;若利用Infoseek搜寻引擎同样查询computer magazine(计算机杂志),其查询返回的结果就与Yahoo搜寻引擎的不同,如图3所示。
正因为如此,用同样的关键字在不同的搜寻引擎中进行检索,所得到的结果往往是不同的,每个搜寻引擎都会返回它认为匹配的结果。
这些搜寻引擎可能会找出上千个结果却并非都是用户所需要的答案,因此许多人都有过这样的经验,他们花费了大量的时间在一个搜寻引擎中进行查询,最后却没有找到所需要的信息;然而在一个搜寻引擎中查不到的信息,却有可能在另一个搜寻引擎中找到,所以他们又必需去另一个搜寻引擎的网站进行查询;由于没有一个搜寻引擎能涵盖所有的站点数据,所以同时在几个不同的搜寻引擎中进行查询当然能得到较好的结果,因此,每当在某个搜寻引擎中找不到需要的信息,便会频繁地利用各个搜寻引擎进行检索,希望能找到所需要的结果,但是这样浪费了大量的时间,又感到非常的不便。
一般的英特网搜寻引擎(如Yahoo等)都是采用一种称为“蜘蛛”(Spider)的技术来实现在英特网上的信息搜索;其主要运作原理是从一个包含多个其它站点超链接(Hyperlink)的网页出发,将网页中每个超链接作为一个新的起点,去读取这些超链接所在的网页,再从读取到的这些新的网页中的超链接出发,去读取别的新网页,依次循环,如此所读取的网页就会愈来愈多,再将所读取的每个网页的通用资源定位器(URL)地址记下来,并索引此一网页中的单字,然后将其索引内容与URL地址一起存入可供查询的大型数据库中;当用户向此一搜寻引擎送出查询请求时,它就将用户输入的关键字送往其数据库中查询,将该关键字与其索引到的网页中的单字进行比较,然后返回匹配的结果;由于它所能返回的查询结果完全依赖于其数据库,所以它需要不断地去检索新的网页,才能不断地扩充其数据库,因此,这类搜寻引擎通常都配备多台大型服务器(Server),日夜不停地在英特网上搜索新的网页,并同时接受用户的查询;这种方法不仅对硬体的要求较高,而且成本也较大,一般用户自己无法实现。
本发明的目的是实现一种在网络上由系统自动控制、依序到使用者所指定之一个或多个搜寻引擎中进行查询的方法,使用者无须分别进入各个搜寻引擎中进行查询,只需要一次设定好查询条件,就可得到多个搜寻引擎回应的结果。
为了实现上述目的,所提供的一种在网络中同时进行多个搜寻引擎检索的方法,包含下列步骤a.选择一个或多个搜寻引擎的网站;b.经由一输入单元输入至少一个以上的关键字;c.设定所述各搜寻引擎选项的内容;d.依据选择的各搜寻引擎的网站,建立与各搜寻引擎网站的查询参数以及查询格式对应的特征格式表;e.传送该特征格式表中的查询参数至每个对应的搜寻引擎;f.接收每个搜寻引擎返回的检索结果;以及g.经由一输出单元显示每个自所述各搜寻引擎返回的检索结果。
采用本发明的方法能节省使用者的作业时间,并简化作业流程;因为从多个搜寻引擎回应查询的结果,不仅有较广泛的资讯涵盖面,而且检索的结果更加可靠。
图1显示在常用搜寻引擎Yahoo首页中键入关键字“computermagazine”的操作画面。
图2显示常用搜寻引擎Yahoo将查询computer magazine的结果返回Netscape的操作画面。
图3显示常用搜寻引擎Infoseek将查询computer magazine的结果返回Netscape的操作画面。
图4为本发明采用的硬件结构的方块图。
图5为本发明的操作流程图。
图6显示本发明实施例的可供用户设定多个搜寻引擎选项窗的画面。
图7显示本发明实施例的用户输入检索条件以及本发明的检索代理器将多个搜寻引擎检索computer magazine的结果同时返回给用户的情形。
图8为本发明的检索代理器将搜寻引擎查询格式设计成一特征格式表的流程图。
图9为本发明的检索代理器对返回结果进行语法分析的流程图。
图10为本发明的检索代理器删除重复站点数据的流程图。
本发明提出了一种确实可行的、可以在英特网上代替使用者同时到多个搜寻引擎中进行搜寻的方法,但本发明术内容并不仅限定应用于英特网(internet),例如广域网(WAN;Wide Area Network)、城域网(MAN;Metropolitian Area Network)、局域网(Local Area Network)或是内部网(Intranet)均应适用于本发明。
参阅图4的本发明硬件结构的方块图,如图所示,本发明采用的具备中央处理单元41、数学逻辑运算单元42、储存装置43、输入单元44、输出单元45等构件的计算机40,经由连接至该计算机40的调制解调器46及连接至该调制解调器46的英特网47,该英特网47与指定的多个搜寻引擎48相连。其中的中央处理单元41可具备操作系统内建的滚动指令或执行一应用程序达到滚动功能;输入单元44则可以包含键盘与鼠标等计算机外围设备;输出单元45可以是监视器、视频监视器或视频输出输入装置之中的任一者;而储存装置43可以是硬盘、软盘、存储器或光盘等,用以储存特征格式表或语法分析表或检索代理器(程序模块)等。
参阅图5所示的本发明操作的流程图,本发明系统提供了一种建构在浏览器的英特网检索代理器(程序模块)(Search Agent)。操作流程依序为a.开启一浏览器,例如网景公司之Netscape Navigator,启动该检索代理器(程序模块);b.选择欲利用的搜寻引擎并输入关键字或必要时设定检索条件等选项内容;其画面如图6所示;c.根据用户设定条件取得搜寻引擎的查询格式;d.依照取自于搜寻引擎的查询格式,将关键字与检索条件传送至搜寻引擎进行检索;e.判断检索结果是否已返回检索代理器,若尚未返回则继续等待,若已返回则进行下一步骤;f.运用一语法分析表动态地分析返回的检索结果;g.检查所有返回的站点是否存在,若不存在就在输出单元(45)显示一提示信息,提醒用户这个站点地址已经不存在,若存在则进行下一步骤;h.将返回的站点信息储存于一储存装置(43),成为一统一的索引表(清单),以供用户查询,致使用户更易于找到想要的内容;i.判断是否所有的搜寻引擎都已返回检索结果,若所有的搜寻引擎都已返回检索结果,则跳至步骤(k),否则继续下一步骤;j.移至下一个搜寻引擎并设成目前的搜寻引擎,跳回至步骤(c);k.在输出单元(45)上显示索引表内的检索结果;以及l.结束检索代理器(程序模块)。
下面根据前述的操作流程,进一步说明各操作流程的功能与内容首先,本发明提供用户一种如图7所示的使用画面,可在其中的查询内容栏的位置输入关键字,如computer magazine,即如步骤(a)所述,用户选择一些搜寻引擎并输入关键字或必要时设定检索条件。
其次,如步骤(c)所述,检索代理器根据用户设定条件取得搜寻引擎的查询格式的部分,其说明如下。
由于每个搜寻引擎在将用户的查询请求送往数据库进行查询时,都有自己的查询格式,通常包括查询的关键字、几个关键字之间的逻辑关系、每次返回的结果数、检索范围等参数,而搜寻引擎便是通过这些参数来控制其返回的结果。为了使每个不同的搜寻引擎在不同设定条件下均能接受用户查询时所使用的格式,将每个搜寻引擎在不同参数设定下所使用的查询格式设计成一张特征格式表(Feature Table),其流程如图8所示,包括下列步骤c1.开启一浏览器;c2.进入该搜寻引擎的网站;c3.在该搜寻引擎的网站中,输入关键字;c4.在该搜寻引擎的网站中,设定该搜寻引擎的各个查询参数;c5.执行该搜寻引擎的查询动作;c6.取得存在于该搜寻引擎返回的搜寻结果中的查询格式及查询参数;c7.建立一个特征格式表;以及c8.替换该关键字及各个该搜寻引擎选项的内容为该特征格式表中相应的查询参数。
而此一特征格式表的数据结构如下,一般包括有(1)搜寻引擎名称,如Yahoo;(2)搜寻引擎第一次接受查询的网址格式,如http//search.yahoo.com/search?p=%s&d=y&za=and&h=s&g=o&n=%d;(3)搜寻引擎接受第一次查询后,对同一关键字进行下一次查询时的网址格式,如http//search.yahoo.com/bin/search?p=%s&h=s&n=%d;以及其中,网址格式中的%s,%d等符号是一些查询参数;(4)其它有关信息,如搜寻引擎每次总合检查(checksum)返回的结果数等。
在前述的例子之中,所称的网址格式虽然是以现行的URL格式为例子,但并非仅限定于此种URL格式。
在了解了每个搜寻引擎的查询格式后,本发明的检索代理软件就能利用这些参数,直接代替用户到不同搜索引擎的数据库中进行搜寻;用户同样可以像在搜寻引擎中那样,对这些参数进行设定,本发明会根据这些参数到特征格式表中找到与搜寻引擎对应的查询格式,然后自动将这些参数转化成搜寻引擎所能接受的格式。例如,在上例Yahoo的URL查询格式中,%s即为关键字,%d为让Yahoo返回多少个结果,若用户设定查询的关键字为computer,一次返回20个结果,则就将URL查询格式中的参数替换成用户的设定,在本例中可替换成http//search.yahoo.com/bin/search?p=computer&h=s&n=20这就是Yahoo最终能接受的查询格式;在得到搜寻引擎所能接受的格式后,本发明就同时将查询请求送往多个搜索引擎。
如步骤(f)所述,运用语法分析表进行动态地分析返回的检索结果,还包括下列步骤,如图9所示(f1).读取搜寻引擎的语法分析表;(f2).取得语法分析表中有关站点主题URL地址、简介等信息的语法标记(Syntax Tag);(f3).在搜寻引擎返回的文件中寻找语法标记;以及(f4).过滤返回文件中对应的站点信息。
对搜寻引擎返回的查询结果进行语法分析(parse)的原因,是由于目前所有搜寻引擎查询的结果,都是以HTML(Hyper Text Markup Language,超文本标示语言)文件的格式返回的,而每个搜寻引擎返回文件的格式也是不同的。因此要先了解这些格式,并针对这个搜寻引擎制作相应的语法分析表(Parsing Table),才能对搜寻引擎返回的HTML格式进行动态的语法分析。而每个搜寻引擎的语法分析表中通常包括搜寻引擎返回文件中与站点主题、URL地址、站点简介等信息相对应的语法标记(Syntax Tag)。
根据与搜索引擎相对应的语法分析表对传回的文件进行分析,在文件中寻找这些语法标记,才能将其中每个站点数据中的主题,URL地址,站点简介等信息整理出来;并将其它无用的信息,如文件中所包含的图片和广告等过滤(Filter)掉。
例如在Yahoo的语法分析表中,有如下语法标记<li><A HREF=URL>TITLE</a>SUMMARY当搜寻引擎Yahoo返回搜寻结果后,根据该语法分析表对传回文件进行分析,在文件中寻找这些语法标记,比如在文件中找到“<li><A HREF=”时,其后面所跟着的文件内容,一直到找到>为止,就是站点的URL地址。由>至</a>间的文件内容是站点的主题。而在</a>之后的文件内容是站点的简介。这样就可以把搜寻引擎Yahoo传回的结果文件中站点的信息分析出来。
在进行前述的步骤(h)时,由于不同搜寻引擎可能会返回相同的站点数据,而且有时搜寻引擎传回的站点地址其实已经不存在了。为了提高搜索结果的可靠性,检索代理器对搜寻引擎传回的每一个站点数据都进行了检查。用户每次进行搜寻时,检索代理器会将查到的每个URL网址都存储到一张索引表中,每当分析出一个新的URL网址时,就去检查索引表。如果这个URL在索引表中已经存在,则表示该URL为重复的站点,便将它删除掉;否则,就把它新加入索引表中。
而此一删除重复站点数据的流程如图10所示,其包括了步骤(h1).判断新取得的URL地址是否已存在索引表中,若已存在则进行步骤(h2),若未存在则进行步骤(h3);(h2).从搜寻结果中删除此一URL地址,然后结束;(h3).将新取得的URL地址加入索引表中,然后结束。
除了将重复的站点信息去除掉,检索代理器还会代替用户去检查每个站点地址是否还存在。当每个URL地址分析出来后,检索代理器就尝试去连接这个站点,如果站点返回的信息表明该URL地址已不存在,则检索代理器便将此一不存在的URL地址自索引表中删除。对于最终结果,再以统一的清单表示出来,令用户更易于找到想要的内容。
综上所述,将不难看出,与传统的检索方法相比较,本发明所提供的方法不仅可节省用户的时间,而且大大地简化了用户的操作过程。用户无需再在各个搜寻引擎之间逐一进行查询,只要一次设定好查询条件,就可同时得到多个搜寻引擎的检索结果。而且,因为使用这种方法可以从许多不同的搜寻引擎中检索结果,所以不仅有较为广泛的信息覆盖面,而且查询结果也更加可靠了。
虽然在上面详细说明了本发明的具体技术特征,但应强调的是,该优选实施例仅用于示例说明本发明,并非用来局限本发明的范围。其它任何不脱离本发明精神所做的改良或变更,皆属于本发明的保护范围。
权利要求
1.一种在网络中同时进行多个搜寻引擎检索的方法,包含下列步骤a.选择一个或多个搜寻引擎的网站;b.经由一输入单元输入至少一个以上的关键字;c.设定所述各搜寻引擎选项的内容;d.依据选择的各搜寻引擎的网站,建立与各搜寻引擎网站的查询参数以及查询格式对应的特征格式表;e.传送该特征格式表中的查询参数至每个对应的搜寻引擎;f.接收每个搜寻引擎返回的检索结果;以及g.经由一输出单元显示每个自所述各搜寻引擎返回的检索结果。
2.如权利要求1所述的方法,还包含在接收每个所述搜寻引擎返回的检索结果后,删除返回检索结果中重复网站的步骤。
3.如权利要求1所述的方法,还包含在接收每个所述搜寻引擎返回的检索结果后,检查返回检索结果中网站是否存在的步骤。
4.如权利要求3所述的方法,还包含将所述检查出的返回检索结果中不存在的网站储存于一不存在地址索引表的步骤。
5.如权利要求1所述的方法,其中建立与所述搜寻引擎的查询格式及查询参数对应的特征格式表的所述步骤d中,还包含下列步骤d1.开启一浏览器;d2.进入所述搜寻引擎的网站;d3.在所述搜寻引擎的网站中,输入关键字;d4.在所述搜寻引擎的网站中,设定所述搜寻引擎的各个查询参数;d5.执行所述搜寻引擎的查询动作;d6.取得存在于所述搜寻引擎返回的搜寻结果中的查询格式及查询参数;d7.建立一特征格式表;以及d8.替换所述关键字及各个搜寻引擎选项的内容为所述特征格式表中相应的查询参数。
6.一种以具有屏幕显示器的计算机显示经由一检索代理器同时进行资讯检索的方法,包含下列步骤a.开启一浏览器;b.启动该检索代理器;c.选择一个或多个搜寻引擎的网站;d.经由输入单元输入至少一个以上的关键字;e.设定所述各搜寻引擎选项的内容;f.依据选择的所述搜寻引擎的网站,建立与所述搜寻引擎网站的查询参数以及查询格式对应的特征格式表;g.传送该特征格式表中的查询参数至每个对应的所述搜寻引擎;h.接收每个所述搜寻引擎返回的检索结果;以及i.经由一输出单元显示每个所述搜寻引擎返回的检索结果。
7.如权利要求6所述的方法,还包含在接收每个所述搜寻引擎返回的检索结果后,删除返回检索结果中重复网站的步骤。
8.如权利要求6所述的方法,还包含在接收每个所述搜寻引擎返回的检索结果后,检查返回检索结果中网站是否存在的步骤。
9.如权利要求8所述的方法,还包含将所述检查出的返回检索结果中不存在的网站储存于一不存在地址索引表的步骤。
10.如权利要求6所述的方法,其中建立与所述搜寻引擎的查询格式及查询参数对应的特征格式表的所述步骤f中,还包含下列步骤f1.开启一浏览器;f2.进入所述搜寻引擎的网站;f3.在所述搜寻引擎的网站中,输入关键字;f4.在所述搜寻引擎的网站中,设定所述搜寻引擎的各个查询参数;f5.执行所述搜寻引擎的查询动作;f6.取得存在于所述搜寻引擎返回的搜寻结果中的查询格式及查询参数;f7.建立一特征格式表;以及f8.替换所述关键字及各个搜寻引擎选项的内容为所述特征格式表中相应的查询参数。
11.一种用以产生与网络搜寻引擎的查询格式对应的特征格式表的方法,包含下列步骤a.开启一浏览器;b.进入所述搜寻引擎的网站;c.在所述搜寻引擎的网站中,输入关键字;d.在所述搜寻引擎的网站中,设定所述搜寻引擎的各个查询参数;e.执行所述搜寻引擎的查询动作;f.取得存在于所述搜寻引擎返回的搜寻结果中的查询格式及查询参数;g.建立一特征格式表;以及h.替换所述关键字及各个搜寻引擎选项的内容为所述特征格式表中相应的查询参数。
12.如权利要求11所述的方法,其中所述的特征格式表包括有(1)搜寻引擎名称;(2)搜寻引擎第一次接受查询的通用资源定位器(URL)格式;(3)搜寻引擎接受第一次查询后,对同一关键字进行下一次查询时的URL格式。
13.如权利要求12所述的方法,其中所述的特征格式表还包括搜寻引擎每次总合检查(checksum)返回的结果数。
14.如权利要求6至10中之一所述的方法,其中应用于所述检索代理器的特征格式表,用以将使用者设定的查询参数或搜寻引擎的选项内容,转换成可供被选取的搜寻引擎的查询格式,该特征格式表包括有(1)该搜寻引擎名称;(2)该搜寻引擎第一次接受查询的网址格式;(3)该搜寻引擎接受第一次查询后,对同一关键字进行下一次查询时的网址格式;
15.如权利要求14所述的方法,其中应用于网络搜寻引擎的所述特征格式表中,所述搜寻引擎名称通过一浏览器指向该网络中的一搜寻引擎。
16.如权利要求14所述的方法,其中应用于网络搜寻引擎的所述特征格式表还包括搜寻引擎每次总合检查(checksum)返回的结果数。
全文摘要
一种由一检索代理器同时进行多个搜寻引擎检索资讯的方法,包含下列步骤:开启一浏览器;启动检索代理器;选择一个或多个以上搜寻引擎的站点;经由输入单元输入至少一个以上的关键字;设定各搜寻引擎选项的内容;依据输入的关键字及各搜寻引擎选项的内容,设定每个搜寻引擎对应的查询格式表;传送对应的查询格式至每个对应的搜寻引擎;接收每个搜寻引擎返回的检索结果;以及经由输出单元显示每个搜寻引擎返回的检索结果。
文档编号G06F17/30GK1245937SQ98118730
公开日2000年3月1日 申请日期1998年8月26日 优先权日1998年8月26日
发明者詹浩博, 黄雄白 申请人:英业达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1