在一个或多个网络上进行通用搜索管理的系统的制作方法

文档序号:6377902阅读:141来源:国知局
专利名称:在一个或多个网络上进行通用搜索管理的系统的制作方法
技术领域
本发明涉及数据库网络。更具体地说,本发明涉及在数据库网络上管理关键词搜索和搜索结果。
背景技术
因特网(互联网)文本检索系统接受按照由多个关键词T1、T2、...Ti、...Tn构成的搜索查询S给出的请求信息语句(statement)并返回与该搜索查询匹配的文档列表。对在因特网数据库上进行这种搜索的需求已引起搜索引擎的发展,这些搜索引擎提供到信息源的查询接口并根据所列文档与搜索查询的匹配好坏程度顺序排队返回搜索结果。然而,各种搜索引擎以不同方式处理搜索询问(interrogation),结果,相同的查询从不同的搜索引擎会得到不同的结果。再有,随着万维网(word wide web)的扩展,可用于搜索的数据库和搜索引擎已增长到使得用户可得到的数据量急骤增长的程度。此外,由搜索者请求的信息可以是印刷的、音频和/或可视的数据。这种数据可以是以模拟的和数字的形式、以多种不同格式和以多种机器的和自然的语言来表现。数据的类型及其形式、格式和语言可能不是搜索者所要求的或者甚至可能不是搜索者所能理解的,而且结果可能是不完全的、不能理解的、不准确的和变化的。
由于上述的以及其他的考虑,要从所有有关来源的信息搜索得到完全的、可理解的和准确的结果是困难的。再有,进行这种搜索所需要的信息处理资源和工时会是昂贵的。为在分布式信息系统中克服信息过载(overload),需要一个自动的信息检索系统和方法,它优选最可能向搜索提供最佳响应的各类数据源或数据库,并根据搜索者的需要定制所收到的响应。

发明内容
所以,本发明的一个目的是提供一种改进的查询路由选择系统。
本发明进一步的目的是提供一种查询路由系统,它能够访问以多种形式、格式和语言表现的信息,并能将该信息以其他类型、格式和语言提供给搜索者。
根据本发明,提供了一种搜索引擎系统,其中,以各种配置的输入数据首先通过过渡转换层,该层把多种配置的数据转换成共同的(common)或内核(kernel)计算机形式和语言。以这种内核形式和语言对该数据进行操作和存储。然后,被操作的数据通过过渡转换层输出,并以所希望的与输入形式和语言相同或不同的格式提供。


图1是在线区域网络的系统组织的示意图;图2是包含本发明并与图1所示网络连接的一个专用网络的示意图;图3是展示与本发明的转换层及信息内核相连的信息内源及搜索引擎的结构安排的示意图;图4是展示本发明的内核的细节的示意图;图5是展示根据本发明进行的后端(back-end)数据收集的示意流程图;图6是展示根据本发明对关键词查询的处理的示意流程图;以及图7是展示根据本发明对文档请求查询的处理的示意流程图。
具体实施例方式
现在参考图1,通过包括网络节点服务器的广域网,如因特网104,经由在线服务实现多个用户计算机100a至100n和多个信息服务器102a至102n之间的通信。网络节点服务器管理网络通信,例如任何给定用户的计算机与一个信息服务器之间的通信。
计算机100装备有通信软件,包括WWW浏览器,如网景通信公司的Netscape浏览器,它允许购物者经由因特网连接和使用在线购物服务。在用户计算机100上的软件管理用户从服务器接收的信息的显示并把用户操作(动作)回送到适当的信息服务器102,从而可以向用户呈现附加的显示信息或对其起作用的信息。可通过调制解调器或其他手段,如电缆连接,建立到因特网网络节点的连接(106)。
图1所示服务器(下文中讨论)是商家(merchant)的服务器,它们通过因特网提供收费的产品、服务和信息。尽管下文的讨论是针对购物者和这类商家之间在因特网上的通信,但它可通用于网络上的任何信息查寻者和任何信息提供者。(例如,信息提供者可以是一个图书馆,如大学图书馆、公共图书馆或国会图书馆,或者其他类型的信息提供者)。关于一个商家和该商家的产品的信息被存储在购物数据库108中,商家服务器102有权访问它。这可以是商家自己的数据库或该商家的供应商的数据库。可由商家服务器访问的可作为网页(web page)公布的全部产品信息被编制索引,全文本索引数据库110记录每个词的出现的次数和它们在该位置上的使用。除了单独商家的服务器以及其他信息提供者外,还有多个搜索服务提供者的服务器114a至114n,如Google公司的Google,这些提供者维护各单独商家102a至102n的产品的全文本索引116,这是通过询问各单独商家的产品信息数据库108得到的。这些搜索服务提供者中有些,如Google,是通用搜索提供者,而另一些是特定主题的搜索提供者。
商家和搜索应用服务提供者每个可以维护一个关于购物者以及他们的购买习惯信息的数据库,以便为购物者定制在线购物。为购物者建立定制的电子购物环境的操作包括积累关于该购物者喜好的数据。与电子购物选项有关的数据,如由购物者选定的特定网站和特定产品、对这些网站的进入和退出时间、对这些网站的光顾次数等,都由每个商家记录和处理,以为购物者建立购物简档。然后,可对原始数据进行处理以建立购物者的喜好简档。该简档还可以包括关于该购物者的个人数据或特征(如年龄、职业、地址、爱好),如购物者在订购服务时由购物者提供的或从其他来源得到的。简档数据能帮助鉴别关键词查询中词的含义。例如,在医生的查询中的一个关键词与土本工程师给出的同一关键词的使用会有完全不同的含义。关于购物者的数据积累被放在每个商家的购物者简档数据库112或118中。在商家和搜索应用服务提供者的数据库中每个单独购物者的简档可以是彼此不同的,这取决于特定商家或服务提供者与该购物者的经历以及它们的建档软件。可以在由购物者进行搜索的过程中不断收集数据,从而能得到和使用最新的简档数据。
利用关于在购物事务(transaction)中涉及的购物者的信息,商家能满足购物者的需要并向购物者呈现观看和购买最可能感兴趣的商品的机会,因为该商家的产品和服务被引导向那些已经直接或间接表示过对这些产品和服务感兴趣的那些购物者。
当由购物者把搜索特征以关键词的形式输入他/她的浏览器的默认页或主页上提供的空间中时,商家web服务器102的搜索引擎使用这些关键词对所访问的全文本索引数据库110或118进行搜索,并得到描述含有与这些关键词匹配的那些产品和服务的一个文档列表。这一文档列表含有基本测试等级Tf(包括点击次数、它们的位置等,这些用于对文档列表排序),以具有较高评分的文档排在顶部。然后把这一列表发送给排序模块,它将应用一个排序算法,如斯坦福大学(Stanford,CA94305)计算机科学系的Sergey Brin和Lawrence Page的题为“大规模超文本Web搜索引擎结构剖析”(“The Anatomy of a Large-Scale Hypertextual Web SearchEngine”)的文章(该文章在这里被纳入作为参考)中描述的算法,使用文本因子(text factor)和其他排序因子(ranking factor),如链接分析、普及性、来自用户简档的用户喜好等,对文档列表排序,还可以引入其他反映该信息提供者的偏向和兴趣的因子。然后向用户提供基于该排序算法的一个重新排序的文档列表。
图1显示一个信息整合器(consolidator)120。信息整合器从各种商家服务器102和搜索应用服务提供者服务器114得到信息并将其提供给用户。信息整合器可以是一个独立的数据源,或者如图中虚线所示,与提供数据的商家102a相关联或与获得数据的用户100a关联。信息整合器通过修改它从各来源接收的数据提供附加值。如所指出的那样,由商家或搜索应用服务提供者提供的数据的排序不同于由原始排序元素数据(rawranking element data)所提供的排序,这种排序或者是对用户有帮助的,或者是会添加数据提供者的偏向(bias)。信息整合器可以修改那些数据以去掉数据提供者的偏向并增加对用户有用的其他信息。如这里描述的那样,信息整合器是在一个专用网络上。
如图2中所示,信息整合器120被连入专用内部网络(private intranet)200,该专用内部网络200具有一个服务器202并包含若干计算机100,如图1中描述的那些计算机,从而计算机100能获得存储在该专用内部网的内部源中的信息。对内部网200提供了公共因特网的访问能力,它提供对公共因特网104上服务的访问并使信息整合器能在该因特网上提供服务。“防火墙”222把公共因特网104与专用内部网200分离开,只允许具有正确ID和口令的那些用户从公共因特网104进入内部网200。内部网200的内部源是公司文档管理系统204和内部数据库206。还有,对内部网200提供了一个语音识别系统220,其能响应语音命令和语音指令的压缩数字化数据,这些数据是由客户计算机100从单独计算机100或者这种计算机的客户机网络提供的。
根据本发明,信息整合器120包含一个集成的搜索管理系统226,它接收来自内部网和因特网中的搜索引擎的查询和信息,并通过计算机100、PDA 228访问除在内部网和因特网之外的其他信息源。例如,传送给计算机224并由语音识别系统220与文本关联的语音消息能被存储在集成的搜索管理系统226中。该集成管理系统包含中央处理单元230、网络接口232以及足够大的随机存取存储器234和高密度存储装置236,以完成它的功能。
如图3中所示,该集成搜索管理系统226有一个核心或内核300,它只对扩展标记语言(XML)形式的具有以通用统一字符编码字符集(Universal Unicode Character)编码的字符的数据和代码进行操作。来自所有可能的源的数据在进入该集成搜索管理系统之前均被转换成共同的形式。例如,HTML页、文本文件以及所提到的语音消息都被转换成共同的形式。以搜索引擎302、信息源304和用户机器306的各种源形式出现的数据在一系列含有翻译器的外壳程序(shell)中被转换成XML内核形式,在这些外壳程序中各种文档在内部翻译器中从它们的源形式转换成XML形式。这些翻译器308被安排在若干层中,从而在源语言和内核语言之间的翻译过程中它们能被共享。当要增加一个新的源层时,可以提供一个附加层以在新的或被修改的源语言和已有的源语言之间进行翻译。如果要容纳一个完全新的协议,则可以增加翻译器308和310的附加段(segment)312。这将演变技术提供(应用于)给搜索管理系统,从而模块化使用用于翻译单元308和310的面向对象的程序模块。
如图4中所示,这种结构安排允许内核300包含最小数量部件。这些部件是文档提取管理器(Mocument Extraction Manager)402,它负责搜寻(crawl)原始信息源并使用与信息源兼容的适当机制提取数据和文档内容,并以能由可搜索内容管理器处理的格式放置该数据。美国专利申请,序列号为10/157,243,2002年5月30日提交,包含对文档提取管理器的描述。
可搜索内容管理器(Searchable Content Manager)404,它负责处理从各信息源提取的数据并将其存储在内容库406中。该数据以标准格式存储,优选地,基于文档的颗粒单元/组成部分(granularelements/components)。这些单元以后能被组合,以构成连贯的文档。在2002年6月30日提交的序列号10/159,373的美国专利申请中能找到对该处理过程的描述。
内容库(Content Repository)406,它是一个文档组成部分的可搜索库,其中存储可搜索内容的单元(element)。该库具有一个搜索索引408,用于提供一种机制,能以给定的一组属性,如文档视图、文档类型、元数据等,来请求一个指定的文档。文档以所有被支持的自然语言NL存储在该内容库中,该索引包含以下两个专利申请描述的倒排索引(2002年6月27日提交的序列号10/180,195的美国专利申请,以及2002年2月1日提交的序列号10/066,346的美国专利申请)以允许选择适当语言的文档。
索引管理器(Index Manager)412,它负责通过使用由搜索引擎提供的适当接口和基于内容库中存储的内容来建立和更新搜索索引408。该索引管理器能处理多个搜索索引。
搜索管理引擎(Search Management Engine)414,它主要负责从接口管理器部件收集用于搜索查询的输入参数,并使用配置信息(例如搜索引擎参数)、个性化信息(例如优选文档类型)和分类信息(例如搜索类别)创建最终查询对象。2002年7月23日提交的美国专利申请(YOR9-2002-0163)含有对搜索管理引擎的描述。
访问管理器(Access Manager)416,它是到(一个或多个)搜索引擎的直接接口。它负责以适当的格式向搜索引擎提交搜索查询,收集要处理的并将由其他部件返回给用户的搜索结果。这能通过使用面向内部部件的通用适配器接口和面向不同搜索引擎的可插入适配器来实现。2002年7月31日提交的序列号10/209,619的美国专利申请,以及2002年6月3日提交的序列号10/759,373的美国专利申请,包含对该访问管理器的描述。
局布管理器(Layout Manager)418,它负责创建和定制文档内容及搜索结果的布局。该内容是从内容库模块406中检索的。2002年6月3日提交的序列号10/159,373的美国专利申请含有对布局管理器的描述。
接口管理器(Interface Manager)420,它负责处理用户的GUI和与后端模块接口。对内核的输入和输出422、424、426、428、430及432分别是与内核300接口的各转换级(translation stage)310的输出和输入。
现在参照图5,通过连续提取、存储数据和对数据编索引的后端过程,文档和其他数据被从内部网和因特网二者上的源中提取出来。文档提取管理器402通过到每个源的翻译器308和310向外达到数据源,以向信息源提供兼容的请求(步骤500和502)。它从数据源提取数据,在翻译器(translator)308和310中把数据转换成XML形式,并把数据放入内容库406(步骤504、506和510)。索引管理器412为提取的文档生成索引数据并将其与该数据一起放入内容库(步骤512)。该文档的所有被支持的国家语言NL被提取和存储在该库中并可用倒排索引410访问。
现在参照图6,一旦收到HTTP语言的查询(步骤600),翻译器308和310便把该查询变换成内核XML形式(步骤602)。接口管理器将该查询公式化,用于访问内容库406(步骤604)并把该查询提供给搜索管理引擎414(步骤606和608),搜索管理引擎414获得定制数据和配置数据并将其加到查询的数据中。定制数据使查询个性化于该用户,而配置数据标识提供该数据的特定因特网或内部网的数据源。访问管理器416为该信息生成一个命中列表(步骤610)并把它提供给接口管理器420,接口管理器420将其改变成用户GUI,把它传送给翻译器308和310以把它转换成用户界面的语言(步骤612)。
现在参照图7,当一个用户观看该命中列表并以一个HTTP文档视图查询请求该数据时(步骤700),该数据被转换成XML查询(步骤702)并馈送给接口管理器302用于查询收集(步骤704)。来自接口管理器的信息被馈送给布局管理器418,它从内容库314的内容中产生文档(步骤706和708)并通过接口管理器420把文档传送给用户,翻译器308和310把XML文档转换成HTTP形式(步骤710和712)并把它们提供给用户显示器(步骤714)。
上面我们已描述了本发明的一个实施例,而对这一实施例的修改对于本领域技术人员可以是显然的。例如,如已指出的那样,通过向翻译器添加另一层能容易地纳入不同的语言,而通过添加附加段访问内核能增加完全不同的语言。再有,尽管使用了XML作为各语言的内核,但其他语言,如GML、html,可以用于代替XML。此外,所描述的翻译器是用作XML和HTTP,html,之间的转换,但其他连接器也能被使用。由于这一理由,应该理解本发明不限于所描述的实施例,而是包括落入所附权利要求的精神和范围内的所有改变。
权利要求
1.一种搜索引擎管理系统,具有一个或多个中央处理单元,一个或多个存储器,以及一个或多个网络连接,该系统进一步包括格式转换层,该格式转换层从一个或多个网络连接接收一个或多个输入,这些输入具有输入格式和输入数据,该格式转换层使用输入适配器把输入格式变换成内核格式,该转换层进一步具有一个或多个输出适配器;以及内核,使用内核格式以一个或多个内核单元对输入数据进行操作,以产生内核结果,由此内核结果被通过该转换层发送到一个或多个网络输出端,其中输出适配器把内核结果变换成输出格式。
2.根据权利要求1所述的系统,其特征在于该内核格式包括统一字符编码的下列格式中的任何一个或多个XML、GML、以及html。
3.根据权利要求1所述的系统,其特征在于该内核单元包括内容库以及下列部件中的任何一个或多个内容提取管理器;可搜索内容管理器;访问管理器;索引管理器;接口管理器;布局管理器;以及SM引擎。
4.一种在用于具有一个或多个中央处理单元、一个或多的个存储器以及一个或多个网络连接的搜索引擎管理系统的计算机可用系统上的计算机程序产品,包括用于格式转换层的软件,该格式转换层从一个或多个网络连接接收一个或多个输入,这些输入具有输入格式和输入数据,该格式转换层使用输入适配器把输入格式变换成内核格式,该转换层进一步具有一个或多个输出适配器;以及用于内核的软件,该内核使用内核格式以一个或多个内核单元对输入数据进行操作以产生内核结果,由此内核结果被通过该转换层发送到一个或多个网络输出端,其中输出适配器把内核结果变换成输出格式。
5.根据权利要求4所述的计算机程序产品,其特征在于该内核格式包括统一字符编码的下列格式中的任何一个或多个XML、GML、以及html。
6.根据权利要求4所述的计算机程序产品,其特征在于该内核单元包括内容库以及下列部件中的任何一个或多个内容提取管理器;可搜索内容管理器;访问管理器;索引管理器;接口管理器;布局管理器;以及SM引擎。
全文摘要
本发明提供了一种搜索引擎系统,其中,各种配置的输入数据首先通过过渡转换层,该层把有多种配置的数据转换成通用的或内核计算机形式和语言。以该内核形式和语言对该数据进行操作和存储。然后,被操作过的数据通过过渡转换层输出,并以所希望的与输入形式和语言相同的或不同的格式提供。
文档编号G06F15/16GK1487452SQ0315598
公开日2004年4月7日 申请日期2003年8月27日 优先权日2002年8月28日
发明者M·J·金, M J 金, Y·N·德里西, 德里西, G·T·布朗, 布朗, Y·N·多格那塔, 多格那塔, L·N·科扎科夫, 科扎科夫, T·A·科菲尼奥, 科菲尼奥, 芬, T-H·N·芬 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1