存取信息的方法和/或系统的制作方法

文档序号:6410998阅读:171来源:国知局
专利名称:存取信息的方法和/或系统的制作方法
技术领域
本发明是关于通过通信系统来存取信息的方法和/或系统。
Internet上的World Web是一个著名的基于许多被连在一起的单独的通信网的通信系统。它提供了一个丰富的来自许多不同提供者的信息的来源,但因为没有中央监控,所以其丰富也就产生了如何存取特定的信息的问题。
1982,科学、组织和技术的信息量每五年翻一番。到1986年为每2.2年增长一倍,而到了1992年,则是每1.6年增长一倍。随着Internet和其它网络的扩充,这个增长速度会持续上升。这些网络生存能力的关键将会是其管理信息的能力和当用户需要信息时,提供给他们所需信息的能力。
按照本发明的一个实施例,它提供了一个存取以分布方式存放且可通过通信网络存取的信息的系统,它包括许多软件代理(agent),以便用户能通过一个代理使用网络来存取信息。在系统中给每个代理都提供了一个智能页存贮器,用来存贮可通过网络存取的各条信息的摘要以及相关的数据,还为每个代理提供了许多用于存贮关键词集合的关键词存贮器,由于预先为每条信息都在智能页存贮器中建了一个项目,这样代理就可以通过把第一或第二关键词集合或两者全部加到上述项目上来识别用户所需的信息。
在一个有用的结构中,关键词的第一和第二集合可与各自不同的用户相联系。
然后,就可以为不同的用户,通过不同的环境来触发上述代理,以便把关键词集合运用到页存贮器中的信息页上,或为页存贮器添加新的信息页。例如,一个代理可以在某第一用户提出存贮请求期间,运用第一关键词集合。然而,代理有可能运用一个或更多附加的关键词集合以便向该项目的一个或更多其他用户进行通告。
尽管在本存取系统中可能会有多个智能页存贮器或有多个智能页存贮器能为本存取系统所用,但最好是一个代理组共享一个智能页存贮器。这种共享提供了一种使一个代理能监视页存贮器中新项目的方法,以便向潜在地感兴趣的用户通告。
本发明的实施例提供了一种智能软件代理的分布式系统,可以为用户或用户团体执行有关信息的任务,如通过Internet的World WideWeb(W3)来执行信息任务。即软件代理是用来对在W3上发现的信息进行存贮、检索、概括及通告给其它代理的。
向W3这样的网络系统是为人熟悉的,并且是按照如客户/服务器型这样的已知的体系结构建起来的,所以其详细情况就不在这里说了。
在发明不是要为检索如W3这样的系统提供另一种工具,这类工具已有很多了。这些工具频繁地随着Web的覆盖度和检索引擎的完善度的增加而增加。相反,本发明的实施例是关于以下问题的已经在W3上发现了有用的信息,如何对它进行存贮,使之易于检索,并且如何能识别和通知那些可能对该信息感兴趣的用户?软件代理提供了一种著名的处理分布式的而不是集中式的基于计算机的系统的方法。每个代理通常都包括以自动方式为一个实体(人或机器)执行一项或多项任务的功能,以及支持该项或该些任务的位置极据,或存取这些数据的手段。在本说明书中,在发明的实施例中的用于存贮和检索信息的代理被简称为“Jasper代理”它是由以下词的首字母组成的“Joint Accessto Stored Pages with Easy Retrieval(易于检索地对所存贮的页进行联合存取)”。
当从W3上可获得的信息的量很大时,最好是能避免把信息从其原始位置拷贝到一个本地服务器上。的确,有人会说这种方法与Web的整体精神相违背。所以,Jasper代理不是拷贝信息,而是只存贮相关的“元信息”(Meta-information)。正如下面将会看到的,可以认为这个元信息的级别要高于信息本身,它是关于信息的,而不是实际的信息本身。例如,它可以包括关键词、一个摘要、文件标题、广泛资源定位器(URL)和存取的日期和时间。然后,当一个检索请求发生时,这个元信息可以被用来提供一个指向实际信息或指向“索引打开”的指针。
大部分已知的W3客户(Mosaic,Netscape等)都提供某些存贮用户感兴趣的页的方法。通常,这是通过允许用户创建一个与特定的URL相联系(可能是分级的)名称菜单来实现的。这个菜单设备故然很有用,但当要涉及很大量的W3页时,它就显得不方便了。基本上这种方法所提供的代表还不丰富,不足以允许获取所有关于所存贮的信息的有可能需要的东西用户只能提供一个命名页的字符串。除了诸如存取页的时间这样的有用的元信息被丢失的事实之外,一个单独的词组(名字)可能不足以在所有上下文中精确地检索一个页。
作为一个简单的例子,考虑关于在药理学数据的信息检索中使用基于知识的系统(KBS)的信息在不同的上下文中,所感兴趣的可能是KBS,信息检索或药理学三者中的任何内容。除非仔细选择一个名字,使之能提到所有三个方面,否则信息就可能在它的有用的上下文中的一个或多个中被错过。这个问题与UNIX(或其它)文件系统中查找包含所需信息的文件的问题相类似,Jones,W.P.在其所写的论文《关于人类记忆模型的使用记忆扩张器的个人文件系统》中对后者进行了描述。这篇文章登在Int J.Man.Machine Studies,25,191-228,1986中。然而在大多数文件系统中,至少有按创建日期来分类文件的设备。
本发明的实施例中所采用的解决这个问题的方法是允许用户通过一个丰富得多的元信息的集合去存取信息。下面就解释Jasper代理是如何实现这个目的的,及结果元信息是如何被利用的。
现在参照着附图,只用举例的方法来说明一个按照本发明的一个实施例的信息存取系统,其中

图1所示的是一个结合着一个Jasper代理系统的信息存取系统。
图2所示的是一个以图解方式显示的由上述存取系统所提供的存贮过程。
图3所的是在图1的存贮过程中使用的一个智能页存贮器的结构。
图4以图解的方式显示了由上述存取系统提供的检索过程;图5所示的是图2中存贮过程的流程图。
图6、7和8所示的是使用Jasper存取系统的三个信息检索过程的流程图;以及图9所的是一个用分群技术生成的关键词网络,用于向一个Jasper系统扩展和/或添加用户档案。
参照图1,按照本发明的一个实施例的一个信息存取系统可被建成为一个已知的信息检索体系结构,如一个与Internet相连的客户一服务器型体系结构。
更详细一些,一个顾客,如一个国际公司,可能有多个配备了个人计算机或工作站405的用户。这些可能被通过在顾客的客户上下文中的一个WorldWide Web(www)浏览器400连和顾客的WWW文件服务器410上。做为浏览器400的一个有效的扩展,Jasper代理105可能实际上被装在WWW文件服务器410上。
顾客的WWW文件服务器410被以已知的方式和Internet上,例如通过顾客自己的网络415和一个路由器420。这样服务提供者的文件服务器425就可以通过Internet,再通过路由器被访问了。
一个文本摘要生成工具120和两个数据存贮器也装在顾客的文件服务器410上,或能被它访问,二个存贮器中,一个保存用户的档案(即档案存贮器430),另一个(即智能页存贮器100)主要是为一个文件集合保存元信息。
在一个基于Jasper代理的系统中,代理105自身可以被建成为一个诸如Netscape这样的已知的浏览器的扩展。代理105被与浏览器400有效地结合起来,并可以从浏览器400中提取W3页,该浏览器可能由Netscape或者是Masaic等提供。
正如前而所描述的,在客户——服务器体系结构中,文本摘要生成器和用户档案都是做为装有Jasper代理的顾客文件服务器410的文件。然而,Jasper代理105可以交替地出现在顾客的客户上下文中。
Jasper代理是一个软件的代理,通常可被描述为一个软件实体,它结合有为一个用户执行一个或数个任务的功能以及本地数据,或对本地数据进行访问,以便支持上述一个或多个任务。下面对上述在一个Jasper代理系统中相关的任务进行描述,它们中的一个或多个可以由一个Jasper代理来实现。本地数据通常包括从智能页存贮器100和档案存贮器430来的数据。由Jasper代理提供的功能通常包括运用一个文本到摘要生成工具并存贮结果,访问或读取以及更新至少一个用户档案装置,把一个关键词集与另一个关键词或元信息集相比较的装置,以及向用户发出警告的装置。
在优选实施例中,为了选择一个要比较的关键词集,还为Jasper代理提供了监视用户输入的装置。
在另一个优选实施例中,给Jasper代理提供了运用一种涉及到第一和第二关键词集,以便生成一个二者间相似性测度的算法的装置,按照上述相似性测度,或者第一或者第二关键词集可能预先被Jasper代理所更新,或是对第一或第二关键词集与某第三关键词集相比较的结果进行修改,或对元信息进行上述相同的操作。
本发明的实施例可能会被按照不同的软件系统来建立。例如,应用面向目标技术可能是很方便的。然而,在下面描述的实施例中,服务器将是基于Unix的,并且能运行Con Text及一种W3浏览器,上述Con Text是一个由Oracle公司提供的著名的自然语言处理系统。尽管客户潜在地有可能是任何可以支持一个W3浏览器机器,但本系统通常是“C”来实现的。
在下节中,讨论Jasper代理提供给用户的用于管理信息的设备。这些设备可分为两类存贮和检索。存贮图2和5所示的是当Jasper代理105往一个智能页存贮器(IPS)100中存贮信息时所进行的操作。首先,用户110发现了一个很感兴趣的W3页,要用Jasper系统存贮到一个与自己相联系的IPS100中(步骤501)。用户110随后就通过自己的被选的W3客户115(Mosaic和Netscape版本在当前所有的平台上都可以使用)上的菜单选项来向Jasper代理105发出一个“存贮”请求,该Jasper代理装在顾客的WWW元件服务器410上(步骤502)。随后,Jasper代理105请用户110提供一个相关的注释,这个注释也要被存起来(步骤503)。通常,这可能就是用户对该页感兴趣的原因,并且这对于其他用户决定要看从IPS100检索来的页中的哪一页是很有用的。(下面将进一步讨论信息共享)。
Jasper代理105接着又通过W3上的W3客户115从所涉及的页中提取源文本(步骤504)。源文本是以一种“Hypertext”格式提供的,Jasper代理105先把Hyper Text Markup Language(HTML)标记去掉(步骤505)。Jasper代理105随后把文本发给一个象“Con Text”120这样的文本摘要生成器(步骤506)。
Con Text120首先对一个文件进行语法分析以确定每个句子的语法结构(步骤507)。ConTent语法分析器的功能很强,能够处理英语句子中出现的大范围的语法现象。句子级的语汪分析完成之后,Context120就进入“概念处理”阶段(步骤508)。所提供的工具有信息提取对一个文件内容的主索行进行计算,以便对文本中的概念、事实及定义进行索引。
内容缩减能够得到数个等级的摘要,其范围从一张文件主要标题的列表互一个全文的摘要。
论述跟踪通过对一个文件的论述的跟踪,Context可以提取该文件中所有与某个特定概念有特殊关系的部分。
在一个客户-服务器体系结构中Context120被Jasper代理105使用经过对文件进行语法分析后,服务器就生成独立于应用的、经标记的版本(步骤509)。从Jasper代理105来的使用一个应用编程界面(API)的呼叫随后就可解释这个标记了。通过使用这些API呼叫,就可从源文本中得到元信息(步骤510);Jasper代理105首先提取一个页的文本摘要。摘要的尺寸由传给Context120的参数来控制,而Jasper代理105确保能得到100-150个单词的摘要。通过对Context使用另一个呼叫,Jasper代理105可以得出一个来自源文本的关键词集合。然后,用户就随时都有机会通过HTML表125添加更多的关键词(步骤511)。通过这种方式,与某用户有特殊关系的关键词就可以被提供了,而Jasper代理105所提供的关键词集合则可能与一个更广泛的用户团体有很大的关系。
在本过程结束时,Jasper代理105已经生成了以下关于所感兴趣的W3的元信息· Context所提供的通用关键词;· 用户指定的关键词,· 用户的注释;· 一个页内容的摘要;· 文件标题;· 通用资源位置(URL);和· 存贮的日期与时间。
参照附图3,Jasper代理105随后把这个页的元信息添加给IPS100的文件130(步骤512)。在IPS100中,(两种类型的)关键词随后就被用来在包含其它页的元信息的文件上进行索引。检索使用Jasper代理105从IPS100检索信息共有三种模式。一种是一个标准关键词检索设备,而其它两种则涉及到在一个代理团体和代理的用户间共享信息。每一种模式都将在下面各节中描述。
当把一个Jasper代理105装在某用户的机器上时,该用户就会提供一份个人档案一个描述用户所感兴趣的通过W3可得到的信息的关键词集合。这份档案由该代理105保存或至少是维护着,以便决定哪页可能是用户感兴趣的。关键词检索如图4、6、7和8中所示,对于直接关键词检索,用户通过一个由Jasper代理105提供的HTML表300给Jasper代理105提供一个关键词集合(步骤601)。该Jasper代理105随后使用一种简单的关键词匹配和求分算法来对10个保存在IPS100中的与之最紧密匹配的页进行检索(步骤602)。由用户在页被存贮时提供的(而不是那些由Context自动提取的)关键词在匹配过程中被给予额外的加权值。用户可以预先指定一个检索门限,分数在该门限以下的页就不用显示了。代理105随后动态地建立一张HTML表305,其中有一张被分级的连线的列表,列表中包含与被检索的页的连线及其摘要(步骤603)。任何由最初的用户所做的注释及每个被检索的页的分值也都被包括在该表中。这个页然后就被从其W3客户上提供给上述用户(步骤604)。“新的是什么”设备任何用户都可以向Jasper代理问“新的是什么?”(步骤701)。代理105随后就查询IPS100并检索最新存人的页(步骤702)。然后它再用一种简单的关键词匹配和求分算法来决定这些页中哪个与用户的档案最匹配(步骤703)。然后送给该用户一个HTML页,它显示被分级连线的列表,该列表中有与近来所存贮的与该用户的档案最匹配的页和与IPS中最近存贮的页的连线,还有上述各页中提供的注释(步骤704)。这样用户就既可以看到最近存贮的页,也可以看到可能最令他感兴趣的页,用户也就可以对近来存贮的页进行更广泛的选择(步骤705)。
用户可以通过一个允许他往档案中添加关键词或从档案中删除关键词的HTML表来随时更新他的Jasper代理105所保存的档案。通过这种方式,用户可以有效地选择不同的要在其中工作的“上下文”。上下文是由一个关键词(这些关键词可以是那些构成档案的,或是那些在一个检索查询中指定的关键词)集合来定义的,并可以认为它是某顾客在某特定时刻感兴趣的那种类型的信息。
在计算机的文件系统的上下文中,把人类记忆模型运用到形成信息文件上这种想法是由Jones在其前面所引的论文中提出来的。正如他在通常的文件形成系统的上下文中所提出的,在文件系统中的子目录与由Jasper代理105所检索的页集合之间具有一种相似性。该页的集合可被认为是一个由它在其中被检索的上下文所定义的动态构成的子目录。在以下两种意义上,这是一种高度灵活的子目录的定义第一,依靠上下文,在本检索中出现的页自然也可在其它检索中出现;第二,对于子目录没有明确的界限页处于子目录中的范围的程度大还是小依靠它们对当前上下文的匹配程度。由此,在本方法中,划分页上的信息的方法的数量只受信息自身的分散程度和丰富程度限制。与其它感兴趣的代理的通信参照图8,当一个页被Jasper代理105存到IPS100中时(步骤801),该代理105就在它的“本地团体”中检查其它代理的用户的档案(步骤802)。这个本地团体可以是任何预确定的团体。如果该页与某用户的档案相匹配,其分值高于某个确定的门限值(步骤803),则Jasper代理105就自动生成一个报文,如一个“email”(电子邮件)报文,并将该报文送给相关的用户(步骤804),通知他发现了所需的页。
email的头的格式可能如下例所示JASPER KW(关键词)这样就使用户可以阅读报文的主体前认出它是由Jasper系统来的。最好再带一个关键词列表,这样用户就可以估计出本条报文所携带的信息的相对重要程度了。报文头中的关键词因用户不同而变化,它们决定于从与用户的档案中的关键词相匹配的页来的关键词,所以报文针每个用户的兴趣有很大的个人化倾向。报文的主体给出进一步的信息,诸如页的标题和URL,该URL存贮着页及由存贮者提供的关于该页的注释。
上而所描述的Jasper代理105和系统为一个极其有用的存取在一个如W3这样的分布式管理系统中的相关信息的方法提供了基础。对不离开本发明的范围的一个系统进行修改和扩充是有可能的。例如,在一个相对简单的水平上,就可以使用经改进的检索技术。作为例子,向量空间或概率模型就有可能被使用,正如GSalton在《文本自动处理》一书中所描述的一样,该书由美国马萨诸塞州的Addison-Wesley in Reading于1989年出版。
另外,通过提供对元信息而不是关键词的索引,可以使索引变得更加通用。例如,额外的元信息可能是存贮一个(Jasper可以从URL提取的)页的日期及页的原始位置。这些额外索引使用户可以(通过一个HTML表)来构成如下形式命令“Show me all pages Istored in 1994 from Cambridge University about arti-ficial intelligence and information retrieval”(给我从剑桥大学提取并显示出所有我于1994年存入的关于人工智能和信息检索的页。)在另一个做为替换的版本中,Jasper代理可能使用一个存贮库来利用关键词的同义词。这样就减少了必须精确输入与存贮一个页时所使用的关键词相同的关键词这一做法的重要性。确实,有可能在其它几个领域中对存贮库的使用进行利用,这些领域包括代理105为其用户保存的个人档案。自适应代理Jasper代理105使用用户档案来决定信息是否与其用户有关这功能已很强大了,但仍有能提高之处。当用户想改变上下文时(可能是从一个任务转到另一个任务,或者是从工作转为休息),该用户的档案都得通过增加和/或删除关键词来重新指定。一种更好的方法是当用户的兴趣改变超时时由代理改变用户的档案。上下文的这种改变可能以两种方式发生例如可以有一个短期的上下文由工作到休息的转换。代理可以从一张为用户保存的当前上下事的列表中识别上述上下文并转到该上下文中。例如,当用户访问一个不同信息类型的新页时,就可以触发这种转换。代理所保存的上下文也可能会有基于用户的兴趣的发展的较长期的改变。这些变化可以由代理从对用户的观察中得出。例如,可被用在自适应代理中的已知技术包括遗传算法,它从反馈和基于记忆的推理中进行学习。这些技术公布在由ShethB和MaesP、所写的,题为“为个人化的信息过滤发展代理”的MIT内部报告中,这个报告已于1993年公开。远端和本地信息的综合Jasper系统的另一个可能的变化将会是把用户自己的计算机文件形成系统与IPS100综合起来,这样W3上和本地机器上发现的信息对处于顶层的用户来讲是相同的。然后就可以用与Jasper代理105访问W3页同样的方式来访问文件,使用户不受面向名字的文件形成系统的限制并且对所有种类的本地和运端信息都提供了一种内容可寻址的界面。Jasper系统的分群Jasper IPS100和相关的文件基本上可被称为一个集合;它是一个通过关键词索引的文件集。它与“传统”集合的不同处在于其中的文件的位置通常远离索引的位置;索引(即IPS100)实际上指向一个指定文件在Internet上的位置的URL。此外,不同的附加的元信息条被加到Jasper系统中的文件上,诸如存贮页的用户,该页是何时被存贮的,用户可能已提供的任何注释等等。
Jasper系统与大多数文件集合相区别的一个重要方面是每个已被某用户输入到IPS100中的文件都被他有意识地标记为将来有可能对他和他的同事有用的信息条。这连同被保存的元信息使得JasperIPS100成为一个非常丰富的信息源。
我们也对把已知的信息检索(IR)技术运用到JasperIPS100上是否有利进行了检查。具体地说,我们已对能否使用分群进行调查。文件分群通过使用已知的IR技术,可以用Jasper的词汇文件矩阵来为在JasperIPS100中被标识的文件计算一个相似性矩阵。这个相似性矩阵给出了存贮器中被标识了的文件的相似性的测度。对每一对文件计算Dice系数,对于两个文件Di和Dj;有2*[Di∩Dj]/[Di]+[Dj]其中[X]表示X中的词的数目,X∩Y是在X和Y中共同出现的词的数目。这个系数产生一个0到1之间的数。一个为零的系数意味着两个文件中没有共同的词,而分数为1则意味着每个文件中的词的集合相同。相似性矩阵,即Sim代表存贮器中每一对文件的相似性,所以,对每对文件i和j有Sim(i,j)=2*[Di∩Dj]/[Di]+[Dj]这个矩阵可被用来用Griffiths,A.等在其《自动文件分类的分级凝聚分群法》一文中所描述的分级凝聚分群过程,自动创建相关文件的群,该文刊登在Journal of Documentatim,403,September,1984,pp175~205。在这样一个过程中,最初把每一个文件放入一个只由它自己组成的群中,然后把两个最相似的群合并成一个较大的群,再计算它与其它每个群的相似性。这个合并过程一直持续到只剩下一个水平最高的文件群为止。
计算群之间的相似性的方法(不同于单独的文件)可以不同。对于一个Jasper存贮器,则可使用“完全链接分群”。在完全链接分群中,分别属于两个群的最不相似的两个文件间的相似性就被当做这两个群间的相似性。
通过运用VRML(虚真实模型语言(Virtual RealityModelling Language))可以用Jasper存贮器的结果群结构创建一个Jasper系统上三维(3D)的前端。(VRML是一种已知的用于三维图画空间或通过全球Internet联网的虚拟世界或在World Wide Web内超级联接的虚拟世界的语言。)关键词的分群关于一个特定的JASPER文件集所存在的关键词(词)也可以用与上面所描述的文件分群技术完全相类似的方法进行分群可以为存在Jasper存贮器中的关键词建一个相似性矩阵,该矩阵给出一种存贮器中关键词间“相似性”的一种测度。对于每一对文件要计算其Dice系数。对于两个关键词,其Dice系数由下式给出2*[Ki∩Kj]/[Ki]+[Kj]其中[X]是其中有X出现的文件数,X∩Y则是其中同时出现X、Y的文件数。
然而,一且一个Jasper存贮器的相似性矩阵被计算出来,就没必要对关键词象文件那样进行分群了。相反有可能用下述两种方式对矩阵本身进行利用。
第一种方式是“档案增强”。这里,可以通过使用那些与用户档案中的关键词最相似的关键词来增强该用户档案。例如,如果以下单词virtual,reality和Internet是某用户的档案的一部分,而VRML不是,则一个增强的档案可能把VRML加入到最初的档案中(假设VRML经分群后与virtual,reality和Internet接近)。在这种方式中,包含VRML但不包含virtual,reality和Internet的文件就可能被检索,相反若用未增强的档案,它们就不被检索。
图9显示了一个已根据某当前Jasper存贮器中提取的关键词相似性矩阵建立的关键词网络900的例子。算法是直接的给定一个最初的起始关键词,从相似性矩阵中找出4个与它最相似的词。把这4个词与最初的词相连,然后对这4个词的每一个重复上述过程。重复的次数可能为若干次(图9中是三次)。两个词间的双向连接9-01表明两个词彼此都出现在对方4个最相似的关键词中。人们自然可以为了对涉及两个词间被细化相似性的信息而给每个连接加上特定的相似性系极。
第二个方法是“前摄搜寻”。Jasper使用构成一个用户的档案的关键词来前摄搜寻与它们的兴趣有关的多个WWW页,然后提供一个用户可能感兴趣的页的列表,用户却不需进行一个精确的搜寻。这些前摄搜寻可由一个Jasper系统以某个给定的间隔来完成,例如每星期一次。这里分群是很有用的,因为一个档案可能反映不只一种兴趣。例如,考虑如下用户档案Internet,WWW,html,football,Manchester,united,linguistics,parsing,pragmatics。很明显,上述档案中代表三种兴趣,单独对每种兴趣搜寻似乎会产生比只为给定的用户输入全部档案作为一个查询所产生的结果好得多的结果。对从文件集来的关键词进行分群可以使查询生成过程自动化,从而为用户的Jasper代理进行前摄搜寻打下基础。
当Jasper得到搜寻结果时,这些结果可以被用通常的方法提取摘要并与用户档案匹配以便给出一个划分了优先级的新URL以及本地保存的摘要的列表。
可以用其它文本摘要生成器来代替Con Text。例如,NetSumm就是一种获得摘要的工具,它被英国电信公司放到了Internet上,在http//www.labs.bt.com/innovate/informat/nutsumm/index.htm可得到。
尽管这里所描述的本发明的实施例是关于通过Internet进行信息定位的,但人们也会发现当对其它系统上的信息进行定位时,本发明的实施例也是很有用的,诸如在对用户的内部系统上的Hypertext格式的文件进行定位时就是如此。
做为本说明书中所介绍的本系统的创造性的方面的更进一步,下面所说的也应当被看作是对本系统新颖而先进的特性的表述。
一种对信息输入到一个数据存贮器进行监视的方法,这个输入请求可以是许多用户中的任何人提出的,为了能向某第一用户警告某第二用户的输入,警告准则要至少是部分地由上述第一用户来决定,这个方法包括I)为每个用户存贮一份用户档案,档案中至少要包括一个关键词集和一个用户标识符;II)对一个由某第二用户提出的要把信息输入到数据存贮器的请求进行检测;III)对请求进行处理,以生成信息输入;IV)把该信息输入与一个来自第一用户的档案的关键词集进行比较;
V)比较结果为正时,向第一用户发出一个警告报文。
上述方法还包括监视由不同用户提出的信息输入的请求及在检测到由某特定的用户提出的信息输入请求发生重大变化时,在一个不同的用户提出一个信息输人请求的情况下,把步骤IV)所使用的关键词集换成该特定用户档案中的关键词集。
上述方法中,每个信息输入都包括至少一个与各个文件相联系的关键词的集合,并且上述方法还包含为上述关键词集合至少两个生成相似性矩阵的步骤。及利用上述相似性矩阵扩展步骤IV)中用户档案中的关键词集的规模,以便为相联系的用户增加正结果的数量。
上述方法还包括以下步骤对某用户文件中的关键词集合使用一种分群算法以便把该关键词集分成多个子关键词集,并用至少一个子关键词集来代替步骤IV)中的完全关键词集。
权利要求
1.一种信息存取系统,用于对以分布方式存贮且可利用通信网络存取的信息进行存取,本存取系统包括至少一个用于利用网络来存取信息的软件代理,这个代理带有数据存贮器或能对数据存贮器进行访问,以便能保存与能通过网络进行存取的信息相联系的元信息,并保存至少一个关键词,上述代理是可触发的,当数据存贮器中的元信息被输入时,该代理就被触发,对上述至少一个关键词集与该元信息进行比较,并当比较结果为正时送出一个警靠报文。
2.按照权利要求1的系统,其中上述至少一个关键词集与某特定的用户相联系,且系统包含向该用户发出警告报文的装置。
3.按照上述一项权利要求的系统,为了使多个用户能使用本系统,这些用户中每一个都要有至少一个与之相联系的关键词集后,其中有响应用户提出的往数据存贮器中输入元信息的请求的装置,上述至少一个关键词集合是与未提出请求的用户相联系的,这样系统对某第一用户输入元信息作出响应,同时,当与某第二用户的关键词集出现正匹配时还向该第二用户发出一条警告报文。
4.按照上述任一项权利要求的系统,其中的代理具有一个上述关键词集中关键词的同义词的存贮库,以便增加与关键词集合正匹配的数量。
5.按照上述任一项权利要求的系统,其中的代理带有监视某个用户的输入的装置,以检测那些输入是否发生变化,且当检测到变化时,就修改或替换与该用户相联系的关键词集合。
6.按照上述权利要求和1~4中任一项的系统,其中系统具有改变与某用户相联系的关键词集以便对该用户提出的请求进行响应的装置。
7.按照上述任一项权利要求的系统,其中具有存贮至少一种数据分群算法,并对一个或更多的关键词集运用上述算法的装置,以便在与元信息进行此较前对一个或多个关键词集进行修改。
8.按照上述任一项权利要求的系统,包括多个代理,这些代理被分配给本系统的各自不同的用户。
9.一种对将信息输入到数据贮器进行监视的方法,输入请求可以由许多用户中的任何人提出,本方法的目的是要向某第一用户提出警告,告知他某第二用户提出了一个输入请求,警告所根据的准则至少是部分地要由上述第一用户决定,本方法包括I)为每个用户保存一份用户档案,档案中包括至少一个关键词集和一个用户标识符;II)检测由某第二用户提出的将信息输入到数据存贮器的请求;III)对请求进行处理,生成信息输入。IV)把该信息输入与上述第一用户的档案中的一个关键词相比较;V)比较出现正结果时,给该第一用户送出一个警告报文。
10.按照权利要求9的方法,还包括对由各个用户提出的信息输入请求进行监视及当检测到由某特定用户提出的信息输入请求有重大变化时,在另一个不同的用户提出信息输入请求的情况下,为该特定用户改变步骤IV)中所用的关键词集。
11.按照权利要求9和10中任一项的方法,其中每个信息输入都包括至少一个与各个文件相联系的关键词集,并且该方法中还包括以下步骤为至少两个上述关键词集生成一个相似性矩阵,并使用该相似性矩阵来扩展步骤IV)中用户档案中关键词的规模以便为有关用户增加正结果的数量。
12.按照权利要求9或10中任一项的方法还包括以下步骤把一种分群算法运用于某用户档案的关键词集以便把该关键词集分为子关键词集,并用子关键词集中至少一个代替步骤IV)中的完整关键词集。
全文摘要
一个对存于一个分布式信息数据库中的信息进行存取的系统,提供了一个智能软件代理(105)的共用体。每个代理(105)都可以被建成一个用于诸如Internet上的World Wide Web(43)这样的分布式信息系统的著名浏览器扩充。代理(105)被与浏览器(400)有效地结合起来,从而能用浏览器(400)来提取用来存贮在一个智能页存贮器中一页。可以对信息系统来的文本进行提取和附加上用户任选的信息后再存贮。基于代理的存取系统使用关键词集来对用户感兴趣的信息定位,再结合上用户的档案,这样,一个用户所存的页就可以被通告给另一个其档案显示出潜在兴趣的用户。关键词集合可以通过使用一个存储库来扩充。
文档编号G06F17/30GK1169195SQ9619156
公开日1997年12月31日 申请日期1996年1月23日 优先权日1995年1月23日
发明者尼古拉斯·约翰·戴维斯, 理查德·威克斯 申请人:英国电讯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1