提供知识服务的分布式监视网络的制作方法

文档序号:6469971阅读:558来源:国知局
专利名称:提供知识服务的分布式监视网络的制作方法
技术领域
本发明涉及自因特网或者其它搜索空间的信息检索,更具体地说涉及在中央数据库中累积并组织从许多远程位置收集的信息,并且在开放式推荐系统中实现收集的信息的系统。
背景技术
目前,结合当前技术和因特网探索方法,因特网和其它巨大的搜索空间的特性和结构向用户提出了许多问题,目前的技术水平还不能提供这些问题的解决方案。例如,虽然在因特网上可获得大量的信息,但是可用的信息内容仅仅局限于可通过超文本标记语言(HTML)获取的材料。此外,目前的组织和呈现用户可用信息的方法还不适宜。
虽然环球网上的某些站点可向用户提供对基于该特定站点上其它用户的行为的倾向或建议的限制访问,但是目前还不存在向用户提供对其它用户提供的反馈和其它信息的全局访问的扩展系统。此外,由于该技术领域的当前状态既没有认识到个人嗜好或偏爱,又不能适应这种个人嗜好或偏爱,因此搜索空间的探索的交互程度不够,从而效率和产率都低于其应能达到的水平。
在环球网的环境中,目前可供用户之用的信息局限于构成可搜索的超空间的HTML文件。虽然多数用户认为与其它用户的交互作用以及其它用户的推荐构成识别有用的相关信息的最有效技巧,但是目前采用的信息组织和检索系统并不适合于提供集中式服务器,通过所述集中式服务器,用户能够方便并且无限制地访问来自其它用户的输入。
另外,虽然许多用户求助于因特网寻找关于其它媒体类型的信息,例如电视和广播,但是这些及不是基于HTML的其它媒体完全被目前应用的因特网导航和信息检索系统忽略;即,不能通过目前的HTML导航方法和系统访问这些各种各样的其它媒体。不能从目前的搜索和导航系统访问不是基于HTML文件的其它媒体来源或者从目前的搜索和导航系统排除所述其它媒体来源体现了现有技术状态的极大局限性。
此外,在目前的技术提供有限的交互功能的地方,交互作用一般局限于用户和站点主机之间的信息交换,即一个封闭的系统,而不是被扩展到包括开放式推荐系统中该站点的不同用户之间的信息交换。从而,目前的系统提供没有考虑到这种封闭系统的用户的嗜好的搜索结果。
于是,对于用于从因特网或者其它巨大搜索空间识别并获取最相关信息的开放式或者分布式推荐系统和方法的需要日益增长。这种开放式推荐系统和方法应被定制,以便考虑到浏览搜索空间的个人的嗜好和偏爱。此外,真正完整的系统应支持通过HTML访问各种其它媒体,所述其它媒体传统上不是以HTML为基础的,例如电视和广播。另外,由于一般来说人类输入是最优选的信息来源,因此开放式推荐系统和方法应适合于把人类输入作为数据加入中央数据库中,便于该信息的检索,并且鼓励人的互动。

发明内容
通过采用开放式推荐技术,本发明的系统和方法克服了已知方法的前述及其它缺点,所述开放式推荐技术利用分布式监视系统累积以数据形式包含人类输入的知识和信息的大型开放式数据库。在本发明的术语中,该开放式数据库在某些地方被称为开放式知识库。
本发明利用分散的,或者分布式监视系统收集显式数据和隐式数据,所述分布式监视系统提供跨越大量远程信息来源的数据收集。软件可安装在远程终端上以便进行监视;从而,可在客户机一方本地监视数据,并且随后把数据传送给中央数据库。另外,本发明的系统和方法提供在服务器聚集在客户机一侧从许多远程信息来源收集的数据。在累积过程中,在中央数据库中对分布式监视系统收集的数据进行分类和组织以便检索。
可在客户机一侧以显式数据(它可以直接由用户以推荐、评论或投票的形式输入)或者以隐式数据(它可以根据用户的浏览活动,由系统收集)的形式收集数据;此外,系统可以同时或者组合地收集显式数据和隐式数据。所收集数据的实现包括应请求传送显式数据,以及在简化信息检索过程的定制和个性化的开放式推荐系统中利用显式数据、隐式数据或者显式数据和隐式数据的组合。根据本发明的一个方面,可向用户提供关闭或者“取消选定”系统的隐式数据收集功能的选择权。
本发明的系统和方法通过在客户机或者浏览器一侧,而不是在服务器一侧监视用户的活动,采集并集中人类知识。随后通过在服务器的统计分析,可提取、转换和处理在客户机一侧收集的和用户行为和嗜好有关的数据。这样收集的数据可包括下述一些或全部与所访问的站点相关的统一资源定位符(URL);在每个站点消耗的时间;用户和各个站点相联系的关键字;用户输入的和各个站点有关的明确评论;通过投票表达的用户对各个站点的评价;涉及URL或人的推荐的接受或拒绝;获取和/或收集了其姓名卡的其它用户;用户联系的人们;和用户ID。
可从站点和URL本身获得其它信息,并且可获得诸如涉及电视和无线电广播、人们、MP3和电话号码之类的其它多媒体数据。当用户访问各个站点时,相关信息被收集。收集的信息可被分类为显式信息或者隐式信息;可同时收集这两种数据。隐式信息包括用URL来表示的Web站点的名称,而显式信息包括关于各个Web站点的投票响应、评论和喜好。
和目前应用的各种技术相反,包含在本发明中的系统和方法可被表征为分布式的,或者“开放式的”,因为信息的本质和信息的位置都不是数据收集、累积以及随后的实现的障碍。例如,这里描述的系统和方法的应用不依赖于入口类型技术,所述入口类型技术偏爱由许可的内容提供者供给的信息。因此,本发明的系统和方法适合于相对于整个搜索空间收集和累积数据;即,由于在客户机一侧监视数据,并且数据被保存在中央服务器,因此可供收集和利用的信息并不受入口站点的操作者或者其它信息内容提供者的选择性限制,而是可以扩展到可从客户机一侧到达的任意各个站点。
另外,监视并不局限于浏览器或者其它因特网工具技术,而是可扩展到诸如收音机、电视机、电话和个人通信系统(PCS)、个人数字助手(PDA)、录像机、机顶盒之类的其它类型终端。通过本领域已知的有线或无线技术,这些各种其它终端可恰当地和诸如配有浏览器的个人计算机之类能够接入因特网的终端相连。通过恰当的硬件连接和软件通信,系统适合于监视在这些其它终端类型上进行的活动。
在这方面,本发明的系统和方法适合于把HTML平台和其它媒体,例如电视、广播、报纸和人们联系起来。目前,HTML是用于Web设计技术的精选语言;从而,用户对信息内容的访问受Web浏览器约定的限制,即局限于HTML文件或页面。虽然目前的浏览器软件允许显示通过HTML可访问的各种媒体中的信息,但是不能向用户提供对其它媒体的访问。
相反,本发明不仅提供对HTML不能显示的其它媒体,例如实时电视或无线电广播的访问,而且保存在客户机一侧监视的、和这些备选的媒体类型相关的信息的数据库记录;这样,可按照和普通HTML信息相同的方式搜索多媒体数据。目前的技术允许用户搜索集中于特定主题的Web站点或者URL;作为响应,搜索引擎提供和关心的主题有关的URL名单。除了返回相关URL或者Web站点的名单之外,本发明还适合于提供同样和关心的主题有关的人、电视节点或频道、无线电广播信息等的名单。
HTML页面上显示的超链接可使用户直接链接到可在不同的终端或设备上向用户提供的特定电视或无线电广播节目或者其它实况广播上。选择在HTML页面上显示的这种链接会启动用来和超出HTML范围的其它媒体互动的软件编程。如上所述,连同恰当的硬件连接一起,本发明的软件代码可控制通过其它类型的终端,例如电视机、录像机和收音机显示或获取的内容。
本发明利用浏览器嵌入软件实现在客户机一侧对用户活动的监视。嵌入的软件适合于提供诸如搜索引擎、广告、调查、吃角子老虎机和彩票之类的特征。常规的浏览器软件具有允许加入系统软件的集成特征。如上所述,嵌入的软件程序代码可提供下述功能客户机一侧用户活动的监视;搜索引擎功能;可相对于用户嗜好定制的横幅广告;调查或投票功能;和彩票。
由于前述特征被包含在安装于客户一方的用户终端上的软件代码中,这些特征是可起作用的,而不考虑当前哪个URL正被载入用户的浏览器中。即,为了利用嵌入浏览器软件中的搜索引擎特征,用户不必访问特定的Web站点,例如搜索引擎Web站点。由于搜索引擎功能包含在访问保存在服务器上的数据库的浏览器嵌入软件中,因此在起动搜索之前,用户不必到达传统的搜索引擎站点。
另外还提供增强的横幅广告功能。传统的横幅广告方法依赖于在服务器一方监视的数据;从而,只有当用户正在访问进行服务器一方的监视的特定站点时,这些系统才能定制呈现给该用户的广告。通过把横幅广告特征集成到浏览器嵌入软件中,并且通过利用在客户机一方监视的并保存在中央服务器上的数据,本发明的系统能够向用户呈现定制的横幅广告,而不考虑用户在搜索空间中的位置。
另外,如上简要所述,浏览器嵌入软件能够与不同的多媒体终端通信。通过网络硬件装置的软件控制,嵌入浏览器中的系统软件能够实现数据监视并从基于非HTML的消息来源收集数据,以及各种多媒体终端的控制。
本发明还提供利用被监视数据和用户投票历史的先进搜索引擎分级和过滤方法。常规的搜索引擎根据一个或多个预定算法对搜索结果排序,所述一个或多个预定算法以元标记或者其它元数据、查询关键字的出现次数、文件内关键字的位置或者这些因素的某些组合为基础。从而,对于基于指定关键字的各个搜索,典型的搜索引擎提供按照相同顺序排列的相同结果;这些结果既不基于不同站点相对于指定关键字的真实相关性的量度,又不基于在这些站点提供的用户的评价信息。
虽然存在通过改进现有的搜索引擎,提供更好的搜索结果的许多尝试,但是很少成功。本发明的系统和方法通过利用在中央数据库中记录的隐式和显式数据,根据关于作为任意指定搜索的结果而返回的各个站点的已知信息改进搜索,能够实现更有意义的搜索结果。从系统的所有用户收集的访问历史和投票记录被用于评估潜在的搜索结果,并对潜在的搜索结果排序。从而返回的结果更有意义。随着数据库的增大,关于相同查询的搜索结果会随着时间而改进。
例如,目前的搜索引擎技术返回的URL列表通常包括不再起作用的或者很长时间没有更新的停用链接。本发明的利用显式和隐式监视数据来评估各个URL的策略消除了停用链接作为搜索结果被返回的可能性,因为用户不可能对这种站点投赞成票,从而,很少有用户会访问这样的站点或者在这样的站点消耗大量的时间。
然而目前的搜索引擎可能向实际上和特定查询关系不大的链接分配较高的相对优先级,通过检查关于各个站点的显式数据,克服这种局限性;作为相关性确定中的一个因素,可分析人类输入,借此使相关性的评估更可靠,从而搜索结果更准确。
另外,个人或者定制的搜索引擎可以关于系统的各个用户的秘密监视的数据为基础。这种搜索功能和上面描述的相似;但是,根据本发明的这一方面,个体数据被应用于进行搜索的每个用户。于是,通过利用关于各个个体收集的用户简档信息,系统能够提供定制的搜索结果。因此,各个用户的搜索结果可能不同,即使两个用户进行使用相同关键字的搜索,因为每个用户的简档是唯一的。例如在第一个用户对Toyota汽车感兴趣,第二个用户喜爱Honda汽车的情况下,他们都执行利用关键字“汽车”的搜索,对于第一用户来说,本发明的系统把和Toyota相关的站点排列在较前面,对于第二用户来说,把和Honda相关的站点排列在较前面。
这样的搜索策略反映了各个个人的简档数据,并且适合于提供按照和各个搜索用户的独特简档数据的相关性递减的顺序排列的搜索结果。同样,可用的用户信息越多,则对于指定查询来说,搜索结果将随着时间而越来越好。当用户的简档变得更全面时,系统具有可用于定制搜索的更多、更好的数据。
这样,用户嗜好可被看成搜索过程中的驱动因素,和上面的汽车例子中一样。虽然许多常规设计的基于Web的搜索引擎试图根据相对于查询项的相关性,对URL名单排序或者排队,但是目前的技术没有考虑到单个用户的嗜好和习惯。另一方面,本发明的系统和方法通过采用关于各个特定用户的嗜好累积的数据,产生各个用户的独特经历,以便按照和各个用户的个性和爱好更相符的顺序对搜索结果排序。
根据本发明的另一方面,多媒体搜索引擎借助用户或人类输入利用和获取各种类型的信息。因此,除了普通的URL结果之外,搜索结果可包括关于人、电视、视频、MP3和其它的详细名单或信息。由于人类知识包含在该系统中,并且在中央数据库中被分类,因此可包括HTML领域之外的信息,例如电视、广播、MP3等等。可在HTML中表述这些其它媒体的参考,并且可提供访问这些其它媒体的参考的链接。
例如,通过选择代表电视节目的链接,可在如上所述与系统相连的电视机上显示对应的电视节目。此外,如果用户打算进行把电视节目的名称用作查询关键字的搜索,则搜索结果会产生共有和电视节目的主题一致的嗜好和习惯的人的姓名。通过沿着出自作为搜索结果返回的人名之一的链接(所述链接可显示在HTML页上),可在与系统相连的电视机上观看该电视节目。
根据本发明的这一方面,指定的搜索结果可返回超出HTML的多媒体内容的许多链接。从一个或多个这种链接,可发出多级链接。即,不是仅仅返回相对于电视节目的链接,或者仅仅返回相对于特定用户的相关个人信息的链接,相反,搜索结果可返回相对于其它用户、其它类型的节目(不仅是电视,而且还有MP3、或者广播等等)的其它链接级,以及超出此范围之外的其它链接级。结果将是树形链接。从而,关于特定电视节目的链接会产生关于其它类型的多媒体内容的链接,包括个人的介绍、他们的嗜好等等。这些链接又可链接到超出HTML之外的其它类型的多媒体信息。
本发明的另一重要方面涉及开放式站点推荐服务。显式用户输入和源于用户行为的隐式用户数据可被监视,从而能够了解单个用户的嗜好和偏爱,并将其保存在中央数据库中。开放式推荐系统和方法随后可采用这些嗜好和偏爱使信息检索的过程个性化,并且帮助用户判定指定用户最想要的信息。
由于大量的数据保存在涉及HTML页面的中央数据库中,因此系统可采用适合的程序代码来推荐和单个用户的简档中的数据相一致的某些站点。在系统根据关于数据库中记录的不同站点了解的信息,以及根据涉及用户嗜好的显式和隐式数据进行推荐或建议的情况下,对于用户来说,信息定位和检索将更高效。
重要的是,本发明的推荐功能得到本发明的客户机一方进行监视的特征的加强;系统可推荐已记录在中央数据库中的每个Web站点、URL、人、多媒体或者其它类似的信息来源。而典型的入口站点只推荐入口操作者拥有或者许可的信息,本发明并不局限于此,并且能够推荐来自搜索空间中的任意地方的站点或者其它消息来源,而不考虑该信息的位置或者所有权。从而,根据本发明的第一方面提供了发明人称之为“知识服务提供者”或者KSP的功能。从客户机一侧累积的信息当然构成知识;按照各种方式使用户能够获得这些知识,包括(但不局限于)识别指定用户的嗜好,并且向指定用户提供涉及这些用户嗜好的相关信息。
根据本发明的另一方面,系统和方法适合于推荐或建议与特定的人联系。通过关于各个用户收集的隐式和显式数据的有效利用,本发明允许一个用户找出其它相容的人进行联系。这简化了用户之间的通信,并且鼓励大规模的信息交换。
就用户的嗜好或者“简档”来说,常规的聊天室、新闻组或者公告板服务(BBS)(它们都简化了用户之间的往来对话)存在不足。重要的是,在这种场所产生的任意用户简档完全是本地的,只可使用户与本地系统的其它用户通信,即这些系统固有地被封闭或者被集中。采用常规技术的用户必须首先找出在其中进行交流的适当站点或论坛;只有这样用户才可尝试找出与之对应的其它人。
相反,本发明可采用用户简档中的显式数据和隐式数据联系具有共同兴趣、相似个性或者共同朋友的用户,而不存在目前的封闭系统中固有的局限性。用户不必搜索论坛或者其它聊天站点,因为系统本身提供通信的机制;系统易于提供其它用户和他们的显式数据,以及适当的用户简档数据,以便简化具有相似兴趣的人的选择。由于关于喜爱的URL或者最频繁搜索的关键字的隐式数据包含在用户的简档中,可向其它用户保证系统的关于相容之人的建议或者推荐是准确的。这是本发明的“知识服务提供者”(KSP)的另一方面。
本发明的另一特征是本发明的收集好的信息内容的方面的改进。根据本发明的该改进方面,提供选择好的信息内容并向用户推荐所述信息内容的服务。本发明的这一方面消除了对收集必要信息内容的需要,以及对使内容保持最新的需要。这些努力成本又高又费时,并且一直不是十分有效。上面刚刚提及的需要被本发明的其它方面,以及被Web站点所有者和因特网用户,尤其是利用本发明的这些其它方面的那些所有者和用户所满足。
重要的是,本发明的系统和方法适合于提供指示用户和当前被载入用户的浏览器中的页面或URL之间的相似程度,或者用户和系统的其它会员或用户之间的相似程度的匹配程度计量器或者相容性标准尺。可向用户提供关于“匹配”或者相似程度的图形显示或者数字指示。由于各种因素的缘故,这种程度会发生变化例如特定站点的内容会随着时间而变化,或者在系统的正常及不断增多的应用中,用户简档中的信息会发生变化。如同上面指出的一样,匹配信息可包括一个用户和利用该系统的其它人之间的匹配程度。在已知不同用户的简档中相对匹配信息的指示的情况下,一个用户可选择链接到简档最相符的用户上,而不是选择其嗜好看起来相当不一致的一个不同用户。
参考附图,根据本发明的优选实施例,本发明的上述及其它附带优点将变得更加明显。


图1是根据本发明构成的系统的一个实施例的简化图。
图2是本发明采用的分布式监视过程的一个实施例的简化图。
图3是本发明采用的数据聚集过程的一个实施例的简化图。
图4是本发明的开放式推荐系统和方法的一个实施例的简化图。
图5是本发明的系统和方法的功能的示意图。
图6是由根据本发明修改的标准Web浏览器软件采用的图形用户界面的表示图。
图7是根据本发明一个方面排序的搜索结果的表示图。
图8是根据本发明另一方面排序的搜索结果的表示图。
图9是本发明的分布式监视系统的一个实施例的简化图。
具体实施例方式
现在参见附图,图1是根据本发明构成的系统100的一个实施例的简化图。中央服务器120具备可从能够接入因特网的任意机器访问的程序代码,例如JAVA代码,或者其它适当的程序设计。位于远程位置的用户可通过工作站、桌上型计算机、或者便携式笔记本计算机或膝上型计算机,或者通过诸如便携式个人通信系统(PCS)或个人数字助手(PDA)设备之类的无线或手持式终端接入因特网,于是接入中央服务器120。如同本领域中已知那样,也可通过传统的陆线电话连接,通过诸如ISDN、DSL、T-1、T-3、同轴或光纤电缆之类的高带宽连接,或者通过蜂窝或无线数字技术接入因特网。
中央服务器120上的程序代码包括记录信息并对其分类的中央数据库,并且还适合于与位于远程位置,例如用户的计算机终端上的辅助程序代码140通信。程序代码140可从中央服务器120传输或者下载到用户终端上,或者从磁性媒体、光学媒体或者其它媒体安装到用户终端上。在图1中举例说明的例证实施例中,程序代码140可与因特网导航软件界面,例如可包含在信息终端180中;另一方面,程序代码140可提供因特网导航功能。
本领域的技术人员将认识到包含在信息终端180中的典型浏览器软件通常适合于被其它软件,例如程序代码140修改,所述其它软件既可改变浏览器软件呈现给用户的图形用户界面(GUI),又可提供额外的功能。程序代码140可包括下述功能“浏览器一方”或者“客户机一方”监视用户的浏览行为;搜索引擎功能;可根据被监视用户的嗜好定制或个性化的横幅广告;调查或投票功能;和彩票,吃角子老虎机,或者其它类型的运气游戏。
作为辅助功能的一部分的广告或游戏的提供正好在本领域普通技术人员的能力范围之内。广告的提供本身已为人们所知;但是,利用已知的各种统计或加权函数,根据用户或群体简档和嗜好定制广告在本发明的预期中。重要的是,由于在客户机一侧,广告功能被集成到程序代码140中,并且其应用并不依赖于特定网站的服务器一方的监视,因此针对性的或者定制的广告不受目前被加载到浏览器软件180中的特定URL的限制。
可通过插入工具条或者可包括下拉菜单、操作按钮等的其它交互式界面,实现GUI的改变,通过所述工具条或者其它交互式界面,用户可以使用系统的能力,或者保持对系统能力的控制。在这方面,程序代码140不仅简化用户终端和中央服务器120之间的通信,而且还用作用户和本发明的系统之间的前端界面。
在操作上,位于用户终端的程序代码140适合于接受直接从用户输入的数据,还可监视浏览器软件的活动,以便收集关于用户的浏览行为、习惯、嗜好、偏爱等等的信息。例如,当用户的浏览器软件与特定网站相连或者浏览特定网站,例如可保存在Web服务器198上的一个特定网站时,程序代码140可把关于该事务的信息从用户的计算机终端传送给中央服务器120。本实施例中可监视的例证数据可包括信息终端180通过浏览器软件访问的网站的统一资源定位符(URL);可从该网站的超文本标记语言(HTML)代码解析出的URL信息。另还还可记录浏览该网站之前,用户提交的关键字或者检索词,以及访问的持续时间。
如图1中所示,在用户的终端,或者在浏览器一侧或者在客户机一侧监视或收集数据。可通过来自用户的直接输入,或者通过信息终端180中程序代码140和浏览软件之间的界面进行这种数据收集。随后,程序代码140可把收集的数据传送给中央服务器120,以便记录、分类和与从其它用户收集的数据聚合。在希望或者要求保密或者专用传输的情况下,可通过防火墙130或者其它安全机构进行远程终端上的程序代码140和中央服务器120之间的传输。
由远程终端上的程序代码140收集的信息一般可被分类为隐式数据或显式数据。在如上所述,程序代码140只监视用户的浏览行为,例如通过跟踪所访问的URL和每次在指定站点停留的持续时间的情况下,收集的数据被分类为隐式数据,因为输入既不是主动向用户请求的,也不是作为特定的用户操作直接接收的。用户可能希望使隐式数据监视功能无效。另一方面,通过与程序代码140的直接互动,可以用户输入的信息的形式收集显式数据。例如,用户可选择由程序代码140启用的增强界面所提供的操作按钮,这种选择会调用程序脚本,所述程序脚本允许用户进行关键字搜索,或者输入和在用户当前正在访问的网站提供的信息的质量有关的书面评论或者意见。另一方面或者另外,程序代码140使用户能够参加正在进行的与同时访问该网站的其它用户的对话,或者为其它瞬时用户张贴消息。
可以同时收集隐式和显式数据。在一个实施例中,收集的数据可包括下述一些或者全部访问的URL;在各个站点花费的持续时间;用户和各个URL或站点相联系的关键字;用户输入的和各个站点相关的显式评论;通过投票的各个站点的用户评价;和URL或人相关的推荐的接受或拒绝;和其姓名卡片(name card)已被获取和/或收集的其它用户相关的数据;用户联系的人们;和用户ID。从站点和URL本身可获得其它信息,并且可获得涉及其它多媒体的数据,例如和电视和无线电广播,人们、MP3、地址、电话号码等等的信息。从而,除了Web服务器198之外,信息终端180可以多种已知方式与电视台196,广播站197和MP3站199交互作用。例如,电视信号(在这种信号内包括垂直消隐间隔)具有包含诸如节目字幕、节目概要、演员表之类信息的足够容量。类似的信息(例如歌曲名称、作曲者、演唱者、作词者等)可包含在无线电信号或者MP3信息的各个部分中。这种技术也在本领域的普通技术人员的能力范围之内,因此这里不进行详细说明。如同这里将更详细说明的一样,也可作为用户嗜好的识别的一部分获取这种信息,并且与其它用户和他们的嗜好进行匹配。
当用户在浏览话路中访问不同的站点时,在客户机一方收集相关信息,并将其传送给中央服务器120,在中央服务器120,收集的信息可保存在与该用户、该URL或者站点本身相关,或者与该用户和该URL或站点都相关的适当数据库记录中,如下所述。
在这种信息收集策略的一个实施例中,通过利用浏览器软件或其它因特网工具,借助信息终端180完成监视。信息终端180与各种信息源,例如图1中的电视台196、广播站197和MP3站199相连。信息终端180又和多媒体终端185通信,或者在某些情况下控制多媒体终端185。这种多媒体终端可包括无线电、电视、电话、PCS、PDA、录像机、卫星或有线电视接收机或者机顶盒,或者能够接收和发射数据的基于微处理器的其它设备。在该实施例中,前述及其它各种多媒体终端可通过例如导线、电缆、电力线或者本领域中已知的无线组网技术恰当地与能够接入因特网的终端,例如配有利用系统的客户机一方的程序代码140修改的浏览器软件的信息终端180相连。通过恰当的硬件连接和软件通信,系统适合于监视在这些其它终端类型上进行的活动。Jini(tm)代码非常适合于使链路启动恰当的设备。利用Jini(tm)编写恰当的执行程序同样在本领域普通技术人员的能力范围之内。还存在其它技术,例如NipponTelephone and Telegraph(NTT)的I-模式,根据该模式,用户可借助来自用户的蜂窝电话机的信号打开或关闭电视机或收音机。
例如,程序代码140可包括与和多媒体终端185交互的网络界面装置182,例如红外或射频收发器、电力线网络适配卡或者本领域中已知的其它常规网络硬件通信的适当例程。程序代码140可接收和发送数据,以便监视在一个或多个信息源196-199的活动。呈隐式数据形式的信息,例如电视机或收音机(作为多媒体终端185的例子)可调到的电视频道或广播台,例如由有线或卫星节目提供者提供的用于屏幕显示的节目名称和主题,拨打的电话号码,活动持续时间等等可通过网络界面装置182从多媒体终端185传送给位于信息终端180的程序代码140。正如HTML数据的情况一样,程序代码140随后可把这样收集的多媒体数据传送给中央服务器120以供分类、记录和聚合。用户可能希望使这种隐式多媒体数据监视功能无效。
通过程序代码140实现的网络界面装置182的软件控制不仅能够实现一个或多个多媒体终端185上用户活动的客户机一侧隐式数据监视,而且还简化了从信息终端180对这种多媒体终端185的控制。如果用户选择代表电视节目的HTML链接,则信息终端180中的浏览器软件可把该选择传递给程序代码140,程序代码140随后可通过网络界面装置182发送数据命令,启动与系统相连的电视机或者其它多媒体终端185,并且把接收器调到恰当的频道,从而在电视机上显示电视节目。
要注意的是虽然为了便于说明,网络界面装置182和多媒体终端185被表示成和信息终端180分离,不过把一种或多种多媒体终端180包含在信息终端180中,以及把适当的网络界面装置182包含在信息终端180中在本发明的预期范围之内。
图2是本发明采用的分布式监视过程的一个实施例的简化图。图2中的中央服务器220代表上面参考图1说明的相同中央服务器120;另外,图中还表示了保存在中央服务器220的数据库225。如上所述,与服务器一侧相反,在客户机一侧监视用户活动;这种客户机一侧监视方案被分布或者开放到这样的程度,即监视系统的整个功能不依赖于单个站点或服务器的能力,收集的信息的应用也不局限于特定的站点。
更仔细地观察图2,若干Web站点被表示为附图标记293-299;若干用户的具有因特网能力的计算机终端被表示为附图标记210-214,每个所述终端位于不同的远程位置。如图2中的实箭头所示,位于远程终端210的用户可访问Web站点293、395、297和299。图2中举例说明的分布式监视系统的一个优点在于借助上面说明的程序代码,可把关于各个受访Web站点293、295、297和299的信息从远程终端210传送给中央服务器220,而不考虑在Web站点293-299本身是否支持本地监视;相对于中央服务器220的这种数据传输在图2中由虚箭头代表。如上所述,既支持代表被监视的用户活动的隐式数据的传输,又支持代表用户意见、评论、推荐、投票行为等的显式数据的传输。
在远程终端210监视的客户机一侧的数据可在中央服务器220由程序代码分类和拣选,并且据此保存在数据库225中。要认识到随着主动参与分布式监视系统的远程终端210-214的数目的增大,数量日益增大的信息可累积在数据库225中,从而可供检索之用。
而在特定站点或公司的服务器一方累积的知识库的应用局限于在该处监视和收集数据的服务器、站点或者公司,当用户从一个站点浏览到另一站点时,在客户机一侧监视用户活动的策略使得图2中举例说明的系统能够从许多来源收集数据,并且能够在除了最初收集数据的位置之外的其它位置中实现累积的数据。其结果是一种开放式的知识库,它起源于本发明的在客户机一侧,而不是在服务器一侧进行监视的分布式监视系统。
图3是本发明采用的数据聚集过程的一个实施例的简化图,它可把如图2中举例说明的分布式监视方案用于自多个远程信息来源的数据采集。和图2中举例说明的情况相反,所有远程终端310-314主动参与某一类别的网络活动,安装在各个相应终端310-314中的程序代码正在监视客户机一侧的活动,而不考虑正在相应Web站点393-399进行的任何本地服务器一侧的监视。如图3中虚线所示,借助安装在各个相应终端中的程序代码,每个远程终端310-314既可传送和特定用户访问的各个Web站点393-399相关的隐式数据,又可传送和每个相应用户的反馈、评论、推荐、投票行为等相关的显式数据。
和图2相反,图3中举例说明的情况涉及收集数据以便记录在数据库325中的所有远程终端310-314。因此,最后分类并保存在数据库325中的数据相应更多。中央服务器320可被设计成以致数据库325具有用于采用该系统的众多用户的足够容量,并且可以升级,以便当用户数目扩大时容纳更多的通信。
现在转向数据库325本身的结构。重要的是注意系统的每个用户在中央服务器320具有相关的数据库记录。在任意指定的用户记录中,可保存和用户的嗜好和习惯,即用户简档相关的各种信息。通过搜索结果的定制分级或者通过针对性的站点推荐,系统可访问并利用记录的数据使每个用户的互动经验个性化。另外,可使用户简档数据,尤其是用户输入的显式数据适用于其它用户,从而用户,以及每个用户必须提供的知识和推荐被系统识别为可搜索的信息。从而前面提及的开放式知识库构成系统可以使用的可搜索信息。
此外,统计数据可保存在数据库325中。就统计数据不必涉及单个用户的简档来说,该统计数据可被认为是通用的或者“全局的”。相反,统计数据可和系统上的所有用户最频繁访问的URL,与之相关的关键字、感兴趣的最新主题等等有关。从图3的检验可知,本发明的系统和方法适合于聚集和各个单个Web站点393-399多得多的信息。另外,各个用户输入的显式数据并不仅仅局限于HTML技术,虽然通过HTML链接可访问这种数据。例如,用户可提供不是HTML格式的和电视、广播或者视频广播相关的信息;从而,可独立于在环球网上通常可搜索的HTML文件保存统计数据。
图4是本发明的开放式推荐系统和方法的一个实施例的简化图。如上所述,除了在保存于中央服务器420的数据库425中累积记录之外,本发明的系统和方法还适合于以这样的方式实现记录的数据,以便定制目前支持的因特网活动的其它非个人的方面和特征。
和图2和3中分别描述的数据收集和数据聚集情况相反,图4图解说明在数据实现或者开放式推荐过程中,数据流的方向被反转。保存在中央服务器420的程序代码421适合于和各种远程终端,例如附图标记410-414表示的那些远程终端通信。对来自安装在远程终端,例如终端412的程序代码的请求起反应,程序代码421可以请求从数据库425抽取数据,根据远程终端412请求的操作的特性处理该数据,并且随后把任意数据处理的结果传送给终端412。
作为数据处理的结果,终端412随后可和其它终端,例如终端410或413通信。终端412还可访问Web站点,例如Web站点495或499。如前参考图1说明的那样,响应从位于中央服务器420的程序代码421接收的信息,安装在终端412中的程序代码也可与网络界面装置通信,所述网络界面装置可控制诸如电视、视频或音频接收器或者记录设备之类的多媒体终端。这种进一步的通信目的在于帮助终端412的用户检索和用户的简档中的信息一致的数据、广播或其它信息。
操作上,程序代码421用于使与中央服务器420相连的各个远程终端410-414和系统的功能性接口,所述系统功能性又由数据库425中数据记录的累积启用。如上所述,程序代码421最后可对来自安装在和中央服务器420相连的任意远程终端上的程序代码的请求起反应;因此,程序代码421执行的功能如下所述发生变化。
图5是本发明的系统和方法的功能的示意图。在图5中的中心,中央服务器被指定为附图标记520,并且可包括分别由附图标记522和523代表的关于HTML数据和多媒体数据的数据库记录。举例来说,在图5左侧图解说明的项目代表可如上参考图1-3说明那样收集和聚集的隐式数据和显式数据的特性。如图5中所示,可在中央服务器520聚集、分析和组织在客户机一侧监视的数据,随后按照用户简档、统计记录、HTML数据、多媒体数据等将其保存在恰当的记录中。
匹配引擎550接受来自于HTML数据库522和多媒体数据库523,以及中央服务器520的输入,并且如下对用户简档和爱好分类。可产生许多类别(例如100个)。对于每个类别,可存在与之相关的一组字词(例如100个)。例如,对于“款式”来说,可存在诸如尺寸、颜色、样式、商标、性别之类与之相关的字词。对于“体育”来说,诸如棒球、足球、高尔夫球、曲棍球之类字词可与之相关。
可以各种方式进行关于指定类别的恰当关键字的识别。一种方式可以是预先获得与指定类别相关的若干页面,并且进行词法分析,以便识别在这些页面内以某一预定频率出现的非类属字词。这些非类属字词随后会是整个关键字列表的一部分。
通过识别类别以及和每个类别相关的字词,可存在例如10000个关键字的词汇索引,当用户移动到不同的网页时,客户机一侧的软件将监视所述关键字的出现。还存在与不同关键字相关的加权,从而某些字词,例如“棒球”可在体育类别内得到和某些更专业的字词,例如“投手”或“接球手”不同的加权。这种加权可以是静态的,即预定的,或者可根据不同的考虑因素而变化。
可根据预先提供的用户嗜好列表确定加权。例如,如果用户把体育标记为关心的领域,则和用户不把体育标记为关心的领域的情况相比,用户访问的网页中字词“棒球”的实例可被赋予更高的加权。例如,对影星感兴趣的某人可访问讨论Marilyn Monroe(嫁给棒球运动员JoeDiMaggio的女演员)的网页。和查阅DiMaggio相比,对于该用户来说,Marilyn Monroe查阅的加权系数更大。另一方面,用户可能对体育感兴趣,并且可访问与Marilyn Monroe结婚的Joe DiMaggio的网页。对于该用户来说,和查阅Marilyn Monroe相比,DiMaggio查阅的加权系数更大。
当客户机一侧的软件识别这些关键字并计数这些关键字中各个关键字的出现时,相对于该特定用户更新服务器一侧的数据库,这样,该用户的嗜好和要求的分类越来越细。
利用通过受访网页中关键字的出现而识别的用户嗜好,能够识别用户嗜好的向量。随后把可被恰当加权的这些向量和其它用户的向量进行匹配,以便识别具有相似兴趣的用户。
中央服务器的程序代码,例如上面参考图4说明的程序代码421代码支持在图5的右侧描述的推荐功能。虽然本领域中已知许多分级或分类引擎,目前的技术没有把用户简档数据包括在分级程序中。本领域的技术人员要认识到编程脚本可把用户简档数据和直接从HTML代码解析出的统计数据或信息进行比较,以便向相对于特定用户的特定站点分配兼容性的相对量度。类似地,编程脚本可比较保存在两个用户的相应简档中的相应数据,并且随后计算用户自己的相容性的相对量度。
操作上,用户简档信息,例如经常访问的URL,最频繁提交的关键字等等可被图5中图解说明的推荐和分级引擎中的程序代码采用。来自各种推荐和分级引擎的输出可被传送给安装在远程终端上的程序代码,所述远程终端上的程序代码再向用户提供显示。如上参考图1说明的那样,所述显示可与由标准浏览器软件代码提供的GUI界面。
关于系统的例证能力(一般由在图5的右侧描述的附图标记524-529表示),位于中央服务器和用户的远程终端的程序代码都可在单一的综合系统中提供许多先进特征。例如,本发明可提供对例如在529举例说明的BBS类型服务的使用,使用户能够交换关于各种感兴趣主题的基于文本的评论。该系统和方法还可提供对不能由基于HTML的浏览器显示的多媒体格式,例如电视或无线电广播的使用。显示在HTML页面上的超链接可用于直接连接用户和特定的电视节目或其它实况广播。选择在HTML页面上显示的这种链接可启动被设计成与超出HTML范围的其它媒体交互作用的一个或多个软件编程脚本。
便利的是,本发明的系统和方法适合于提供先进的搜索引擎分级和过滤功能,所述搜索引擎分级和过滤功能利用了对于系统的所有用户,在中央服务器记录的监视数据和用户投票历史。这种分级引擎被表示为附图标记524。常规的搜索引擎由基于关键字频率或元标记的预定算法驱动,从而提供搜索结果或者“命中”,所述搜索结果或者“命中”既不以各个站点和指定关键字的实相关性的量度为基础,又不以在这些站点提供的信息的用户评价为基础。另一方面,本发明的系统和方法通过利用在中央数据库中聚集的隐式和显式数据改进搜索,能够获得更有意义的搜索结果。
根据一个实施例,分级和过滤引擎524可采用和已提供肯定反馈和每个用户最频繁地与特定站点相联系的关键字的用户的数目有关的统计数据;通过这种过滤可识别官方、民众和相关站点,并据此分级。重要的是,收集的关于站点的信息并不局限于其关心的信息由批准的内容提供者供给的入口型技术。由于在客户机一侧收集数据,并在中央服务器聚集,因此适合于被记录并且随后被实现的信息并不受入口站点的操作者或者其它信息内容提供者的有选择限制,而是被扩展到从客户机一侧可到达的任意各个站点。
利用显式和隐式监视数据来评估作为潜在搜索结果的每个URL消除了作为命中返回的停用链接的可能性,因为用户不可能投票赞成这种站点,从而较少用户会访问这种站点。通过在中央服务器520的数据库中编辑来自注册用户的数据,关于任意指定查询的搜索结果将随着时间而改进;当更多的数据被添加到该数据库中时,可消除停用链接和无关站点,能够更容易地识别出最相关的站点。不断改进的结果和已知的搜索引擎形成对照,当增加网页时,已知的搜索引擎可提供更多的结果,但是不是更好的结果或者是不同的结果。
类似地,个人或者定制的搜索引擎525可以私下监视的和系统的各个用户相关的用户简档数据为基础。可分析从特定用户简档抽取的个人数据,并将其和进行搜索的各个用户的前述统计数据进行比较。于是,通过利用关于各个个人收集的用户简档信息,并且通过把用户简档数据和关于指定的潜在搜索结果的统计数据进行比较,系统可提供定制的搜索结果。至少部分地作为与用户简档数据的比较结果的函数,可以对各个预期的搜索结果进行加权或分级。
在两个用户进行查询项或关键字为“汽车”的搜索的情况下,两个用户想的可能不是相同类型的汽车。第一个用户可能喜爱跑车,从而在第一个用户的简档中可能存在关于汽车竞赛、驾驶学校和赛车驾驶员俱乐部的数据;另一方面,第二个用户可能喜爱运动型多用途汽车,由第二用户的简档中涉及4轮驱动汽车和越野驾驶运动型多用途汽车的最佳地点的地图的记录所证实。在相同的关键字“汽车”的情况下,第一个用户的搜索结果可具有利用较高的相对优先级或权重分级的涉及跑车的命中记录,而第二个用户的搜索结果可具有利用较高的相对优先级分级的涉及运动型多用途汽车的命中记录。这种搜索策略反映了各人的个人简档数据,并可提供搜索结果以便降低相对于各个搜索用户的独特简档数据的相关性。
如前提到的那样,随着用户的简档变得更全面,以及随着更多的数据被添加到数据库中,搜索结果将改进。例如,如果跑车爱好者对Ferraris的嗜好成为该简档的一部分,则搜索结果将会集中于这些特定的跑车,或者非常昂贵的汽车,或者意大利跑车。
如前所述,多媒体搜索引擎526利用并访问通过用户或人类输入而提供的各种信息。因此,除了普通的URL结果之外,搜索结果还可包括关于人、电视、视频、MP3及其它的逐条记载的列表或信息。在数据记录存在数据库中的情况下,通过使电视节目的主题和特定的关键字相关,该关键字的搜索将返回可能相关的任意URL以及该电视节目记录。由于人类知识被包含在该系统中,并且在中央数据库520中按目录分类,因此HTML领域之外的信息,例如电视、广播、MP3等等可记录在数据库520中,在数据库520中,已如同参考图1说明的那样进行了多媒体终端的隐式监视,或者一个或多个用户已提供关于多媒体主题的显式数据。数据库520构成上面说明的开放式知识库。
可在HTML中表述这些其它媒体的参考,并且可提供链接以便访问这些参考。例如,通过选择代表电视节目的链接,可在与系统相连的电视机上显示相应的电视节目。通用远程控制及其它各种基于无线或有线的组网装置或者适配卡目前能够使单个设备通过红外或射频传输或者其它通信技术控制其它不同终端。在这种设备在操作上和用户的计算机终端和由嵌入用户的因特网浏览器软件中的程序代码控制的软件耦接的情况下,HTML超链接可用于调谐数字无线电接收器,对盒式磁带录像机编程以便在特定时间记录特定的电视频道等等。
此外,由于系统能够使用用户输入的显式数据,因此根据记录的显式数据的特性,可产生各种关联。如果用户要进行把电视节目的名称作为查询关键字的搜索,则搜索结果可得到共有和电视节目的主题一致的嗜好和习惯的人名。通过沿着出自作为搜索结果返回的人名之一的链接(所述链接可显示在HTML页上),可在与系统相连的电视机上观看该电视节目。同样,当数据库中记录的大量信息变得更全面,系统将更有能力把不同用户的简档和关于多媒体主题的数据联系起来。
体现在本发明中的程序代码还可利用显式用户输入和源于用户行为的隐式用户数据对单个用户的嗜好和偏爱分类,并把监视的信息保存在中央数据库中。重要的是,开放式推荐系统和方法随后可采用这些嗜好和偏爱使信息检索的过程个性化,并帮助决定指定用户最想要的信息。根据已知的用户趋向和与不同站点相关的统计数据,目标站点提名系统或推荐引擎可建议特定的URL。
由于关于HTML页的大量数据被保存在中央数据库,系统可采用前述程序代码推荐和单个用户的简档一致的某些站点。这样的站点推荐引擎被表示为附图标记527。在系统根据和数据库中记录的不同站点相关的已知信息,以及根据和用户的偏爱有关的显式和隐式数据进行推荐或建议的情况下,对于用户来说,信息定位和检索更高效。
同样,由于本发明利用在客户机一侧收集数据的分布式监视系统,因此在范围方面,站点推荐引擎527并不局限于特定入口操作者喜爱的或者可通过常规搜索引擎访问的少数几个站点。本发明的站点推荐引擎527可识别并建议适宜的内容或者相容的站点,而不考虑位置或域;只要可从客户机一侧访问该站点,则关于该站点的信息就可保存在数据库中,从而,系统可向潜在感兴趣的用户推荐该站点。
除了特定用户可能感兴趣的Web站点或其它信息源之外,本发明的系统和方法的程序代码还适合于提供指定用户愿意与之通信的推荐或建议人员(由附图标记528表示)。通过有效利用关于各个用户收集的隐式数据和显式数据,本发明允许一个用户找出其它人员,从而联系在他们相应的用户简档中反映出具有相同兴趣的人。程序代码可分析用户简档,并且根据隐式和显式监视数据识别哪些用户具有对应或者相似的兴趣,从而简化用户之间的通信,鼓励大规模的信息交换。
类似于上面讨论的站点推荐引擎527,人员推荐引擎528并不局限于特定新闻组、聊天室或者BBS的封闭的一组注册会员,相反可扩展到在系统中具有简档或记录的所有人员。由于以在客户机一侧监视的数据为基础的详细记录被保存在关于每个用户的简档的中央服务器520上,因此本发明的系统和方法可向用户提供被推荐或者相容人员的名单,尽管他们和该用户不是相同新闻组的注册会员。
另外,本发明的系统和方法特别适合于指示包含在特定用户简档记录中的数据和与各个站点或者与其它用户相关的数据之间的相似处或差异。例如,可提供匹配程度计或者相容性标准尺,以便显示用户和特定URL之间的相似程度,或者用户和系统的其它会员或用户之间的相似程度。可向用户提供“匹配”或相似程度的图形显示或者数字指示。
要认识到由于各种因素的结果,用户和指定站点之间的相似程度可发生变化例如,特定站点的内容可随着时间而变化,或者在系统的正常并且日益增多的使用中,用户简档中的信息可能发生变化。额外的匹配信息最好包括一个用户和使用该系统的其它人的相对相容性的量度。已知不同用户的简档中信息的相对匹配的指示,一个用户就可选择具有最相符简档的用户的链接,而不是选择其嗜好看起来相对不一致的不同用户的链接。
图6是由已根据发明修改的标准Web浏览器软件,例如上面参考图1说明的浏览器软件180采用的GUI的表示图。如前简单所述,安装在远程终端的程序代码可与中央服务器通信,并且可提供一个界面,通过所述界面,用户可以使用该系统的功能。图6中描述的例证GUI为上面参考图5说明的前述交互功能提供方便的界面。当安装在远程服务器上时,程序代码可按照标准浏览器模式利用该界面机件,或者“异常分支(hook)”,并且可在GUI中安装额外的图文框,例如图6中的工具条641。本领域中已知,工具条641或者其它界面图文框可包括操作按钮、下拉式菜单、启动搜索特征的文本输入框,和接受用户输入的其它GUI器件,以及广告横幅等等。
在一个例证实施例中,工具条641可包括操作按钮或者下拉式菜单,它们提供对显式数据输入脚本的利用。通过从菜单中选择某一项,可向用户提供可输入评论、推荐和其它信息的文本框或者窗口;另外或者另一方面,可按照和目前的新闻组或BBS相似的方式张贴给其它用户的消息,或者实时发送所述消息。所提供的任意这种显式数据可记录并累积在中央服务器,以便如上所述由系统使用。
此外,工具条641可包括允许投票,使用户能够表达特定网站、人员、当前事件或者关心的其它主题的肯定或者否定评论的操作按钮。在图6中,投票按钮由工具条641中的心形物表示。工具条641还可为系统的搜索引擎功能提供接受用户关键字输入的文本框648。
考虑到用户对隐私权的关心,本发明的系统和方法适合于有选择地被停用。为了支持这种特征,可提供工具条641中的操作按钮或者其它机件,以使用户能够关闭或者禁用系统的隐式数据收集功能。图6中,停用功能由工具条641中显示字词“Off”的按钮表示。
在一个实施例中,可在工具条641中设置“相容性标准尺”647,用于提供用户简档数据相对于和正被载入浏览器软件中的站点相关的统计数据的相容性的量度。滑动比例尺、图形或者其它类型的计量器向用户提供和当前站点相关的统计数据与保存在关于用户嗜好的中央数据库中的数据的匹配程度的视觉或者数字指示。图6中,相容性标准尺647中所示的较高水平用于指示用户的简档数据和在中央数据库保存的关于“Hamburger Web站点”的统计数据较一致。当用户从一个站点浏览到另一站点时,随着各个连续的页面或者站点被载入浏览器,相容性标准尺647指示的水平发生变化,从而在正常浏览或者搜索活动中,可在工具条641中向用户提供相容性的显示。
另外,如上参考图1所述,包含在系统中的程序代码能够在工具条641中实现下述功能搜索引擎特征;可按照被监视用户嗜好进行优化或定制的横幅广告;调查或投票功能,它简化了关于Web站点、人等等的显式数据输入;和彩票、吃角子老虎机,或者其它类型的运气游戏。本领域的技术人员会认识到可借助恰当的程序脚本把这些特征包括在工具条641中。
图7和8是根据本发明的不同方面排序的搜索结果的相应表示。图7和8中的主浏览窗口表示分别通过本发明的分级引擎524和个人分级引擎525获得的搜索结果的例子。可在由正被载入浏览器的站点的HTML提供的文本输入框749或849输入关键字查询;另一方面,如上参考图6所述,通过在工具条641中设置的文本输入框648输入的关键字查询,可使用搜索引擎程序脚本。对这样的关键字查询或其它搜索请求起反应,位于中央服务器的程序代码可配合或者监督关于该查询项的数据库搜索。
初始搜索可由位于中央服务器的程序代码进行,或者对于大型的Web入口站点或者基于Web的搜索引擎,初始搜索可以是“out-sourced”。就没有关于进行搜索的特定用户对检索的信息进行过滤或者个性化来说,这样的初始搜索的结果是普通的或者标准的。随后如上所述,通过分级和过滤引擎524(单独地或者和个人分级引擎525一道)过滤这些初始结果。
可按照最初的一般搜索对返回的结果分级;另一方面,在借助分级引擎524过滤之后,可按照对于各个命中记录,以投票输入的形式提供显式数据的用户的数目对结果排序。由图7左侧的括弧指示的头三个结果或者命中记录用附图标记742表示。根据本发明的一个方面,按照各个站点从浏览用户收到的票数安排该分级。从而,按照投票用户的顺序排列图7中所示的例证例子中的结果,同时邻近各个命中记录及其相应的相容性标准尺显示投票用户的数目。
在图7中图解说明的例子中,用户已输入找出关于“hamburger”的信息的查询,人数最多的用户赞同In‘n Out Burger,于是在图7中首先排列该结果。人数第二多的用户选择了Wendy’s,从而该结果被排列在第二位。于是,用户会发现或者得出和“Wendy’s”相比,“In‘nOut”包含更相关的信息。图7中,如上所述,命中记录的顺序由向各个相应搜索结果提供显式投票数据的用户的数目确定;这些结果还没有经受本发明的个人分级引擎525的处理。
由于依赖于群体投票选举偏好,因此在把结果呈现给用户之前,系统没有考虑用户嗜好和与列表中不同搜索结果有关的数据之间的相关程度。从虽然“Carl′s Jr.”得到的票数最少,从而将其置于命中记录列表的底部,但是相应的相容性标准尺指示出用户嗜好和“Carl′s Jr.”中获得的信息之间的最高相对相关程度这点上可看出情况是这样。于是,用户可根据相容性标准尺选择首先浏览“Carl′s Jr.”,尽管在分级中其位置较低。从图7的检查中可认识到,分级引擎524既可向用户提供以投票者数目和命中记录的顺序反映的关于各个命中记录的一般相关性的信息,又可提供与用户的简档数据和在各个站点可获得的信息的相容性有关的信息。
另外,在采用个人分级引擎525的情况下,可根据关于各个命中记录的数据和包含在用户简档中的数据的比较,按照个性化的顺序提供搜索结果。在图8中所示的例证例子中,用户已输入找出关于“hamburger”的信息的相同查询,同样人数最多的用户赞同In‘n Out Burger。和图7中一样,人数次多的用户选择了Wendy’s。但是和图7相反,图8中的结果已被个人分级引擎525处理,从而用户与站点的相容性影响返回命中记录的顺序。虽然“Carl′s Jr.”得票最少,但是由于它具有和用户简档数据的最高相对相容程度,因此在列表中该站点被显示成第一命中记录。
即,当完成初始搜索时,本发明的系统可采用既适合于过滤搜索结果,从而提供有意义的搜索结果,又适合于按照保存在各个用户的简档中的数据对搜索结果排队或者排序的程序设计。根据本发明的一个实施例,可从数据库抽取和各个URL相关的统计数据,并且可被用于按照最受欢迎的或者最频繁访问的URL组织搜索结果。这种统计结果使得能够按照参与分布式监视系统的所有用户累积的所有数据检查URL。本实施例代表海量信息的改进的大规模搜索过滤引擎,例如图5中的分级和过滤引擎524,其例证结果显示在图7中。根据本发明的另一实施例,位于中央服务器的编程代码可抽取进行搜索的用户的数据库记录,即用户简档数据,以及作为搜索结果返回的URL的数据库记录,即HTML数据。该实施例代表独特的、小规模的个性化搜索过滤引擎,例如图5中的个人分级引擎525,用于据此使搜索结果适合用户嗜好的要求,如图8中所示。
抽取的数据库记录的比较可提供特定的HTML文件包含用户认为特别有趣的信息,或者所述特定HTML与所述信息相关的指示。抽取的记录之间的高度相关可被系统理解为用户兴趣和站点内容之间的相容性;相反,用户嗜好和站点内容之间的低相关性或者差异可被系统理解为不相容。位于中央服务器的编程代码适合于对被载入用户的浏览器的或者作为搜索中的命中记录返回的每个URL进行这种相容性分析。
如前所述,可以各种方式向用户显示搜索结果的这种个性化排列或排序结果。在图7和8中,邻近相应的相容性标准尺,例如测量计743或843和关于该命中记录投票的用户数目的数字指示显示各个相应的命中记录。由相应测量计指示的水平用作通过上述相容性分析,由个人分级引擎计算的用户简档中的数据和关于相应搜索结果的数据的相关性的图形显示。
另一方面,服务器的程序代码适合于对搜索结果重新排序,从而可在该列表中更高的位置显示和用户的简档数据最一致的那些URL。在这样的实施例中,其中排列或顺序反映与用户嗜好的相容性,可以不要求或者需要诸如测量计843之类的相容性标准尺,因为和用户简档数据的相对相容程度将作为因素体现在向用户呈现URL的顺序的确定中,如图8中所示。虽然在这种实施例中以命中记录的排序反映相对匹配程度,不过也可提供相容性标准尺,以便向用户显示指示用户简档数据和HTML数据之间的绝对相关程度。
例如,由图7和图8右侧的括弧所示,并且分别由附图标记744和844表示的用户列表已按照进行搜索的用户的相容性的降序进行排列。可利用和上面关于HTML数据说明的相容性分析相似的编程过程确定该排序;但是这种情况下,可从数据库抽取用户简档并且关于相似处和差异检查所述用户简档。用户简档数据之间的相关程度可被编程代码理解为直接和其数据简档被比较的两个用户的相容性有关。
本实施例中,虽然用户列表744或844的顺序表示出关于进行搜索的用户的相对相容性,不过也可提供诸如测量计745或845之类的相容性标准尺,以便向进行搜索的用户提供相对于先前评论特定站点的各个其它用户的绝对相容性的指示。这样,进行搜索的用户可判断是否要对特定选票、评论、批评或推荐给予重视。从而相容性标准尺可向用户建议链接到某些个人(这里“NAMI”)并且通过他们的姓名卡片等获取信息可能是最多产的。
如图7和8中的树形结构所示,用户列表744或844可以是已提供和URL列表742或842中的第三命中记录相关的反馈、评论或者其它显式数据的人的详细名册。对于搜索结果中返回的每个命中记录存在类似的用户名单。可有选择地查看这种提供和特定URL相关的显式数据的用户列表。系统适合于获取由涉及所考虑站点的各个相应列表用户提供的显式数据;于是,进行搜索的用户在浏览到特定站点之前,可以显式用户意见、投票、评论和建议的形式获得重要信息。重要的是,该信息由先前已访问该站点、并且具有关于该站点的足以明确输入想法和评论的强烈意见的人们提供。
除了用作各个列表用户和搜索者的简档的相容性的视觉指示的测量计745或845之外,诸如由附图标记746和846表示的操作按钮图标可和各个列表用户联系起来。选择恰当的操作按钮图标746或846可使搜索者获取和相应列表用户相关的信息。位于用户终端的程序代码可调用另一窗口,其中关于列表用户的电子邮件地址、简档数据、喜爱的站点、评论、投票历史、推荐和其它显式数据可供查看。为了便于到达电子邮件服务器或者引导到推荐的或者非常喜爱的URL或者多媒体功能,可提供超链接。
现在返回工具条641及其内容,本领域的技术人员将认识到可采用各种GUI编程方法使用户能够利用各种各样的系统能力,例如在图5的右侧描述的那些系统能力。可在工具条641中以下拉式菜单或者操作按钮的形式提供对一个或多个BBS或者新闻组系统的访问。通过选择这样的服务,用户可以进入基于文本的消息窗口、对话框、实时交流的聊天室等等。用户可张贴或者传送和关心的任意主题有关的显式数据,以及查看其它用户的输入。这种功能既由位于中央服务器的程序代码所支持,又由位于用户的相应远程终端的程序代码所支持。
另外,工具条641可提供用于调用编程脚本的交互式部件,所述编程脚本允许用户提供关于当前正被载入用户的浏览器中的特定URL或者站点的明确评论和反馈,或者对其投赞成票或反对票。按照上面参考先前已访问某一站点的用户的列表744或844说明的方式,其它用户最好也可获得这样的输入。本实施例中,选择操作按钮可调用用于输入文本评论的文本窗口。这样的显式数据可被传送给中央服务器以便记录在和该特定站点相关的数据记录中;另外,用户简档数据可和该数据记录联系起来,从而能够实现图7和8中所示的树形结构。
也可通过图6中所示的工具条641使用个人推荐功能。如上关于相容性分析说明的那样,可抽取位于中央数据库中的数据记录进行分析和与其它记录进行比较。按照在普通的用户活动中计算相容性等级的相同方式,用户可独立调用适合于提供关于Web站点、人们、地方等等的单独的相容性引擎,例如图5中的推荐引擎527和528。
位于用户终端的程序代码可接纳关于共同关心特定主题的其它用户的名单的请求。位于中央服务器的编程脚本分析用户简档记录,并且提供相容用户的名单,或者建议具有相同兴趣的其它用户经常访问的特别受欢迎的Web站点或者新闻组。类似地,中央服务器可采用代码推荐和特定主题相关并且和用户的简档数据相一致的受欢迎的或者权威的Web站点;连同建议的站点一起,系统另外还可提供喜爱该站点的其它用户的名单,以及他们各自的明确评论。
重要的是,本发明的系统和方法被设计成可监视用户对推荐系统的响应和反应,并且可鼓励反馈;这种监视导致更多并且更好的隐式和显式数据的循环收集和累积。从而,系统可根据在客户机一方监视的隐式数据形成各个用户的越来越准确并且更完整的简档;另外,在显式数据的记录中累积的大量知识和信息可扩展到提供和不断扩展的一批主题和人们相关日益详细并且更有用的评论和推荐。
图9是本发明的分布式监视系统的一个实施例的简化图。如上参考图1所述,典型的Web浏览器软件980通常适合于被另外的软件,例如程序代码940修改,所述另外的软件既可改变浏览器软件980向用户呈现的GUI,又可提供前述辅助功能。特别地,如图9中所示,程序代码940和远程终端的浏览器软件980及操作系统990连接,以便能够如上所述在客户机一方实现用户浏览活动的监视。
操作上,位于用户终端的程序代码940适合于接受用户直接输入的数据,借助浏览器软件980中的恰当代码,例如COM界面981,还可监视浏览器软件的活动。COM界面981是一个“异常分支”,允许第三方程序员插入和浏览器软件980一道工作的代码。
可从浏览器软件980收集的数据包括当前被加载的URL;远程终端的屏面中浏览器窗口的位置;和诸如GUI器件选择、下载完成和URL请求之类的各种浏览事件。通过与远程终端的操作系统990的连接,程序代码940可获悉对特定URL的访问的持续时间。如上所述,在客户机一方收集适当的数据之后,程序代码940可把收集的数据传送给中央服务器,以便记录、分类以及和从其它用户收集的数据聚集在一起。
根据上述说明,可看出本发明的系统和方法提供致力于搜索空间的特性,并且适合于有效的用户交互作用的通用个性化信息检索功能。公开的优选实施例只是对本发明的举例说明,决不是对本发明的限制。根据前述详细的公开内容,对本领域的技术人员来说,本发明的其它修改和变化是显而易见的。从而,虽然这里只具体描述了本发明的一些实施例,但是在不脱离本发明的精神和范围的情况显然可对其做出各种修改。
权利要求
1.一种从搜索空间中的一个或多个信息来源检索信息的方法,所述方法包括在中央计算机提供中央程序代码;所述中央程序代码适合于保存数据记录的中央数据库,从所述信息来源获取信息,以及比较所述数据记录和来自所述信息来源的所述信息;识别所述中央程序代码和位于若干远程终端中的各个终端上的远程程序代码之间的通信;所述远程程序代码适合于监视所述若干远程终端中每个终端上的网络活动,收集与所述网络活动相关以及与所述若干远程终端中的任意终端访问的每个所述信息来源相关的被监视数据,把所述被监视数据传送给所述中央程序代码;在所述中央计算机累积从位于所有所述若干远程终端的所述远程程序代码传来的所述被监视数据,并且根据所述被监视数据补充所述数据记录;响应来自所述若干远程终端之一的信息请求,通过采用所述中央计算机上的所述中央程序代码,识别来自于所述信息来源的候选响应信息;通过采用所述中央计算机上的所述中央程序代码,把所述数据记录和所述请求以及和所述候选响应信息进行比较;和作为所述识别和所述比较的结果,把和包含与所述请求相关的信息的一个或多个所述信息来源有关的数据传送给所述若干远程终端之一上的所述远程程序代码。
2.一种累积和搜索空间中的一个或多个信息来源相关的数据的中央数据聚集系统,所述系统包括若干远程终端上的远程程序代码;所述远程程序代码适合于监视所述若干远程终端中每个终端上的网络活动,收集与所述网络活动相关以及与所述若干远程终端中的任意终端访问的每个所述信息来源相关的被监视数据,以及传送所述被监视数据;和中央计算机具有中央程序代码,能够与所述远程程序代码通信,接收从所有所述若干远程终端上的所述远程程序代码传来的所述被监视数据;所述中央程序代码适合于保存数据记录的中央数据库,从所述信息来源获取信息;其中所述中央数据库包括和至少一个所述若干远程终端访问的各个所述信息来源相关的至少一个数据记录,其中所述中央计算机具有辅助程序代码,适合于累积从所有所述若干远程终端上的所述程序代码传来的所述被监视数据,并且根据所述被监视数据补充所述数据记录。
3.收集并累积和搜索空间中的一个或多个信息来源相关的数据的分布式监视系统,所述系统包括中央计算机具有中央程序代码,适合于保存和所述信息来源相关的数据记录的中央数据库;和远程程序代码,能够和所述中央程序代码通信,并且适合于监视所述若干远程终端中每个终端上的网络活动,收集与所述网络活动相关以及与所述若干远程终端中的任意终端访问的每个所述信息来源相关的被监视数据,并把所述被监视数据传送给所述中央程序代码;其中所述中央计算机具有适合于根据所述被监视数据补充所述数据记录的辅助程序代码。
4.一种从搜索空间中的一个或多个信息来源检索信息的方法,所述方法包括累积和若干远程终端中的任意终端访问的各个所述信息来源相关的被监视数据;把所述被监视数据从所述若干远程终端中的每个终端传送给中央计算机;在所述中央计算机聚集由所有所述若干远程终端传送的所述被监视数据;响应信息请求,从所述信息来源获取信息,并且把所述被监视数据和所述请求以及和来自所述信息来源的所述信息进行比较;和作为所述获取和所述比较的结果,识别包含和请求相关的信息的一个或多个所述信息来源。
5.一种从搜索空间中的一个或多个信息来源检索信息的方法,所述方法包括累积和若干远程终端中的任意终端访问的各个所述信息来源相关的被监视数据;在中央计算机聚集所述被监视数据;响应信息请求,把所述被监视数据和所述请求以及和来自所述信息来源的信息进行比较;和根据所述比较识别一个或多个所述信息来源。
6.一种从搜索空间中的一个或多个信息来源检索信息的开放式推荐系统,所述系统包括适合于收集和所述信息来源相关的被监视数据的分布式监视系统;和适合于从所述分布式监视系统接收所述被监视数据、并且适合于把所述被监视数据保存在中央计算机上的中央数据聚集系统;其中响应信息请求,所述开放式推荐系统比较和所述信息来源相关的所述被监视数据和所述请求,随后推荐所述被监视数据和所述请求相似的信息来源。
全文摘要
分散的,或者分布式监视系统通过收集显式数据(以推荐、评论或者投票的形式由用户直接输入)和/或隐式数据(根据用户的浏览活动,由系统收集),提供跨越大量远程信息来源的数据收集。可在客户机一方本地监视数据,并且随后把数据传送给中央数据库。可在服务器聚集在客户机一方从许多远程信息来源收集的数据。在累积过程中,在中央数据库中对分布式监视系统收集的数据进行分类和组织以便检索。所收集数据的实现包括应请求传送显式数据,以及在简化信息检索过程的定制和个性化的开放式推荐系统中利用显式数据、隐式数据或者显式数据和隐式数据的组合。可向用户提供关闭或者“取消选定”系统的隐式数据收集功能的选择权。
文档编号G06F17/30GK1527976SQ01811812
公开日2004年9月8日 申请日期2001年5月30日 优先权日2000年5月30日
发明者内山幸树 申请人:内山幸树
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1