内容-索引搜索系统和方法

文档序号:6528284阅读:374来源:国知局
专利名称:内容-索引搜索系统和方法
技术领域
本发明涉及信息检索系统,更具体地,本发明涉及内容-索引检索系统和方法,它提供的检索结果符合内容过滤及在封锁引擎中实施的封锁策略。
随着因特网及其它数据网和系统中使用的文本和多媒体内容的迅速增加,最终用户越来越多地依靠基于文本和关键词的搜索工具去搜索需要的信息。一般地,最终用户将所需要查找的信息文件的关键词输入搜索工具或引擎。搜索工具或引擎在已有索引数据库中搜索之后,返回所需文件指针清单,并带有文件标题,以及通常还有一些从文件正文中摘录下来的描述性文字。然后,最终用户就可以进行浏览部分或全部返回指针,检索或浏览全部或部分实际文件或在线内容。搜索引擎索引数据库一般是通过激活自动程序在内容源(比如因特网万维站点)自动或半自动地建立起来的,可以自动搜索根内容源以及链接到内容树(经常进行到其它站点),在对信息数据库中进行索引供以后搜索。对大型内容源,比如因特网上的万维网站点,自动搜索和索引是创建索引数据库的唯一可行方法。
随着在线系统和网络上各种信息的增加,公司、个人、组织和网络服务供应商(NSPs)越来越多地实施策略和控制,以过滤或限制最终用户被认为不适当和不期望的内容。这些内容访问的控制策略一般是,阻止最终用户获取在线服务或网络中不期望的全部或部分内容。内容封锁一般设置在内容代理网关、数据网络防火墙、或置于最终用户与最终内容之间的其它装置。内容过滤常作为内容高速缓存引擎的一部分,在这里,只有所希望的内容保留在高速缓存器中提供给用户,而不期望的内容禁止进入高速缓存器。所有用户只有通过高速缓存器,才能访问网络内容。内容被封锁一般是为了免受攻击,或不面对某用户群或商业应用,或不能在某特别时段浏览或其它类似原因。网络服务供应商和公司经常依靠评级系统或服务比如因特网内容选择平台(PICS)来决定一个内容站点是否适合或文档是否提供给某特定人群。最终用户也可以在一些系统中选择自己的封锁策略。
自动搜索引擎需要通过自动索引大量内容,而封锁引擎需要阻止最终用户获取某些内容,二者之间的冲突是网络服务商和数据传送商要解决的一个典型问题。尤其是,具有过滤器的搜索引擎和封锁策略引擎之间缺乏集成性和一致性。有几个原因导致缺乏集成性,包括(a)很多机构在他们的站点或服务上部署和实施内容过滤封锁策略,这依赖于网络上应用的,不属他们控制的搜索引擎。
(b)设计的搜索引擎必须查找和索引尽可能多的内容,并尽力搜寻所有内容。另一方面,设计的过滤和封锁引擎试图在存储于高速缓存器的文档中选择而提供给最终用户。
要求高性能和高效率的搜索引擎与封锁引擎之间任务的本质区别,妨碍了这两种信息检索功能的集成性和一致性。
以下问题是显而易见的即最终用户利用搜索引擎服务得到包含内容/文档标题及内容文件描述搜索结果,但基于过滤/封锁策略不能最终得到它们。另外,最终用户在方便和一致性方面受到干扰,搜索引擎返回的内容/文档标题和简短描述本身可能是严重侵害性的或是不期望的。
因此,存在这样一种需要信息检索系统与封锁策略的搜索结果一致,而且是几乎对协议和性能无影响的。
涉及内容-索引搜索和封锁系统的现有技术,包括美国专利5701469,1997年10月23日公告(Brandli等人),公开内容索引搜索系统,它激活一个例程,通过排除不应被包括的和添加不应被排除的结果来修正搜索结果。在这种方式下,响应用户查询而生成的搜索结果精确地满足用户要求,虽然生成初步查询结果的内容-索引不是最新的。
美国专利5835722,1996年6月2日7提交,1998年11月10日公告(Bradshaw等人),公开一种终端,它通过全面监控计算机创建或传送搜索不适当资料的操作,封锁使用和传送不适当资料,按其要求,终端被封锁后,只有通过监控干预才能解锁。
美国专利5706507,1995年7月2日提交,1998年1月6日公告(Schloss),公开一种咨询服务器,它通过对进行评级的第三方进行操作以封锁或探测不期望的资料。。
美国专利5619648,1997年4月8日公告(Canale等人),公开一种电子邮件过滤器,它根据用户信件模式来决定是否将电子邮件提供给用户。
没有一项现有技术公开一种内容-索引搜索系统,它提供的搜索结果符合在封锁引擎中实施的封锁策略,从而,只有封锁策略允许的内容才作为内容搜索的结果提供给最终用户,使其结果符合阻策略。
本发明的一个目的是改进信息检索系统和方法,为搜索引擎结果与内容封锁策略一致。
本发明的另一个目的是改进内容-索引搜索系统和方法,提供符合封锁策略的搜索结果。
本发明的另一个目的是改进内容索引搜索系统,它在高速缓存和过滤引擎中实施封锁策略。
本发明的另一个目的是改进内容-索引搜索系统,它在内容索引阶段实施封锁策略。
本发明的另一个目的是改进内容-索引搜索系统和方法,它在最终用户搜索结果显示阶段实施封锁策略。
本发明的另一个目的是改进内容-索引搜索系统和方法,它搜索本地高速缓存器和封锁引擎,而不是搜索和索引最终内容站点及内容服务器。
本发明的另一个目的是改进内容-索引搜索系统和方法,它配置成搜索高速缓存器和过滤引擎获取目标内容。
这些以及其它目的、特点和优点,可以在具有数据库的内容-索引搜索引擎和连接最终用户及搜索引擎的高速缓存引擎的信息检索网络中实现,它通过实施控制策略,一般是,封锁不期望的内容,以使结果符合不同实施例中实施的最终用户的过滤及封锁策略。
在第一个实施方案中,只有封锁策略允许的内容才可添加到搜索引擎索引数据库。在第二个实施方案中,改进搜索引擎的搜索和显示过程,在搜索和提交结果过程中实施封锁策略。第三个实施方案中,搜索引擎浏览和自动索引过程的目标通过搜索高速缓存引擎的内容被修改,以建立索引数据库。在第四个实施方案中,搜索引擎的浏览和自动索引被配置成与最终用户浏览器的的方式一样,也就是,搜索高速缓存和过滤引擎获取目标内容。
结合附图的详细描述,可以进一步地理解本发明,其中

图1是信息检索系统框图,包括具有数据库的内容服务器、实施封锁策略的高速缓存器、外部搜索引擎,搜索引擎连接最终用户和内容服务器并采用本发明规则。
图2是在图1中实施的具有代表性的内容封锁规则表。
图3是一个流程图,示出第一实施方案,它在内容搜索索引阶段实施封锁策略操作。
图4是一个流程图,示出图1的第二实施方案,它在用户显示搜索结果阶段实施封锁策略。
图5是一个流程图,示出图1的第三实施方案,改进搜索引擎以通过搜索高速缓存引擎内容建立索引数据库。
图6是一个流程图,示出图1的第四实施方案,改进搜索引擎以通过搜索高速缓存引擎建立索引数据库。
图1中,一个信息检索系统100包括多用户装置102、104,通过内部的或受控网络107连接到外部信息系统106,比如因特网或其它分布式数据网。典型的客户是一台PC机,具有显示器110、键盘111、CPU112、内存113以及网络输入/输出接口装置115。这些客户和网络的实例包括连接到内部公司网的PC机商业用户和连接到服务供应商的PC机家庭用户,二者最后都连接到大型因特网。浏览器116,诸如那些在Netscape Communicator、IBM Web Explorer等注册销售的,与标准操作系统117和应用程序118一起安装在内存113。浏览器116在用户装置102,104中运行,从连接到因特网106的内容服务器120下载或上载内容。每一内容服务器包括数据库122,用来存储数据以响应用户102,104等需求的内容。其中一种形式是数据作为包含文本和其它多媒体内容的HTML文档的汇集被存储。
网关124,如所示,常用来将多于一个的客户或内部网段107连接到因特网106。典型地,代理服务器包括高速缓存器和内容过滤引擎126安插在内部网络107到因特网106之路径上,通过实施封锁策略提高性能,加强控制。高速缓存和封锁代理服务器可以连接到网关,也可并行连接到内部网107或外部网106。
运行万维网浏览器116的客户系统102,104使用超文本传输协议(HTTP)请求内容服务器120的内容,以及接收HTTP响应的内容。HTTP请求和响应发生在TCP/IP插座,插座连接客户和内容服务器之间的通信。用户可以通过明确要求存储到内容服务器的内容或使用指向存储在内容服务器上的内容的超链锚来生成内容请求。接收后,浏览器使用HTTP对话装入内容。HTTP更详细的描述可以查阅Berners-Lee等人的“超文本传输协义-HTTP/1.0草稿IEFTHTTP-V10-Spec_0.0文本.”1995年(3月8日)因特网草案,其全部内容在此作为参考。HTML更详细的描述可以查阅Berners-Lee,“超文本链接标示语言(HTML)”草案IEFT.IIIR-HTML-01,1993年6月(过期工作图),其全部内容在此作为参考。TCP/IP插座和因特网通信的详细描述可以查阅W.Richard Stevens,“TCP/IP图示,Vol.1-协议”,Addison-West take,1994,页码从1-20,229-262,其全部内容在此作为参考。
客户系统的用户使用万维网浏览器116经常分别访问常规搜索引擎服务器130,135和数据库131,136通过关键词搜索的方式定位网络内容。这些安全搜索引擎对于受控网络107可以是外部的130或内部的135。当他们执行相同的基本功能时,内部附加的搜索引擎服务器135可以被内部网络操作员独立控制,因而作为优选方案。本发明的方法,一般是通过内部附加的和受控的搜索引擎135或外部搜索引擎130来完成,外部搜索引擎作为一种服务提供给机构并符合机构的内容封锁策略。作为关键词在搜索引擎服务器130或135直接搜索的结果,最终用户可从浏览器116看到匹配的统一资源位置(URLs)和摘自超级链接锚定的最终内容的文本的清单。然后,用户可以配合使用万维网浏览器116选择或跟随链接一项或多项内容。
图2中,样本内容过滤/封锁配置表200,由客户或网络/服务管理人员生成,安装在代理服务器126,用来过滤或限制认为不适当的或不期望内容的利用。这些内容访问控制策略,一般是在所提供的在线服务或网络中,封锁不期望的内容到达全部或部分用户。该表安装在高速缓存器和过滤引擎126,一般存储在数据库127。其中一种形式是该表包含行201,为每个用户或用户组包括如下的一项或多项内容身份203;需封锁的关键词表205;因特网内容选择平台(PICS)规则207;不能连接的URLs黑名单209;只能连接的URLs的白名单211。URLs的描述可以查找Berners-lee等人,“统一资源位置(URL)”,RFC1738,1994年10月,其全部内容在此作为参考。PICS分级从PICS规则获得,它允许或阻止访问URLs基于在文件中描述的URLs的PICS标记。PICS规则的描述可见因特网站http//www.w3.org/TR/REC-PICSRules-971299,由WC3,-,-.出版。更具体地,PICS规则是一种表示过滤规则(样板)的语言,它允许或封锁访问URLs基于那些描述URLs的PICS标记。使用软件工具创造标记,软件工具符合从因特网,http//www.W#.Org/PICS/得到的PICS技术规范-1.1。软件工具用于在描述特定URLs的文档中创建标记。另一方面,独立读者通过称为“标记局”的独立服务器分配标记,而不是将标记粘贴到文档中。过滤软件知道检查“标记局”发现标记,就如同消费者为浏览汽车或工具懂得去读特定的杂志。标记一旦建立,标记就作为特别标头插入HTTP标头流,优先将其内容送到万维网浏览器。另一方面,标记也以用元标记嵌入HTML文档。用这种方法,标记只能用HTML文档而不能用图像、视频或其它别的形式传送。PICS兼容的内容服务器可以从国际商业机器公司,Armonk,Ny得到。
封锁表安装到高速缓存器和封锁引擎122后,可选择使用几种方法连接内容搜索和内容封锁引擎,以使只有封锁策略最终允许的内容才可以作为内容搜索结果返回给用户。尽管对每一单个用户使用不同规则是可能的,但若有一套适用于所有用户的规则,或将用户分成组,每个组有适用于自己的规则,则更利于管理。单个用户或组,一经定义,可以通过几种方法鉴别,包括用户/组身份标记映射的用户系统IP地址,在浏览初始阶段使用HTTP基本鉴别方法,使用HTTP万维网“网上数据块”(“cookie”)跟踪用户身份。
图3中,过程300在内容索引阶段实施封锁策略。在步骤302,搜索引擎135的内容扫描和索引自动过程被改进。在步骤304,来自内容和过滤引擎126的内容过滤规则进入搜索引擎服务器135,通过应用程序接口(APIs)或以定期时间间隔或当检测到变化时发送规则定义文件。在步骤306,根据需要创建多个数据库树,每树对应内容过滤规则限定的用户组。比如,一个有严格PICs过滤规则的索引数据库树是提供给小孩的,而另一个数据库树具有更宽松的过滤规则是提供给成人的。
在步骤308,考虑内容封锁规则后,搜索引擎自动开始扫描和索引来自目标服务器清单的内容。
在步骤310,如果提供了白名单,搜索引擎只搜索那些有明确允许的站点/URL清单或白名单上的万维网站点或根内容源。
在步骤312,如果生成规则时需排除URLs黑名单,任何对应黑名单形式的万维网站点URL都将排除。
在步骤314,适用于索引数据库树服务的用户组的PICS规则作用于被处理的站点/内容/文档,结果使文档被排除或保留。
在步骤316,如果指定了需排除的关键词清单,扫描文档文本,并且如果含有一个或多个清单中的关键词,文档文体被排除。
在步骤318,只有当组过滤规则允许时,文档才能添加相应的索引数据库树。
图3所示过程的优点是,所有添加(排除)处理都在数据库索引阶段进行。这样用户搜索过程和显示结果阶段就没有其它步骤了。可以预计到,搜索引擎寿命周期内,即使因为可能的变化而重新扫描,搜索操作也比索引操作更频繁。
图4中,另一过程400,在最终用户显示搜索结果阶段实施封锁策略。在步骤402,搜索引擎扫描和索引自动过程不改变,单一索引数据库树被保留。在步骤404,搜索引擎搜索和显示结果过程改进以适用封锁策略。
在步骤406,来自高速缓存引擎的内容过滤规则(通过APIs或以定期时间间隔或当检测到变化时发送规则定义文件。
在步骤407,用户创建的对索引数据库进行搜索的请求过程开始。
在步骤408,所有满足用户要求的文档清单被建立,准备应用封锁规则。
在步骤410,如果规则中指定了明确允许的URLs白名单,所有不包含在白名单中的文档被排除。
在步骤412,排除具有排除形式清单(黑名单)的任何万维网站点,URL或文档。
在步骤414,如果提定了PICS规则,任何不符合PICS规则的URL将被排除。
在步骤416,如果规则中指定了关键词清单,任何包含一个或多个关键词的文本的URL被排除。
在步骤418,余下部分的满足用户要求、符合封锁规则的URL指针返回显示给用户。
图4所示过程的主要优点是,可将最新的策略作用于每一次搜索而无重建索引数据库的影响。一个数据库可以被所有用户使用。该过程允许定义不同的过滤组,分别控制而没有冲突。
图5中,过程500改进搜索引擎,搜索内容高速缓存引擎的内容建立自己的索引数据库。在步骤501,改进了搜索引擎扫描和索引自动过程。该过程不是搜索和索引最终内容源站点和内容服务器,而是搜索高速缓存和封锁引擎的本地存储器的内容。在步骤503,搜索引擎的扫描目标改变为一个适当的内容高速缓存器,而不是站点/URL清单。在步骤505,高速缓存和封锁引擎中URL/内容/文档树,通过APIs,数据库操作或共享文件系统操作而被遍历。在步骤507,将高速缓存器中查到的满足本地站点的一个或多个用户组封锁过滤策略的所有文档被添加到索引数据库。
图5所示过程的主要优点是,过滤和封锁规则只被引擎设计,即高速缓存和封锁引擎使用一次,扫描和索引操作,不是在众多的因特网内容站点,而是在目标内容的本地(高性能)复制品中进行。
图6中,过程600改进了搜索引擎,搜索高速缓存和过滤引擎建立其索引数据库。在步骤601,搜索引擎扫描和索引自动过程改进了,配置为用与最终用户浏览器同样的方法,即,使用HTTP代理搜索高速缓存和过滤引擎获取目标内容。在步骤603,搜索引擎配置成使用用于适当的高速缓存和过滤引擎的HTTP代理。在步骤605,扫描和索引内容时,搜索引擎模拟属于用户组之一的最终用户,因此,用户收到的站点/内容/文档只是用户组策略允许的那部分。
图6所示过程的主要优点是,搜索引擎的实质没有改变。内容封锁和过滤是通过设计和优化的高速缓存封锁引擎执行。只有封锁策略允许的内容才能被搜索引擎索引。由于一些需扫描和索引的站点/内容可在本地高速缓存器中查到,搜索引擎的效率和性能得到提高。
总之,内容搜索和内容封锁引擎只连接那些封锁策略允许的内容指针,作为搜索结果返回给最终用户。描述了连接内容搜索和内容封锁引擎的多种方式。就此而言,本发明提供的结果符合最终用户内容搜索与独立组织的内容过滤和封锁策略。本发明可以立即在现有因特网和其它网络上应用,而不需要改进数据协议和标准。
尽管本发明是在因特网(HTTP/Web)环境中描述的,它同样的适用于大多数数据和网络环境,这里,用户搜索数据,配备合理的清单提供给用户,如果访问或内容控制策略允许,用户可以依次使用/浏览数据。在不背离本发明之实质和范围的情况下,可以作出改变,附后的权利要求中定义了本发明。
权利要求
1.一种内容-索引搜索系统,提供的搜索结果符合内容过滤和封锁限制,包括包括数据库的内容-索引引擎;包括高速缓存器的内容高速缓存和封锁代理服务器;连接到内容-索引搜索引擎的信息网络;向内容-索引搜索引擎提出搜索请求和从高速缓存器接收搜索结果的装置;连接到内容-索引搜索引擎和实施内容过滤及封锁策略的封锁引擎;和改进内容引擎搜索引擎,实现与封锁引擎一样的内容-封锁策略的装置。
2.如权利要求1的系统还包括,内容-索引阶段在内容-索引搜索引擎中实施封锁策略的装置。
3.如权利要求1的系统还包括,显示给最终用户搜索结果时实施封锁策略的装置。
4.如权利要求1的系统还包括,改进内容引擎搜索引擎,通过搜索高速缓存器内容建立索引数据库。
5.如权利要求1的系统还包括,改进内容-索引搜索引擎的装置,使其在内容-索引搜索引擎建立索引数据库时,结合高速缓存器和封锁引擎的结果。
6.在内容-索引搜索系统中,包括连接到数据库和高速缓存器的内容-索引搜索引擎;连接到内容-索引搜索引擎的信息网络;和通过高速缓存器提供给最终用户搜索结果时实施内容过滤及封锁限制的封锁引擎,一种提供的结果符合内容过滤和封锁规则的方法,包括步骤(a)修改内容-索引搜索引擎过程,略去那些有排除模式的信息站点URL;(b)修改内容-索引搜索引擎过程,只搜索那些被URL清单明确允许的站点或路由内容源;(c)在内容-索引搜索引擎中实施过滤策略;内容-索引搜索引擎在高速缓存器和封锁引擎中定义,通过(i)以定期时间间隔或当检测到变化时从高速缓存和过滤引擎输入内容过滤规则;(ii)创建多个索引数据库树,并将每一树对应内容过滤规则定义的一个用户组;(iii)避免将有排除模式的任何信息站点、URL或文档显示给用户;(iv)只显示被URL清单明确允许的内容源的文档/内容指针;和(v)只将符合过滤过程的信息网络/内容/文档显示给用户,过滤过程在高速缓存和封锁引擎中定义,通过(aa)以定期时间间隔或当检测到变化时从高速缓存和过滤引擎输入内容过滤规则;和(bb)只将个人或用户组过滤规则允许的搜索结果提供给用户。
7.如权利要求6的方法,还包括步骤;(d)修改内容引擎,扫描目标是内容高速缓存器,而不是信息站点/URL清单;和(e)通过APIs,数据库操作和分享文件操作遍历在高速缓存和封锁引擎中的URL/内容/文档树。
8.如权利要求6的方法,还包括步骤(f)修改搜索引擎内容扫描和索引过程,使其配置成与最终用户浏览器一样。
9.如权利要求6的方法,还包括步骤(g)修改内容-索引搜索引擎,搜索高速缓存器,建立索引数据库。
10.如权利要求6的方法,还包括步骤(h)修改内容搜索引擎,通过搜索高速缓存器建立索引数据库。
11.如权利要求6的方法,还包括步骤(i)将内容-索引搜索引擎连接到内部网络;和(j)通过内部网络操作,连接内容-索引搜索引擎。
12.如权利要求6的方法,还包括步骤将内容-索引搜索引擎连接到外部网络以提供符合机构内容封锁策略的结果。
全文摘要
内容-索引搜索系统和方法,提供的结果符合内容过滤和阻塞策略。该搜索系统包括:包括连接信息网络的数据库的内容-索引搜索引擎。实施例1,改进搜索引擎,与高速缓存和过滤引擎一样实施内容阻塞策略。实施例2,改进搜索引擎,通过搜索高速缓存和引擎内容建立索引数据库。实施例3,改进搜索引擎,搜索高速缓存器和过滤引擎,搜索引擎建立其索引数据库。实施例4,改进搜索引擎,搜索高速缓存和过滤引擎,建立索引数据库。
文档编号G06F17/30GK1272656SQ0010676
公开日2000年11月8日 申请日期2000年4月13日 优先权日1999年4月30日
发明者L·C·马萨拉尼 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1