使用页面集而提供信息搜索服务的服务器、方法和系统的制作方法

文档序号:6566749阅读:132来源:国知局
专利名称:使用页面集而提供信息搜索服务的服务器、方法和系统的制作方法
技术领域
本发明涉及一种信息搜索服务,更确切的说,是一种使用页面组 而提供信息搜索服务的方法、系统和服务器。
技术背景随着因特网的发展,网络信息搜索技术已经得到了很大的发展, 而使得大量的信息在网络上可被处理和堆积,而且用户可以又快又准 地搜索到信息。网络信息搜索技术使得用户能够使用web浏览器(网络浏览器) 轻松的从网上搜索到各种各样的信息,例如图片,声音,电影图像等。 然而,搜索技术存在着一个不利的因素就是,随着网址以几何级数增 长,它们无法提供用户真正必需的信息。最常见的一种解决这种问题 的方法就是使用搜索引擎。搜索引擎是一种被设计用来帮助发现信息的程序,这些信息存储 在计算机系统中,例如存储于公共或私人网络或个人电脑内的万维 网。搜索引擎通过搜索程序,例如搜索机器人或者网络蜘蛛,来创建 网址信息的索引,并且将索引信息存储到数据库中。它允许用户查询 符合特定规则的内容(特别是那些含有给定单词或者短语的内容), 并返回一个和特定规则相匹配的参考列表。搜索引擎使用网络索引方法,网络路径方法和元搜索方法。网络 索引方法是一种最通用的搜索方法。它通过搜索程序例如搜索机器人 或者网络蜘蛛,来创建网址信息的索引,并且将索引信息存储到数相匹配的参考列表。网络路径方法按照主题和层次对因特网上的页面进行分类以编辑 一个数据库,然后创建条目的路径,它允许用户选择和需要信息最接 近的条目,进而逐渐的縮小搜索的范围。元搜索方法是一种高级网络索引方法,它在网络索引方法中创建 一个可提供搜索服务的搜索引擎的列表,使得用户可以选择一个搜索 引擎进行搜索。但是,这些搜索引擎各自都存在着以下的不足。网络路径方法不 能获得实质性的搜索结果,因为在搜索结果内只包含了相对少量的网 页。此外,网络路径方法搜索很耗时,因为它需要很多步骤来获得信 息。网络索引方法和元搜索方法使得用户在大量的搜索结果前感到困 惑,而且其搜索结果可靠性很低,因为它们提供给用户所有的页面, 包括查询页面。元搜索方法和网络索引方法首先使用它们自己的算法来提供可靠 性高的网页。但是,这些页面未必提供给用户他们想要的信息,因为 包括查询在内的所有页面都被提供了 。例如,以上提及的搜索方法会提供书中一页的存储信息,而不会 提供一本或多本书的存储信息,而使得复杂搜索是不可能的。因此, 要解决搜索结果的低可靠性问题,辅助内容,例如网络咖啡馆博客(Internet caf blog),或者信息服务,就被应用到搜索引擎中了。 发明内容技术方案本发明提供了能够提供信息搜索服务的一种方法,系统和服务器, 这种服务可以对符合特定规则的一组页面进行索弓I ,并在这组页面内 进行搜索。
有益效果根据本发明,用户可以又快又准的在因特网上査到信息,因为一 组网页被分析用以创建一个位置信息模式,使用位置信息模式将含有 类似信息的网页分组为多组,接着含有与查询相关信息的多个页面, 也就是一个代表页面和一些低级别的页面的形式被划为一组后再提 供给用户。


通过示意性实施例的详细描述,本发明的以上及其他特征和优势 将更清楚,其中参照下述附图图1是根据本发明的一个实施例,使用一组页面来提供信息搜索 服务的系统的方框图;图2根据本发明的一个实施例, 一个组搜索服务器的方框图;图3和4是说明根据本发明的一个实施例的URL (统一资源定位 符)模式和一个URL模式树(UP树)的示意图;图5是根据本发明的一个实施例,使用一组页面来提供信息搜索 服务的方法的流程图;以及图6是根据本发明的一个实施例的一个组检索结果。 实施发明的最优方式根据本发明的一个方面,它提供了一种提供组搜索服务的方法, 包括(a)通过分析所收集数据最初定位的位置信息来创建这些数据的 位置信息模式;(b)根据已经创建的位置信息模式对所收集数据进行分 组;以及(c)从数据组中选择一个与关键字相关的数据组并且提供一个 组搜索结果。根据本发明的另一个方面,它提供了在一个系统中提供一种组搜 索服务的方法,该系统包括一个发送查询并输出搜索结果的用户终
端, 一个提供多个页面的web服务器,以及一个从用户终端接收查询 并创建和发送搜索结果到用户终端的组搜索服务器,该方法包括(a) 从用户终端接收査询和查询请求信号;(b)接收来自web服务器的网 页;(c)分析网页以创建一个URL模式,并且用该URL模式把这些网 页分到一个网页组;(d)从网页组中提取索引,创建索引信息,并创建 索引所参照的网页组的URL信息;以及(e)比较查询和索引来创建一 个组搜索结果并将该结果发送给用户终端。根据本发明的另一个方面,它提供了一个提供组搜索服务的系统, 该组搜索服务通过搜索在无线/有线网络中多个网页内的信息而获 得,系统包括 一个在无线/有线通讯网络上实现网上冲浪的用户终 端,它通过传送查询和搜索请求信号来产生搜索请求,接收该请求对 应的组搜索结果,并且输出组搜索结果到显示单元; 一个从信息中创 建网页并提供网页的web服务器;以及一个接收和分析网页以创建 URL模式,并使用URL模式而把网页分组为网页组,对网页组进行 索引,在网页组中搜索信息并创建和传送组搜索结果给用户终端的组 搜索服务器。根据本发明的另一个方面,它提供了一个组搜索服务器,其包括 一个位置信息模式生成模块,它通过分析所收集数据最初定位的位置 信息来创建这些数据的位置信息模式; 一个网页分组模块,它根据已 创建的位置信息模式将所收集数据分组为数据组;以及一个控制器, 它从数据组中选择一个与关键字相关的一个数据组并且提供一个组 搜索结果。根据本发明的另一个方面,它提供了一个组搜索服务器,该服务 器接收在无线/有线通讯网络上实现网上冲浪的用户终端发送的査询 和搜索请求,在web服务器提供的网页中搜索信息,并发送搜索结果 给用户终端,该组搜索服务器包括 一个网页收集模块,它执行网页 收集程序,用以自web服务器接收web服务器访问无线/有线通讯网 络而获得的网页,并存储这些网页; 一个URL模式生成模块,它通 过分析网页收集模块接收到的网页来创建URL模式; 一个网页分组 模块,它利用URL模式生成模块创建的URL模式将网页分组为网页 组; 一个索引管理模块,它从网页分组模块分组的网页组中提取索引, 用以创建并存储索引信息和索引所参照的网页组的URL信息; 一个 查询管理模块,它根据收到的查询和搜索请求信号而搜索索引信息, 将具有与查询相关的索引的网页组的URL信息创建为组搜索结果, 以及将组搜索结果传送至用户终端;以及一个控制器,它控制网页收 集模块,URL模式生成模块,网页分组模块,索引管理模块,查询 管理模块,使得组搜索服务器能够使用网页组来完成搜索,并通过无 线/有线通讯网络与客户终端和web服务器进行通讯。 发明实施方式现在用结合附图,对本发明的示意性实施例进行详细描述。图1是根据本发明的一个实施例,使用页面分组而提供信息搜索 服务的系统的方框图。根据本发明的一个实施例,使用页面分组而提供信息搜索服务的 系统包括一个用户终端110, 一个无线/有线通讯网络120, 一个web 服务器130, 一个组搜索服务器140, 一个组搜索数据库(此后都用 DB来表示数据库)141,一个索引服务器150,和一个索引数据库151。用户终端110通过无线/有线通讯网络120访问组搜索服务器140, 发送一个查询和搜索请求信号,并接收来自组搜索服务器140的组搜 索结果,再输出组搜索结果到显示单元。用户终端IIO包括一个有线通讯单元,该单元包括一个因特网调
制解调器,例如极高比特速率数字用户线路(VDSL)调制解调器和电缆调制解调器,和/或一个移动通讯单元,该单元包括一个移动通讯调制解调器,例如码分多址(CDMA) 2000调制解调器和宽带 CDMA (W-CDMA)调制解调器。用户终端110使用包含的通讯单 元通过无线/有线通讯网络120来访问组搜索服务器140。用户终端进 一步包括一个包含一块内存和一个微处理器的控制器。内存存放网络 浏览器程序,这些程序被用来接收用户査询,请求信息搜索,以及输 出搜索结果给显示单元。微处理器控制用户终端110的运行。用户终端110的例子包括一台个人计算机(PC),例如一台桌上 电脑或者一台膝上电脑,以及一个通讯终端,例如个人数码助理 (PDA)、手机、个人通讯服务电话、掌上电脑、全球移动通讯系统 (GSM)电话、W-CDMA手机、CDMA-2000手机和移动宽带系统 (MBS)手机。无线/有线通讯网络120将用户终端110、 web服务器130、组搜 索服务器140、索引服务器150连接起来,使得它们可以使用有线或 无线的方式重复它们之间发送和接收的数据。web服务器130是一个典型的网络服务器,包括用网页形式提供 各种信息的多个计算机系统或计算机软件。网络服务器指一个计算机 系统和计算机软件(网络服务器程序),它被连接到一个子单元,而 与其他网络服务器通过计算机网络,例如企业内部互联网或者因特 网,进行通信,接收运行请求并提供运行结果。然而,除了网络服务 器程序,网络服务器应该被解释为包括运行在网络服务器上的应用程 序以及存储在上面的各种数据库。网络服务器被具体化为根据操作系 统,例如DOS、 Windows、 Linux、 UNIX或者MacOS,而使用相应的网络服务器程序。
索引服务器150执行一个数据收集程序,通常是一个web机器人, 从连接到无线/有线通讯网络120的web服务器130上收集数据。索 引服务器150定时更新收集的数据,且索引数据库151使用一个翻转 文件或者类似的机制存放收集到的数据。组搜索服务器140与索引服务器150以及索引数据库151相通讯 以阅读网络数据,组搜索服务器140还分析网络数据的位置信息以创 建多种位置信息模式。位置信息是指包括收集到的网络数据的因特网 路径。它优选包括网络数据的统一资源定位符(URLs)。它分析在位置 信息模式之间的联系以执行分组操作。上述过程能包括使用一个URL 模式树而创建在多个不同URL模式之间的一个联系,还包括对具有 相同URL模式分组域值的网页进行分组。可选择地或另外地,创建 和URL模式分组的过程能包括参照一个预定的URL模式路径。组搜索服务器140提取在网页组单元内的索引,创建由索引参照 的网页的索引信息和URL信息,并且在组搜索数据库141内储存索 引信息和URL信息。当组搜索服务器140从用户终端接收 一个查询 和一个信息搜索需求时,它将该查询与搜索相对比以创建关于组搜索 结果的信息。组搜索结果与关于査询的其他搜索结果一起,能被传送 至用户终端110。组搜索服务器140将会参照图2而被详细描述。即使组搜索服务器140没有从用户接收到关于査询的组搜索结 果,它也能被用于提供一个关于一个确定关键字的组搜索结果。例如, 它能使用一个包含用户査询的更高水平的概念或一个关于用户查询 的确定的关键字以提供一个组搜索结果。进一步地,它能使用一个关 于情报的关键字以提供一个组搜索结果。组搜索数据库141储存网页组的索引信息和位置信息(包括URL 信息),这些信息由组搜索服务器140所创建。它能进一步地储存组
的中心词。数据库是指通过DBMS (数据库管理系统)程序而在计算机系统的存储区内形成的数据结构,在其中数据被取得、删除、编辑和添加。数据库能使用一个相关的DBMS而适应于本发明,例如, Oracle, Informix, Sybase, MS SQL (微软结构查询语言),或DB2的数 据库管理系统。数据库包括存储、取得、删除、编辑和添加数据所需 的域和元素。进一步地,组搜索数据库141和索引数据库151能彼此 分开,或为完整一体。图2根据本发明的一个实施例, 一个组搜索服务器的方框图。一个组搜索服务器140是包括一个网页收集模块210、 一个URL 模式生成模块220、 一个网页分组模块230、 一个索引管理模块240、 一个查询管理模块250和一个控制器260的网络服务器。网页收集模块210通过无线/有线通讯网络而访问web服务器130 以收集数据。网页收集模块210能选择性地包括在组搜索服务器140 内,以反映被位置信息所参照的数据的变化,该位置信息由索引服务 器150所收集且存储于索引数据库151内。URL模式生成模块220分析控制器260或网页收集模块210所需 的网页的URLs以创建URL模式。URL模式是指网页的URL的预定 模式,且其被创建以管理具有相同内容的一组网页或以同样模式写成 的一组网页。在本发明中,相同网页被分组和被管理以用于信息搜索。 此时,URL模式被用作选择相同网页的一个标准。URL模式生成模块220分析控制器260或网页收集模块210接收 的网页的URLs,以创建包括分组域的URL模式。例如,在由Neowiz 公司提供的SayClub主页服务器内,每一个ID (身份)的代表页的 URL被分析,ID被设置为一个分组域,因此创建了一个11 恭011^. sayclub.com/[ID]的URL模式。URL模式将会参照图3而被详细描述。
除了分组域,URL模式能基于超文本传输协议(HyperText Markup Language, HTML)模版而创建,该模版由两个网页或网页内容所共HTML模版是指通常使用的基础结构,以使得网页能够易于被写 入。例如,它以标签形式被书写,如〈Table…xTD〉[text number] </TD> <TD>[title]</TD>...</TABLE>,其常用于写入网页。写入为网页的一个HTML文件典型地是一个HTML标签和-个文 本的组合,它遵守HTML的语法。HTML文件由多个功能块组成, 如,菜单块、用于与其他入口站点相连的连接块、和一个用于包含内 容的信息块。功能块经常用于网页内,且因此用模版写入以方便用户。由同样操作件创建的网页能包含于多个由web服务器所管理的网 页内,而该服务器提供了公告服务、博客服务、最小化主页服务及其 类似物。即,共享一个相同HTML模版的多个网页趋向于由相同的 操作件所创建,且趋向于包含相同的内容。因为提供了公告服务、博客服务和最小化主页服务的web服务器 130使用相同的HTML模版以写入由web服务器130所管理的最多 的网页,所以由相同web服务器130所管理的网页共享同样的HTML 模版。相应地,共享同样HTML模版的网页能具有同样的URL模式。基于所需URL模式之间的通过UP树信息的联系,网页分组模块 230对由URL模式生成模块220创建的不同URL模式进行分组,而 且在URL模式组内对具有同样分组域的网页进行分组。即,网页分 组模块230对URL模式进行分组,该URL模式与由URL模式生成 模块220创建的URL模式不同,但是它们又相互相关,基于所需URL 模式之间的通过UP树信息的联系,网页分组模块230在URL模式 组内对具有相同URL模式分组域值的网页进行分组。
例如,登记于SayClub主页内网页的URLs能够概括为大约20种 不同的URL模式。基于UP树信息,这20种不同URL模式被分组 在一个单个组。在它们中,具有同一个用户ID的网页作为一个分组 域值而被分组在一个网页组内。相应地,当登记于SayClub主页的网 页被依据用户ID而分组,网页的分组数等同于登记于SayClub主页 的用户ID的数量。进一步地,这能等同地应用于登记于Naver博客 的网页,以使得网页的分组数等同于登记于Naver博客的用户ID的 数量。然而,在本发明中,用于分组网页的标准不局限于分组域值。例 如,能通过对分组域执行"和"或"或"操作的而对网页分组。本发 明可进一步包括对在一个索引和一个相应组之间的联系进行评价,以 对页面组进行细分或改变,该索引由索引管理模块240提取。例如, 当自页面组提取的索引涉及两个或多个域时,页面可被整合为一个组 或基于域而被细分两个或多个子组。当从一组页面提取的一个索引不 正确地表示其内容,该组可被删除以产生一个可靠的搜索结果。索引管理模块240从一个由网页分组模块230分组的页面组提取 一个索引,以及存储在组搜索数据库141内网页的索引信息和URL 信息。即,索引管理模块240从一个页面组提取一个索引以创建索引 信息,以及在组搜索数据库141的索引数据库151内储存索引信息。 另外,索引管理模块240使用UP树信息以创建网页组的URL信息 和在组搜索数据库141内储存URL信息。在从用户终端110接收一个查询或关键字时,查询管理模块250 搜索索引数据库151,从组搜索数据库141接收具有匹配查询索引的 网页组信息和创建组搜索结果。在査询或关键字与索引之间的匹配可 通过使用指定术语词典或共有信息(MI)值而执行。另外,可使用 公知算法而执行。控制器260控制网页收集模块210、 URL模式生成模块220、网 页分组模块230、索引管理模块240和查询管理模块250,以使得组 搜索服务器能够使用一组网页进行查询。另外,控制器与索引服务器 150和索引数据151进行通讯,从用户终端IIO接收査询搜索请求, 和发送组搜索结果。图3和图4是根据本发明的一个实施例,对URL模式和UP树的 进行解释的示意图。图3说明了"[吏用Neowiz SayClub主页(http:〃hompy.sayclub.com, 此后称之为hompy)服务的用户主页的URL,以及其相关页面的URL。 用户主页包括一些在用户URL内含有其ID的网页。在SayClub hompy, URL被表现为査询形式,如被"变量名称二变量值"跟随 的"◎"符号。相应地,在图3中,当跟随"targetmsrl="的值被认 为是确认用户ID的标准时,URL模式被如图4所示而创建。另外, 在由门户站点所提供的私人博客服务或公告服务中,服务提供商的域 名可被一个分隔符所跟随用以区别用户和公告。图4是通过分析在hompy内网页的URL而得到的URL的树状结 构的模式。参照图3,每一个网页在其URL内包括用户的ID。因此, 在网页的URL中,"用户ID"的部分可被转换为[ID]的分组域,而 包含在hompy内的"公告类型"部分可被转换为[公告类型]的分组域。 即使是分组域值变化了,而当URL浏览的内容实质上没有改变时, 分组域可被设置为[忽略]域,而[忽略]域在分组URL模式的过程中被 忽略。基于分组域值的变化,可通过分析在相应组内文件的囊括和联 系而确定分组域之间的优先。当URL模式通过上述过程而被创建,被创建的URL模式能被用
于概括Neowiz hompy所有用户的网页。分组域能自动地被形成于分 析URL地址的过程中。在由门户站点或社区站点提供的私人博客或 公告中,URL模式被统一地按照服务提供商的策略而创建。在这种 情况下,创建和对URL模式分组的过程能通过参照关于分组域的预 定URL模式和路径而被执行。图5是根据本发明的一个实施例,使用一组页面而提供信息搜索 服务的方法的流程图。一个因特网用户使用用户终端以输入一个信息搜索的查询,且发 送该查询和搜索请求至组搜索服务器140 (操作S410)。操作S410可被省略。即, 一个组搜索服务器可通过分析储存数据而被执行,而 无需用户输入査询或査询请求。在从用户终端iio接收査询和搜索请 求信号后,组搜索服务器140从索引数据库151接收关于网页的信息 (包括地址信息),而该索引数据库151由索引服务器150所预先收 集和编译(操作S420)。组搜索服务器140可选择性地操作网页收 集模块210以从索引数据库151接收附助材料。期间,根据一个预定方法,web机器人程序可被执行以接收网页 和存储数据,而无需从用户接收査询或搜索请求。接收的数据通过 索引服务器150而存储于索引数据库151内。在从索引服务器150接收网页后,组搜索服务器140分析网页以 创建URL模式(S430)。在创建URL模式后,基于通过UP树信息获得的URL模式与网 页组的联系,而该网页组在一组URL模式内具有同样的URL模式的 分组域值(操作S440),组搜索服务器140对不同的URL模式进行 分组。在分组网页后,组搜索服务器140从组单元内的网页组提取索引, 以创建索引信息和由索引参照的网页组的URL信息(操作S450), 以及在组搜索数据库150内存储索引信息和网页组的URL信息(操 作S460)。在组搜索数据库150内存储索引信息和网页组的URL信息后,组 搜索服务器140对接收自用户终端110的查询和存储于组搜索数据库 150内的索引进行对比,进行搜索,创建和发送组搜索结果至用户终 端110 (操作S470)。在从组搜索服务器140接收搜索结果后,用户终端110输出搜索 结果至显示单元。根据本发明,即使是査询没有从用户被输出,也可 提供组搜索服务。根据本发明,组搜索服务将多个网页分组为一个网页组,且搜索 与该网页相关的实体,而不是搜索包含于网页内的一个术语。搜索服 务可与公告搜索服务一起而被使用。最近,公告服务广泛地用于网页上,在其中用户登记关于特定信 息的材料,写入信息的问题和解答。公告服务可包括含有比用户搜索 更多信息的网页。相应地,当一个用户输入查询以请求搜索, 一个代表性的网页和 共享关于该査询信息的低水平的公告网页,被分组在一起以及以预定 次序被提供,而不是简单地提供包含该査询的网页。根据本发明的一个实施例,组搜索服务在下午中采取为公告服务。 然而,本发明并不局限至此,而是可被应用为使用网页组以进行搜索 的多种服务。图6是根据本发明的一个实施例,解释组搜索结果的示意图。 在提供组搜索结果的方面,其输出顺序可取决于用户査询和关键 字、组内文件的数目、在现实期间内组内文件数目的增加、组和组文 件的创建时间或普及度之间的联系,而所述普及度如用户访问单个组 的数量。为了评价该联系,评价技术可被使用,其中使用了在相应组 内和预定术语路径内,用户使用査询和关键字的频次。普及度可取决 于在相应组内文件査询的数目,用户访问组的数目以及在预定时间内 在相应组内创建的数据量。当一个用户在网页内的输入窗口 510内输入"psp"査询,即输出 一个组搜索结果530,所述网页输出至用户终端110以提供组搜索服 务和选择"搜索"。组搜索结果530按照"Neo rank order (新登记次 序)"而在分类菜单520内被分类。用户可在分类菜单520内的"相 关文章次序"或"普及度次序"内对组搜索结果530进行分类。组搜索结果530可显示网络文件的名称、文章名称等以有效地提 供信息。页面组信息540可进一步包括关于页面组分类和所囊括文件 的数目的信息。另夕卜,可提供单个页面组内单个文件的清单550以方 便用户。进一步地,可提供关于单个页面组来源信息的分类项560以 有效地提供信息。虽然本发明被参照其说明性实施例而被描述,但是本领域技术人 员能够理解,在下述权利要求的范围内,可以作出形式和细节上的多 种变化,而不会脱离本发明的保护范围。 工业实用性本发明能被有效地适用于提供信息搜索服务的方法、系统和服务器0
权利要求
1.一种提供组搜索服务的方法,包括(a)通过分析所收集数据最初定位的位置信息,来创建这些数据的位置信息模式;(b)根据已经创建的位置信息模式,将所收集数据分组为数据组;以及(c)从数据组中选择一个与关键字相关的数据组并且提供一个组搜索结果。
2. 根据权利要求1所述的方法,其中所述位置信息包括所收集数据的统 一资源定位符(此后称为URL)信息,而且所述位置信息模式包括用于分 组数据的分组域,该分组域作为所收集数据共享的预定模式。
3. 根据权利要求1或2任一权利要求所述的方法,其中所述操作(b)包 括(bl)基于所需位置信息模式之间通过位置信息模式树信息的联系,而 对不同的位置信息模式进行分组,以创建一个位置信息模式组;以及(b2)基于在位置信息模式组之间的位置信息模式的分组域,将网页分 组为一个网页组。
4. 根据权利要求1或2任一权利要求所述的方法,其中所述组搜索结果 的获得取决于来自下述因素之间的至少一个联系,这些因素包括每一个 数据组和关键字、在预定时间内创建的文件数量,以及访问至每一个数据 组的数量。
5. 根据权利要求3所述的方法,其中所述组搜索结果取决于来自下述因 素之间的至少一个联系,这些因素包括每一个数据组和关键字、在预定 时间内创建的文件数量,以及访问至每一个数据组的数量。
6. 根据权利要求1所述的方法,其中进一步包括在操作(a)之前在因特 网上预先收集数据,和对收集的数据进行索引。
7. 在一个系统中提供一种组搜索服务的方法,该系统包括一个发送查询并输出搜索结果的用户终端, 一个提供多个页面的web服务器,以及一个 从用户终端接收査询并创建和发送搜索结果到用户终端的组搜索服务器,该方法包括(a) 从用户终端接收査询和查询请求信号;(b) 接收来自web服务器的网页;(c) 分析网页以创建一个URL模式,并且用该URL模式把这些网页分到 一个网页组;(d) 从网页组中提取索引,创建索引信息,并创建索引所参照的网页组的 URL信息;以及(e) 比较査询和索引来创建一个组搜索结果并将该结果发送给用户终端。
8. 根据权利要求7所述的方法,其中所述操作(c)包括 (cl)分析网页以创建多个URL模式;(c2)基于所需URL模式之间的通过URL模式树(此后称为UP树)信 息的联系,将不同URL模式分组以创建多个URL模式组; (c3)基于URL模式的分组域,将网页分组为多个网页组。
9. 根据权利要求7所述的方法,其中所述操作(d)包括(dl)从包含于网页组内的网页提取索引,以创建索引信息和在组搜索数据库(此后称为DB)内存储索引信息;以及 (d2)在组搜索数据库内存储由索引所参照的网页组的URL信息,以使得URL信息与索引相对应。
10. 根据权利要求7所述的方法,其中所述操作(e)包括 (el)搜索与査询相关的索引;(e2)搜索由索引所参照的网页组的URL信息,所述索引是在操作(el) 中搜索到的;(e3)创建操作(e2)搜索到的网页组的URL信息,将其作为组搜索结 果;以及 (e4)发送组搜索结果至用户终端。
11. 根据权利要求7-10任一权利要求所述的方法,其中所述组搜索结果的 获得取决于来自下述因素之间的至少一个联系,这些因素包括每一个数 据组和关键字、在预定时间内创建的文件数量,以及访问至每一个数据组 的数量。
12. —个提供组搜索服务的系统,该组搜索服务通过搜索在无线/有线网络 中多个网页内的信息而获得,系统包括一个在无线/有线通讯网络上实现网上冲浪的用户终端,它通过传送査询和搜索请求信号来产生搜索请求,接收该请求对应的组搜索结果,并且输出组搜索结果到显示单元;一个从信息中创建网页并提供网页的web服务器;以及 一个接收和分析网页以创建URL模式,并使用URL模式而把网页分组为网页组,对网页组进行索引,在网页组中搜索信息,并创建和传送组搜索结果给用户终端的组搜索服务器。
13. 根据权利要求12所述的系统,其中所述组搜索服务器包括 一个网页收集模块,它执行网页收集程序,用以自web服务器接收web服务器访问无线/有线通讯网络而获得的网页,并存储这些网页;一个URL模式生成模块,它通过分析网页收集模块接收到的网页来创 建URL模式;一个网页分组模块,它利用URL模式生成模块创建的URL模式将网 页分组为网页组;一个索引管理模块,它从网页分组模块分组的网页组中提取索引,用 以创建并存储索引信息和索引所参照的网页组的URL信息;一个査询管理模块,它根据收到的查询和搜索请求信号而搜索索引信 息,将具有与查询相关的索引的网页组的URL信息创建为组搜索结果,以 及将组搜索结果传送至用户终端;以及一个控制器,它控制网页收集模块,URL模式生成模块,网页分组模 块,索引管理模块,查询管理模块,使得组搜索服务器能够使用网页组来 完成搜索,并通过无线/有线通讯网络与客户终端和web服务器进行通讯。
14. 根据权利要求12所述的系统,其中所述URL模式生成模块创建用作 标准的URL模式,所述标准用于以预定模式对网页分组,该预定模式由具 有相同信息的网页所共享,URL模式生成模块还创建有分组域的URL模 式,该分组域用于分组网页。
15. 根据权利要求12所述的系统,其中所述网页分组模块基于所需URL模式之间的通过UP信息的联系,将不同URL模式分组 以创建多个URL模式组,以及将具有相同分组域的网页分组为网页组,所述分组域是URL模式组之 间的URL模式的分组域。
16. 根据权利要求12所述的系统,其中所述网页分组模块将具有相同值的 网页分组为网页组,所述值通过对URL模式的分组域执行"和"或"或" 操作的而获得。
17. 根据权利要求12所述的系统,其中所述索引管理模块 从包含于网页组内的网页提取索引,以创建和存储索引信息,以及 创建和存储由索引所参照的网页组的URL信息,以使得URL信息与索引相对应。
18. 根据权利要求12所述的系统,其中进一步包括一个组搜索数据库,该 组搜索数据库包括一个索引数据库和一个URL数据库,所述索引数据库存 储接收自组搜索服务器的索引信息,所述URL数据库存储网页组的URL{曰息。
19. 一个组搜索服务器,其包括 一个位置信息模式生成模块,它通过分析所收集数据最初定位的位置信息来创建这些数据的位置信息模式;一个网页分组模块,它根据已创建的位置信息模式将所收集数据分组为数据组;以及一个控制器,它从数据组中选择一个与关键字相关的一个数据组并且 提供一个组搜索结果。
20. 根据权利要求12所述的组搜索服务器,其中位置信息包括所收集数据 的URL信息和位置信息模式,该位置信息模式包括作为所收集数据所共享 的预定模式而对数据分组的分组域。
21. —个组搜索服务器,该服务器接收在无线/有线通讯网络上实现网上冲 浪的用户终端发送的查询和搜索请求,在web服务器提供的网页中搜索信 息,并发送搜索结果给用户终端,该组搜索服务器包括一个网页收集模块,它执行网页收集程序,用以自web服务器接收web 服务器访问无线/有线通讯网络而获得的网页,并存储这些网页;一个URL模式生成模块,它通过分析网页收集模块接收到的网页来创 建URL模式;一个网页分组模块,它利用URL模式生成模块创建的URL模式将网 页分组为网页组;一个索引管理模块,它从网页分组模块分组的网页组中提取索引,用 以创建并存储索引信息和索引所参照的网页组的URL信息;一个査询管理模块,它根据收到的査询和搜索请求信号而搜索索引信 息,将具有与査询相关的索引的网页组的URL信息创建为组搜索结果,以 及将组搜索结果传送至用户终端;以及一个控制器,它控制网页收集模块,URL模式生成模块,网页分组模 块,索引管理模块,查询管理模块,使得组搜索服务器能够使用网页组来 完成搜索,并通过无线/有线通讯网络与客户终端和web服务器进行通讯。
22. 根据权利要求21所述的组搜索服务器,进一步包括一个组搜索数据库, 该组搜索数据库包括一个索引数据库和一个URL数据库,所述索引数据库存储接收自组搜索服务器的索引信息,所述URL数据库存储网页组的URLf曰息。
全文摘要
披露的是提供信息搜索服务的方法、系统和服务器。提供组搜索服务的方法,包括通过分析所收集数据最初定位的位置信息,来创建这些数据的位置信息模式;根据已经创建的位置信息模式,将所收集数据分组为数据组;以及从数据组中选择一个与关键字相关的数据组并且提供一个组搜索结果。
文档编号G06F17/30GK101133415SQ200680006631
公开日2008年2月27日 申请日期2006年3月3日 优先权日2005年3月4日
发明者南世东, 愼重熩 申请人:Chutnoon公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1