一种多维检索方法和装置以及系统的制作方法

文档序号:6460050阅读:135来源:国知局
专利名称:一种多维检索方法和装置以及系统的制作方法
技术领域
本发明涉及信息检索领域,特别涉及一种多维检索方法和装置以及系统。
技术背景目前的搜索弓I擎通过对互联网上海量信息进行收集整理,然后接受用户的检 索,并向用户提供与检索要素相关的结果,其主要过程包括数据的搜集过程、 预处理过程和提供服务的过程,现在的检索主要是通过关键词、关键字的匹配 来实现。用关键词、关键字的匹配方法进行检索的机器,它并不能理解用户的 真实的检索目的和意图,机器只提供包含有关键词、关键字的文档,并不能提 供于用户提供的检索要素的目的或/和语义相同或相关的检索结果。目前的搜索 引擎检索结果的质量取决于对检索要素设置的准确性,设置检索要素对检索质 量有着重大的影响,这取决于用户对所要检索信息的理解,确定合理的检索策 略。但我们并不能要求每个用户都是专家,现在的情况是往往用户输入一个检 索词,所得到的海量结果和我们想要达到的目的相去甚远。 一方面由于搜索引 擎只对用户提供的检索词,进行检索,而无法对用户提供的检索要素的目的或/ 和语义相同或相关的检索,使检索的广度和深度受到影响,另一方面搜索引擎 又向用户交付出海量的包含有用户提供的关键词的结果。这个海量的结果通常 超过几万个条目,里面包含有大量的与用户目的无关的文档,用户无法知道在 这几万个条目中哪个是对自己有用的。本公开是与我们在先公开《构建多维地址的方法、装置以及系统》中国专利申请号是200710139245. 2的专利;以及《一种多维地址编址的方法和装置以 及系统》中国专利申请号是200710139252. 2的专利;以及《一种多维超链接的 通讯方法和装置以及系统》中国专利申请号是200710139315. 4的专利是相互交叉关联的。《一种生成、部署和运行多维地址可扩展关联标记语言的方法和装置以及系统》中国专利申请号是200810054516. 9的专利;以及《一种知识产权保 护的方法和装置以及系统》中国专利申请号是200710139620. 3的专利是相互交 叉关联的。 发明内容本公开是创建一种多维检索方法和装置以及系统。所述的一种多维检索方 法和装置以及系统。是构建在我们在先发明的多维地址的基础之上的。本公开 包括构建用多维地址规范构建的资源数据库,在该数据库中用多维地址标识资 源,用多维地址定义资源的属性、逻辑结构和属性的相互关联,用多维地址建 立检索要素(关键词、关键字)与相关服务的关联,用多维地址建立检索要素 (关键词、关键字)与相关语义的关联。在该数据库中包括资源和多维地址的 映射列表。在列表中包括语种表项,用该表项定义用多维地址所标识资源是何 种语言。用多维地址标识资源包括(关键字、关键词、服务、语义等),通过多 维地址的相互关联定义资源之间的相互关联及空间结构,通过对多维地址的检 索扩大检索的范围的广度和深度。还包括构建多维地址规范索引数据库,以多 维地址索引项来反映用多维地址标识数据的语义;用多维地址标识资源提供的 服务;用多维地址标识字;用多维地址标识词;用多维地址标识短句等等。在 检索过程中包括用多维地址的蕴涵或外延的层次级别确定数据资源的关联值, 距离目标数据资源的层次越近其关联值越高,匹配度越高;距离目标数据资源 的层次越远其关联值越低,匹配度越低用多维地址的序位定义数据资源的服务 偏好值。本发明的技术方案是创建一种多维检索方法,包括搜集数据过程、对数 据进行预处理过程、用户请求检索过程、对用户的査询请求进行解析过程以及提供检索结果的过程,包括在至少一个过程中用多维地址规范对数据进行处 理。本发明的另一方面是创建一种多维检索的装置,包括用于搜集数据的装置、 用于对数据进行预处理的装置、用于用户请求检索的装置、用于对用户的査询 请求进行解析以及提供检索结果的装置,包括在至少一个装置中包含有用于 多维地址规范对数据进行处理的装置。本发明的另一方面是创建一种多维检索的系统,包括用于搜集数据的系统、 用于对数据进行预处理的系统、用于用户请求检索的系统、用于对用户的查询 请求进行解析以及提供检索结果的系统,该系统包括处理器可执行用于检 索的实用程序;存储装置与处理器相连,存储用于检索的数据;接口用于 将检索的系统连接于网络;包括在至少一个系统中包含有用于多维地址规范对 数据进行处理的系统。 与现有技术相比本发明的有益效果是通过用多维地址建立检索要素与相关服务的关联、通过用多维地址建立检 索要素与相关语义的关联;提高检索范围的广度和深度、提高返回给用户的检 索结果的准确度。本公开用多维地址表示所有数据,通过多维地址可以把网络 中关联的或不关联的信息数据联系起来,如将日历、旅馆和某种计划联系起来, 将一个街道和地图联系等起来。诸如此类。通过本公开可以建立所有数据无缝 连接及检索。


图1示出的是本发明应用的一种网络系统的高层的概念性图解图2示出的是本发明应用的公知的通用计算机环境图3示出的是本发明应用的多维地址的格式图4示出的是目前网络中各种资源无规律表述状态的示5示出的是本发明应用多维地址的结构的示6示出的是本发明的用多维地址标识资源的示7示出的是本发明的用多维地址空间结构表示资源的相互关联的示8示出的是本发明的多维地址与资源映射列表图9示出的是本发明的多维地址与服务映射列表、图IO示出的是本发明的多维地址与字映射列表图11示出的是本发明的多维地址与词映射列表图12示出的是本发明的多维地址与短句映射列表图13示出的是本发明的多维地址与语义映射列表图14示出的是本发明的搜索引擎的示15示出的是本发明的多维检索的步骤框16示出的是本发明的多维检索的又一实施例步骤框图具体实施方式
下面结合附图与具体实施方式
对本发明进行进一步详细描述本公开所述的网络至少包括多维地址协议网络,又称为多维统一网,包括 用多维地址协议定义的物理网络以及覆盖在该物理网络上的用多维地址及多维 地址协议定义的逻辑网络。在本发明中图1例示的是本公开的一种多维检索方法和装置以及系统的使 用环境,是多维地址协议网络系统我们称这种网络为多维统一网系统,100示出 的是该网络的高层的概念性图解,作为例子该网络包括但不限于用多维地址协 议定义、进行控数据传输及控制,网络中的各种资源作为例子包括但不限于用多维地址进行标识、定位;图中的101、 102、 103、 104、 105、 106均为以多维 地址标识的资源,作为例子包括但不限于使用或/和遵循多维地址协议规范,其 中101为传输介质,102通常为多维统一网高速路由器,103为多维统一网接入 节点其通常也是路由器,其用多维地址协议在102多维统一网高速路由器和其 它网络之间路由数据分组,多维统一网节点103连接有多个多维统一网高速路 由器102以提供一定的冗余,104、 105、 106均为以多维地址标识的资源,其 中105是104的下级别多维地址标识的资源,106是105的下级别多维地址标识 的资源,各级别资源的级别是逻辑上的上下级关系,其可能位于不同的网络并 通过不同的接入节点103进行数据传输,或直接连接102多维统一网高速路由 器进行数据分组传输,所述下级别的多维地址来源于上级别多维地址标识的资 源的分配或来源于多维地址管理资源的分配或第三方资源的分配,多个资源通 过多维地址的相互关联构成一个多维虚拟网络,各资源维护其关联资源的路由 表。多维统一网可以包含有各种拓扑结构的网络,其可以通过增加新的资源, 诸如结点、链路进行无限的扩展,在本发明中的所述的资源是指所有能够通 过多维统一网使用的实体,其包括物理资源、逻辑资源、可移动资源、不可 移动资源,作为例子包括但不限于,诸如节点、连接到网络的接口、计算机群、并行计算机、计算机池、大型数据库、多处理器系统、基于微处理器的系 统、可嵌入计算机、个人计算机、手持或膝上型便携式设备、可编程消费电子 产品、基于光交换技术的高速交换设备、各种计算机功能部件的集合体、主干 网中的管理资源、高速路由器、主干网的接入接点、(路由器)、网关、交换机、域名服务器、通讯设备、精密仪器、传感器、存储器、CPU、 ROM、 RAM、 CPU群 集合体、DRAM群集合体、输入/输出接口、计算机软件包括系统软件、应用软件、 应用程序、文件、数据实例、数据、元素、信息、电子货币、虚拟人、虚拟动物、虚拟植物、虚拟地球、虚拟城市、虚拟物体,文本文件、音频文件/视频文 件、数据、数据实例的数据文件等等。所述多维统一网还包括由其中的逻辑 资源构成的多维虚拟网,多维统一网中主干网部分包含有多个多维统一网高速 路由器,这些多维统一网高速路由器接收数据分组,并向网络中的其它节点传 递这些数据分组,每个多维统一网高速路由器具有多个到其它多维统一网高速 路由器和/或因特网高速路由器的连接并且这些连接具有高数据容量,多维统一 网中的资源依靠多维地址协议完成数据通讯,资源中驻留有多维地址协议的其 中一个或多个协议软件模块。所示多维统一网100是用通信(传输)介质101以及图中未示出的接口将资源,102、 103、 104、 105、 106,可通讯的连接起来 并依靠多维地址协议实现数据的传输及应用,图1中100多维统一网系统中的 各资源之间的连接可以是任何拓扑结构的连接,包括可以是总线形拓扑结构, 环形拓扑结构,星形拓扑结构和这些形状混合构成的混合拓扑结构,以及其它 形状的拓扑结构,其总体结构可以通过增加新节点和链路获得无限扩展,其中 每个资源节点可以具有多个将其连接到其它资源节点的链路。这些实现多维统 一网各系统的物理基础网络即是以通信介质101构成的使数字设备(节点)相 互之间具有多个链路进行连接的异构的网络,这些异构的网络包括以太网、 局域网(LAN)、广域网(WAN)、城域网(MAN)、 Local Talk 、 X , 25 、令牌 环局域网,数字数据网(DDN)综合业务数字网(ISDN)、全光网、基于先进的 交换和光纤传输技术即ATM和SONET的超高带宽网络服务(vBNS)、 ATM、 SDH/S0NET、基于波分多路复用WDM的光传输技术的传输系统、WDM、 DWDM、以 光交叉连接0XC/光分插复用OADM设备为主体的光交换系统、3T (Tb/s传输、 Tb/s交换、Tb/s路由)光网络、混合光纤同轴电缆网HFC、非对称数字用户线 ADSL、 WLAN、 LMDS (本地多点分配业务)、GSM 、 GPRS或、3G 、 HiperLAN 、HomeRF 、蓝牙、IR (红外)、UWB (超宽带)、JTRs (联合战术无线电系 统)、3G (第三代移动通信)、WiMAX、 GPRS (通用分组无线电业务)或EDGE(全球演进的增强型数据速率)中的无线电标准等等其它网络及其通信介质。 多维统一网系统100可以与互联网(因特网)电视网,通信网等相互共用其由 通信介质构成的网络,在多维统一网系统中,因特网,万维网,电视网,通信 网以及各种专用网及其资源也可以成为资源,即通过一种设备装置或/和软件(多维地址协议)可以是因特网,万维网,电视网,通信网及各种专用网包括 上述各网的资源,成为一种资源。通过此种设备装置或/和软件(多维地址协议) 也可以使多维统一网系统的资源成为基于IPV4, IPV6, IPV9地址的系统的资源, 此种设备,装置或/和软件包含有多维地址协议,通过多维地址协议的诸如多 维地址配置、标识、路由、管理、控制等实现上述功能,这也是我们发明的一 种实施例,其也是一种多维统一网服务管理装置。图1所示多维统一网系统100中的资源,103、 104、 105、 106也可以是区 域的多维统一网服务管理装置、通讯设备或/和路由器、区域(本地)域名服务 器、交换机、智能集线器等多维统一网服务管理资源。虽然图1中所示出了各 资源102、 103、 104、 105、 106及通信介质101,但应当理解这些资源的实际数 量和类型可以有所不同,其实际数量可以远大于图1中所示出的数量。在本发 明中,在多维统一网络的主干部分分布有大量的专用局域多维统一网服务管理 装置(多维统一网路由资源多维统一网/因特网路由资源),这些专用的多维统 一网服务管理装置(多维统一网路由器、多维统一网/因特网路由器)具有两个 或两个以上的多维统一网、因特网(含以太网)网络接口用于连接不同的网络, 其协议至少实现到多维统一网多维地址协议,诸如多维地址协议中的各种协 议包括、,理解多维地址协议、IPV4、 IPV6、 IPV9等协议,可进行多维统一网/网络层通信,支持两种以上的子网协议(异种网),可进行存储、转发、寻径、 并具有一组路由协议。专用的多维统一网服务管理装置(多维统一网路由器、 多维统一网/因特网路由器),其用于连接多个逻辑上分开的多维统一网网络和/ 或因特网网络。当数据从一个子网传输到另一个子网时可通过专用的多维统一 网服务管理装置(多维统一网路由器、多维统一网/因特网路由器)来实现。专 用的多维统一网服务管理装置(多维统一网路由器、多维统一网/因特网路由器),可以判断多维地址、IP地址(包括IPV4、 IPV6、 IPV9地址)和选择路径、 以及在多维统一网、以及因特网的网络互联环境中建立灵活有效的连接,可完 成不同数据分组和介质的访问方法,去连接各种子网,这些专用的多维统一网 服务管理装置(多维统一网路由器、多维统一网/因特网路由器)接收数据分组, 并向多维统一网、因特网中其它节电传递这些数据,其任何单独的专用多维统 一网服务管理装置(多维统一网路由器多维统一网/因特网路由器)可以不必知 道所有的多维统一网或/和因特网的最终目的地。传递远程地址的数据分组会被 路由到最近的专用多维统一网服务管理装置(多维统一网路由器、多维统一网/ 因特网路由器)能够进一步细化地址,诸如此类,直到数据分组到达其最终目 的地。通常每个专用多维统一网服务管理装置(多维统一网路由器、多维统一 网/因特网路由器)具有多个到其它专用多维统一网服务管理装置的连接,并且 这些连接具有高数据容量,其通常使用光纤链路。图1例示中的101是通信介质,其可以是有线介质或无线介质,它们包括但 不限于铜导线、同轴电缆、光缆、无线电波、微波、FR (射频)红外线、声音 等对本发明而言,图1中的资源102、 103、 104、 105、 106可使用任意公知的 技术来实现。例如可以使用硬件逻辑组件来实现,如一个或多个ASIC (特定应 用的集成电路),或者它可以作为一个或多个处理器执行的一组指令以软件的形式来实现。所述软件包括但不限于程序模块以及实现本发明的特定抽象数据类 型的例程、程序、组件数据结构等,它们在多维统一网计算环境中通常位于本 地、远程资源和多维服务管理装置以及包括存储器设备在内的计算机存储介质中。图2示出的是200形式的公知的通用计算机环境,该计算机包含但不限于 本发明的计算环境。在图2中其210处理器CPU在各种存储单元,如221只读 存储器ROM、 222随机存取存储器RAM和高速缓存的支持下运行与多维地址协议 相关的软件,包括诸如包含有生成、或/和识别、或/和应用多维地址协议和 关于本公开的多维检索系统软件,即关于多维地址协议和关于本公开的多维检 索系统软件,但不限于关于多维地址协议和关于本公开的多维检索系统的软件。 关于多维地址协议和关于本公开的多维检索系统的软件或/和其它软件存储在 ROM中,称为ROM映像,这个映像中包括,但不限于,关于多维地址协议和关于 本公开的多维检索系统软件、还包括其它软件的引导程序、初始化数据、初始 屏幕显示或者系统状态的字符串、系统执行的多任务程序以及实时操作系统(RTOS)内核。ROM中存储的ROM映像包含最终设计的代码。RAM存储的包括, 但不限于,关于多维地址协议和关于本公开的多维检索系统的软件、还包括其 它软件的程序执行过程中变量和堆栈的临时值。高速缓存提前存储来自于外部 存储器的指令和数据副本,并在快速处理过程中临时存储结果。关于多维地址 协议和关于本公开的多维检索的软件通常嵌入在只读存储器(ROM)中。图2 中的220是用于存储信息和处理器所执行的指令的与总线230相互连接的存储 器,它是用于存储数据和程序的随机访问半导体存储器,它可以用以存储关于 多维地址协议和关于本公开的多维检索系统但不限于此系统的数据和程序以及 临时变量或其它中间信息,存储器220,包括易失性和/或非易失性存储器形 式的计算机存储介质,诸如221只读存储器ROM和222随机存取存储器RAM, ROM中一般存储关于多维地址协议和关于本公开的多维检索系统但不限于多维地址协议和关于本公开的多维检索系统的系统启动程序和参数表,也用来存放RAM 中一般存储包括数据和/或程序模块,可由处理单元210立即访问和/或当即操 作。常驻内存的监控程序或者操作系统的常驻内存部分,甚至也可用来存放字 库或者某些语言的编译程序及解释程序。在图2中示出的220是概念性的存储 器,但是应当理解存储器220经常被组织成为高速缓存层次结构的具有高速缓 存存储器(cache)的存储器或其它存储设备。CPU210是与系统总线相连接的执 行存储器220中存储的指令的通用可编程处理器即是一个集中取指和处理一组 通用指令的单元,其可以取指和控制一个给定命令或指令的顺序执行,并与系 统的其余部分进行通讯,以及进行对字节或字的算术和逻辑操作。图2中示出 的是单独的CPU然而应当理解资源包括多维统一网服务管理装置(服务器)、 请求资源(客户)、调用资源(第三方资源)它们可以是具有多个CPU的计算系 统。图2中示例的资源(装置)中还包括将存储器220在内的各种计算机组 件和/或功能单元连接到CPU 210和使功能单元和/或组件之间相互连接的系统 总线230,系统总线230可以是任何几种类型的总线结构,包括有存储器总 线、使用任何各种各样总线结构的局部总线、作为例子,但不限于,这样的总 线结构工业标准总线(ISA)、微通道总线(MCA)、扩充的工业标准总线(EISA)、 局部总线(PCI)、 AGP总线、通用串行总线(USB)视频电子标准协会局部总线(VESA)、基于光波导的短距离光互联总线、在可嵌入式计算机中应用的I 2C 总线、CAN总线、先进的串行高速总线、PCI-X (扩展PCI)总线、CompactPCI 总线(cPCI)、 PXI总线、IEEE1394总线、UART总线、以及CoreConnect总线标 准、AMBA总线标准、Wishbone总线标准、AHB总线、ASB总线、APB总线等等。 图2、中例示的资源(装置)200、中还包括其它的易失性的/非易失性的、可移动的/不可移动的计算机存储介质。图2、示出的计算机200中例示了可读写不 可移动的非易失性的磁介质的旋转磁性硬盘驱动单元241其通过不可移动的非 易失性存储器接口 240连接到系统总线230 。 200中还包括:磁盘驱动器251、 光盘驱动器252、其通过可移动的非易失性存储器接口 250连接至系统总线230, 磁盘驱动器251、光盘驱动器252可分别装入使用诸如读写可移动的非易失性 磁盘、读写可移动的非易失性光盘,可以在示例的资源(装置)环境中使用其 它的可移动的/不可移动的、易失性的/非易失性的计算机存储介质,其还包括, 但不限于磁带、磁带存储器、快闪存储器、数字通用盘、数字视频带、移动存 储设备、硬盘驱动器、U盘、移动硬盘、固态ROM、固态MM等等。上述的驱动 单元241、 251、 252及其相关的计算机存储介质,是用于存储关于多维地址协 议和本公开多维检索系统的但不限于该系统的计算机可读指令、数据结构、程 序模块、数据实例或其它数据。图2中示出的201是终端接口,其可以通过任 意的方式或为单个或多个终端提供连接,连接到系统总线230 。应当理解,其 通常通过在一个或多个电子电路卡上的终端接口 I/O处理器支持多个终端的直 接连接附接,包括终端可通过局域网络连接到终端接口 201也可以是其它方式。 图2中示出的与系统总线230连接的202例示的是应用多维地址协议和关 于本公开的多维检索系统的网络和/或互联网接口 ,它是针对应用多维地址的网络和/或互联网260的数据传输提供物理的连接,可通过多维统一网/互联网接 口 202发送消息并接收数据,包括程序代码。图2中200形式的公知的通用计 算机,示例图中各单元组件及其组合并不是想要对任何关于本发明的用途或功 能范围进行任何的限制,也不应该将所例示的各种环境中的单元、组建的一个 或组合解释为具有相关的依赖性要求,其单元组件在不影响本发明的实质的情 况下可进行任意的增加和/或组合其它未示出的单元、组件,也可以縮减所例示出的单元、组件或/和组合,任何不影响本发明实质的改变都应是视作本发明的 等同物范围。图3示出的是多维地址的格式301是多维地址的信息维部,302是多维地址 的空间结构部。在多维地址的信息维中以特定的位和值定义多维地址所标识的 资源,诸如定义多维地址是用于标识语义;或是用于标识服务;或是用于标识 字;或是用于标识词;或是用于标识短句等等。用多维地址空间结构部302定 义多维地址所标识资源的相互关联。还包括用多维地址逻辑结构和关联关系定 义数据资源的蕴涵;用多维地址定义数据资源的外延;用多维地址的蕴涵或外 延的层次级别确定数据资源的关联值,距离目标数据资源的层次越近其关联值 越高,匹配度越高;距离目标数据资源的层次越远其关联值越低,匹配度越低 用多维地址的序位定义数据资源的服务偏好值。图4示出的是目前网络中各种资源无规律表述状态示图,该示图中的各种 资源虽然都有各自唯一的标识,但我们无法通过其标识得到其相互关联的解读。 其原因是标识符1至10标识符没有定义其相互关联。可以将图4中示出的资源 1至资源10可以理解为是不同的关键词、或将图4中示出的资源1至资源10可 以理解各种语义的词、或将图4中示出的资源1至资源10可以理解为是各种资 源提供的服务。图5示出的是多维地址的结构,在该示图中可以看出多维地址相互之间具 有的关联关系。图6示出的是用多维地址标识资源的示图,用多维地址标识资源,通过多 维地址的相互关联定义资源1至资源10之间的相互关联及空间结构。图7示出的是用多维地址空间结构表示资源的相互关联的示图,在本示例 中示出的是用多维地址定义动植物的分类关系,应当理解多维地址可以表示任何的资源。在本示例中是用多维地址的从高级别到底级别的关系依次定义动植 物的分类关系诸如门、纲、目、科、属、种,即通过多维地址就可以确定用 多维地址所标识的资源的属性,门、纲、目、科、属、种,得到和其它资源之 间的关系图。本公开包括构建用多维地址规范构建的资源数据库,该数据库中 包括资源和多维地址的映射列表。在列表中包括语种表项,用该表项定义用多 维地址所标识资源是何种语言。图8示出的是多维地址与资源映射列表、该表包括列表名称、多维地址表 项和多维地址所对应的资源表项、语种表项1至语种表项N。图9示出的是多维地址与服务映射列表、该表包括列表名称、多维地址表 项和多维地址所对应的服务表项、语种表项1至语种表项N。图IO示出的是多维地址与字映射列表、该表包括列表名称、多维地址表项 和多维地址所对应的字表项、语种表项1至语种表项N。图ll示出的是多维地址与词映射列表、该表包括列表名称、多维地址表项 和多维地址所对应的词表项、语种表项1至语种表项N。图12示出的是多维地址与短句映射列表、该表包括列表名称、多维地址表 项和多维地址所对应的短句表项、语种表项1至语种表项N。图13示出的是多维地址与语义映射列表、该表包括列表名称、多维地址表 项和多维地址所对应的语义表项、语种表项1至语种表项N。本公开的一种多维检索方法中包括搜集数据的过程、对数据进行预处理的过 程、用户请求检索的过程、对用户的查询请求进行解析的过程以及提供检索结 果的过程,或还包括通过搜索引擎甄别权利数据信息并处理权利数据的过程;,本公开包括在上述至少一个过程中用多维地址规范对数据进行处理。 所述处理包括用多维地址的属性和数据的属性关联,用多维地址的相互关联定义数据之间的相互关联;在所述一个或多个过程中用多维地址规范对数据进行 处理;包括构建多维地址规范资源数据库,即用多维地址标识数据库中的数 源资源;所述数据库包括位于请求端或服务器端;本公开所述的多维地址规范资源数据库包括建立多维地址规范资源可扩展关联 数据库,所述多维地址规范资源可扩展关联数据库,是指在该数据库中用多维 地址标识资源,用多维地址定义资源的属性、逻辑结构和属性相互关联,用多 维地址建立检索要素(关键词、关键字)与相关服务的关联,用多维地址建立 检索要素(关键词、关键字)与相关语义的关联。所述建立多维地址规范资源可扩展关联数据库,包括建立资源的可扩展关联语 义数据库,所述多维地址规范资源的可扩展关联语义数据库是指在该数据库中 包括用多维地址标识资源的语义,用多维地址定义资源语义的属性、逻辑结构 和属性相互关联。还包括建立资源服务的可扩展关联服务数据库,所述资源服 务的可扩展关联服务数据库是指在该数据库中包括用多维地址标识资源提供的 服务,用多维地址定义资源服务的属性、逻辑结构和属性相互关联。还包括用 多维地址建立检索要素(关键词、关键字)与相关服务的关联的数据库,用多 维地址建立检索要素(关键词、关键字)与相关语义的关联的数据库。图14示出的是搜索引擎的示图,该搜索引擎1400通过搜索器1402在网络 1401中漫游,发现和搜集信息,包括从一个起始的多维地址集合开始依据多 维地址的逻辑关联,以宽度优先或深度优先或启发式方式循环的在网络中搜集 信息。还包括从一个起始的多维统一资源定位器集合开始顺着超链接以宽度优 先或深度优先或启发式方式循环的在网络中搜集信息。还包括从一个起始的统 一资源定位器(URL)以宽度优先或深度优先或启发式方式循环的在网络中搜集 信息。所述网络1401包括多维地址协议网(多维统一网)、互联网等。用控制器1403控制搜索器在单位时间内对一个网站抓取的数量、控制处于分布状态的 搜索器协调工作、包括控制分布的信息获取和计算以及对其进行的数据统一、 控制网页的重复抓取、控制分布状态数据库1405的数据存储、包括数据处理后 的分布存储和管理,包括资源的定位、更新、增加、删除以及移动机制,还包 括控制处理大规模并发请求时的分发机制。1404多维地址规范处理模块;对搜 索器抓取的资源进行处理,用多维地址规范对预先搜集的数据进行数据预处理; 包括包括用多维地址的属性和数据的属性相关联,用多维地址的相互关联定 义数据之间的相互关联;用多维地址建立检索要素(关键词、关键字等)与相 关服务的关联,用多维地址建立检索要素(关键词、关键字等)与相关语义的 关联,诸如用多维地址标识数据的语义;用多维地址标识资源提供的服务; 用多维地址标识字;用多维地址标识词;用多维地址标识短句等等。用数据库 1405存储压縮的用搜集器抓取来的网页,包括原始数据库和用多维规范进行处理后的资源数据库;所述数据库包括多种语言的数据库诸如汉文(包括简体和繁体)、英文、日文、法文、德文、西班牙文、意大利文、希伯来文、葡萄牙 文、俄文、朝鲜文、阿拉伯文等世界各国的文字语言的数据库,还包括藏文、蒙文、维吾尔文等民族语言数据库。索引系统1406包括索引器、多维地址规范索引数据库、原始数据索引数据库、索引器的功能是理解搜索器所搜索的信 息,从中抽取出包含有多维地址的索引项,用于表示文档以及生成文档库的索 引表。所述索引项包括有多维地址索引、客观索引项和内容索引等。多维地址索引项是用来反映用多维地址标识数据的语义;用多维地址标识资源提供的服 务;用多维地址标识字;用多维地址标识词;用多维地址标识短句等等。所述 客观索引项包括反映与文档的语意内容无关,如作者名、URL、权利信息、更新 时间、编码、长度、链接流行度等等。所述内容索引项包括用来反映文档内容,如关键词及其权重、短语、单字等等。所述内容索引项和多维地址索引可以分 为单索引项和多索引项或称短语索引项,所述单索引项就是各种语汇的单词或 切分词语,或多维地址标识的各种语汇的单词或切分词语。包括给单索引项 赋予一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相 关度。包括用统计法、信息论法和概率法,短语索引项的提取方法有统计法、 概率法、和语言学法。构建的索引表一般使用某种形式的倒排表(inversion list),即由索引项査找相应的文档。索引表还包括记录索引项在文档中出现的 位置,使检索器用于计算索引项之间的相邻或接近关系(proximity)。所述索 引器包括使用集中式索引算法或分布式索引算法,包括进行即时索引(instant indexing)。索引器索引的资源包括索引网页、索引各种媒体,包括文字、动画、 音频、视频、服务及其他特殊资源(如PDF、 XML等)。多维地址规范索引数据库,是存储用多维地址索引的相关信息的数据库。 原始数据索引数据库,是存储用关键词、字、权重等索引的相关信息的数据库。用户接口 1408是接受用户1407所输入的查询要素,如查询字、词、查询 的服务、短语等,接口还向用户1407显示查询的结果在显示结果的同时还向用 户显示用多维地址规范处理的与用户所输入的检索要素相关的服务或/和语义 列表或结构树,使用户可选择更准确的检索要素,以得到更精确的检索范围, 使检索的结果与检索目的密切相关。搜索引擎还包括建立用户行为日志数据库 1409用于存储和记录用户的查询日志和点击日志,记录査询/点击的时间、查询 /点击要素等用户信息,査询要素包括,诸如提交时间、用户多维地址、页 号、查询字、查询词、査询的服务、查询短语等;点击要素包括点击时间、 用户多维地址、点击要素、点击的多维统一资源定位器、URL、权利信息、点击 页面的排序等等。通过日志分析器1410对用户的査询行为/点击行为进行统计和分析,包括用户查询要素的分布情况、雷同查询要素的衰减统计、相邻N 项査询项的偏差分析、用户点击多维地址、多维统一资源定位器、URL的分布情 况、用户在输出结果中的翻页情况、是否在高速缓存中等。检索器1411用于根 据用户的査询条件在索引库1406中检索出相关文档,包括通过特定的检索模 型对文档与查询的要素进行相关度的评价以及对所要输出的结果排序,所述检 索模型包括,诸如集合理论模型、代数模型、概率模型、混合模型。检索器 包括对用户的检索条件多维地址规范处理模块1412,用于对用户输入的检索要素进行多维地址规范处理,用多维地址规范对用户提交的査询数据进行数据处理,包括包括用多维地址的属性和检索要素数据的属性相关联,用多维地址 的相互关联定义数据之间的相互关联;用多维地址建立检索要素(关键词、关 键字)与相关服务的关联,用多维地址建立检索要素(关键词、关键字)与相 关语义的关联,诸如用多维地址标识数据的语义;用多维地址标识资源提供 的服务;用多维地址标识字;用多维地址标识词;用多维地址标识短句等等, 以实现用多维地址进行数据检索。图15示出的是本公开的多维检索的步骤的实施例包括步骤1500开始; 1501、用户输入检索要素、1502接受用户提交的査询元素;1503将用户提交的 査询元素与数据库中的数据元素进行匹配;1504将査询元素解析为多维地址; 1505用多维地址定义的属性、关联关系确定查询元素的匹配信息;1506返回一 个和用户查询匹配的信息列表;所述列表中的每一个条目包括明示的权利信 息部分;标题部分;网址连接部分,包括经过绑定的数据的访问地址和服务统 计地址部分通过该部分使用户在点击权利数据的访问地址(URL、多维URL等) 访问该权利数据时,还建立与第三资源的连接,使第三资源通过该连接获得提 供该链接信息的搜索引擎的地址信息,或还包括用户访问权力数据的时间信息;数据内容的摘要部分;所述条目的排序要素包括匹配度、时间、竞价,还包括向用户显示用多维地址规范处理的与用户所输入的检索要素相关的服务或/和语义列表或结构树或分布图,使用户可选择更准确的检索要素;1507用户确 定是否用新的检索要素进行检索,如果不需要进入步骤1508结束。如果步骤 1507确定用新的检索要素进行检索,以得到更精确的检索范围;步骤1509用户 确定新的检索要素点击、跳至步骤1502图16示出的是本公开的多维检索的步骤的又一实施例包括步骤1600开始; 1601、用户输入检索要素1602接受用户提交的査询元素;1603将用户提交的査 询元素与数据库中的数据元素进行匹配;1604将查询元素解析为多维地址;1605 用多维地址定义的属性、关联关系确定查询元素的匹配信息;1606从数据库中 检索与搜索信息对应的资源,并获取该资源的多维地址,1607根据多维地址的 相互关联确定搜索资源的关联资源;1608将资源及其关联资源信息在搜索服务 器的资源数据库中进行匹配,1609将匹配得到的即时结果返回用户本地程序或 脚本程序包括返回一个和用户查询匹配的信息列表;所述列表中的每一个条目 包括明示的权利信息部分;标题部分;网址连接部分,包括经过绑定的数据 的访问地址和服务统计地址部分通过该部分使用户在点击权利数据的访问地 址(URL、多维URL等)访问该权利数据时,还建立与第三资源的连接,使第三 资源通过该连接获得提供该链接信息的搜索引擎的地址信息,或还包括用户访 问权力数据的时间信息;数据内容的摘要部分;所述条目的排序要素包括匹 配度、时间、竞价。在当前的搜索页面上的第一显示栏中显示所搜索资源的直 接结果;第二显示栏中显示所搜索资源的关联结果;还包括向用户显示用多维地址规范处理的与用户所输入的检索要素相关的服务或/和语义列表或结构树或分布图,使用户可选择更准确的检索要素;1610用户确定是否用新的检索要素进行检索,如果不需要进入步骤1611结束。如果步骤1509确定用新的检索 要素进行检索,以得到更精确的检索范围;步骤1612用户确定新的检索要素点 击、跳至步骤1602上述所有实施例的描述中示出的是作为本发明的较佳实施例,本发明还可 以有其它的实施例,即在不脱离本发明范围的情况下可进行修改,应当理解这里公开的是优选的实施例,上述的方法步骤中,可以存在除了这里所例示的以 外还可以有许多变化,具体的应当理解到,可以改变执行某些步骤的顺序,某 些步骤是可选的,或者可以按照与这里描述的不同的方式被执行,并且某些步 骤可以被组合。应当理解各实施例只是示范性的不应当作为对我们发明范围的 限制,而是应视为凡是落入权利要求范围和其等同物的范围和精神内的所有实 施例都是我们的发明。
权利要求
1一种多维检索方法,包括搜集数据过程、对数据进行预处理过程、用户请求检索过程、对用户的查询请求进行解析过程以及提供检索结果的过程,其特征在于,包括在至少一个过程中用多维地址规范对数据进行处理。
2.如权利要求1所述的一种多维检索方法,其特征在于,所述在至少一个过程中用多维地址规范对数据进行处理;包括用多维地址的属性和数据的属性相 关联,用多维地址的相互关联定义数据之间的相互关联;包括用多维地址建立检索要素与相关服务的关联;用多维地址建立检索要素与相关语义的关联。
3.如权利要求2所述的一种多维检索方法,其特征在于,在所述一个或多个 过程中用多维地址规范对数据进行处理;包括构建多维地址规范资源数据库, 用多维地址标识数据库中的数源资源;所述数据库包括位于请求端或服务器端。
4.如权利要求1所述的一种多维检索方法,其特征在于,所述用多维地址规 范对数据进行处理;包括用多维地址规范对预先搜集的数据进行数据预处理;或用多维地址规范对用户提交的査询数据进行数据处理。
5.如权利要求1所述的一种多维检索方法,其特征在于,所述用多维地址规 范对数据进行处理;包括-接受用户提交的査询元素;-将用户提交的查询元素与数据库中的数据元素进行匹配; -将查询元素解析为多维地址;-用多维地址定义的属性、关联关系确定査询元素的匹配信息; -返回一个和用户査询匹配的信息列表;所述列表中的每一个条目包括标题、网址链接、摘要、权利信息部分; 所述条目的排序要素包括匹配度、时间、竞价。
6.如权利要求5所述的一种多维检索方法,其特征在于,所述将用户提交 的査询元素与数据库中的数据元素进行匹配;包括对标识资源的多维地址匹配、关键字匹配、关键词匹配、服务匹配、语义 匹配;
7.—种多维检索的装置,包括用于搜集数据的装置、用于对数据进行预处理 的装置、用于用户请求检索的装置、用于对用户的査询请求进行解析过程以及 提供检索结果的装置,其特征在于,包括在至少一个装置中包含有用于多维 地址规范对数据进行处理的装置。
8. —种多维检索的系统,包括用于搜集数据的系统、用于对数据进行预处理 的系统、用于用户请求检索的系统、用于对用户的査询请求进行解析的以及提 供检索结果的系统,其特征在于该系统包括处理器可执行用于检索的实用程序;存储装置与处理器相连,存储用于检索的数据;接口用于将检索的系统连接于网络;包括在至少一个系统中包含有用于多维地址规范对数据进行处理的系统。
全文摘要
本公开创建了一种多维检索方法和装置以及系统,包括搜集数据、对数据进行预处理、用户请求检索、对用户的查询请求进行解析以及提供检索结果的过程,包括在至少一个过程中用多维地址规范对数据进行处理。
文档编号G06F17/30GK101241506SQ200810054629
公开日2008年8月13日 申请日期2008年3月17日 优先权日2008年3月17日
发明者张建中 申请人:张建中
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1