概念网络的制作方法

文档序号:6461259阅读:134来源:国知局

专利名称::概念网络的制作方法
技术领域
:本发明涉及搜索工具,尤其涉及所显示的搜索结果。发明背景随着诸如因特网等网络的迅速增长,搜索的准确性和质量变得越来越重要。但是,许多用户发现使用搜索引擎的搜索产生大量(可能数以千计)的结果,其中许多并不严密地适用于他们所提交的查询。由此,许多用户对搜索结果不满意。一些用户还发现,大量返回的査询结果使因特网中包含的重要信息变得模糊不清。许多现有技术的搜索引擎主要是基于关键词的比较。考虑询问世界上最顶尖的N个数码摄像机制造商的査询,其中N是整数。关键词比较搜索引擎将返回一些包含关键项"数字摄像机"的万维网页,以及其它包含关键项"制造商"的万维网页。因此,在关键词比较搜索引擎中返回的涉及数码摄像机制造商的总的返回结果的百分比相对很小。关键词比较搜索引擎还无法基于制造商的万维网页来比较一特定数码摄像机制造商是否比另一数码摄像机制造商更大或更有名(或其它某个可量化的比较)。因此,主要基于关键词比较的现有技术的搜索引擎常常导致大量结果,而其中许多与査询的相关度很低。此类关键词比较搜索引擎不能基于万维网站的结构来标识多个搜索所得的万维网站中最适用的那些。在另一个方面,许多用户相信他们必须搜索大量査询以获得有用的搜索结果。因此,这些用户相信査询(以及就相关性对搜索结果所进行的检査)需要大量时间以确保所有有关响应都被考虑。即使在花费这么长时间以后,用户也常常相信最重要的搜索结果可能湮没在大量无关信息中。在又一个方面,许多因特网应用程序使用诸如WordNet(在GeorgeA.Miller教授的指导下在普林斯顿大学开发)等词典工具来扩展用户的查询,以提高搜索引擎的精度。WordNet是一种在线词典参考系统。使用WordNet,名词、动词、形容词和副词被组织成同义词组,其中每一个都标识一个底层的词典概念。不同的关系链接各同义词组。有了WordNet,用户手动地输入其相对于万维网页的个人分类法。因此,WordNet并非被适当地配置成紧随因特网及其它联网计算机系统的迅速增长和动态改变。例如,Web中出现的单词有一半以上没有出现在WordNet中。发明概述此发明涉及概念网络。概念网络可相应于用户查询而生成。在一个实施例中,概念网络配合搜索工具使用。搜索工具搜索多个数据存储位置。每一个数据存储位置都用一个节点来排列。这些节点中的某几个由至少一个链路连接。概念网络基于链路选择这某几个节点中的一部分,其中至少一个链路被用于内容目的。附图简述贯穿所有附图,相同的特征和组件引用相同的标号。图1是一个包括概念网络的计算机环境的实施例的框图;图2是开发概念网络的一个实施例的万维网站搜索部分的另一个实施例的框图;图3示出用于建立概念网络的域的分类法构造的一个实施例的框图;图4示出可在计算机环境的显示器上所显现的概念网络所显示的结果的透视图;图5示出万维网站结构分析算法的一个实施例的流程图;以及图6示出可用于推导或向用户显示概念网络的计算机环境的一个实施例的框图。较佳实施例的详细描述此发明提供概念网络的各种实施例。在概念网络中,査询等同于被搜索的概念。在概念网络中,多个搜索结果信息被结构化地组织为向用户显示的多个概念。如本文所揭示的概念网络根据搜索结果与查询的各个概念的相关性检索和/或显示搜索结果(搜索结果是基于概念来排列的)。概念网络可被配置成允许用户基于搜索结果与用户査询的相关性访问各个搜索结果、搜索结果的各个内容、或者搜索结果的各个部分。这一概念网络是基于査询在计算机环境中生成的。术语"概念网络"的一个方面涉及以概念可被用户理解和访问的方式将概念集合为概念网络。概念网络的一个实施例特别针对于因特网,即使概念网络一般可被应用于任何计算机环境或计算机系统。在概念网络的因特网实施例中,用户可输入查询,而所显示的输出概念网络可以是可由用户选择的概念列表。例如,如果用户査询"电子系统",所显示的概念网络可包括诸如蜂窝电话、计算机、音频系统、视频系统等各种概念。由此用户可选择作为概念网络显示的这些概念中的一个,以显示更具体的搜索结果。概念网络的一个实施例包括显示诸如相对于图3所描述等多个互连概念的大型连接图。如同来自现有技术的搜索引擎的搜索结果一样,概念网络是基于用户查询而得到的。与现有技术的搜索引擎相比,概念网络增加了对客户查询的相应的准确性。此外,概念网络限制大量无关的搜索结果,而这在依赖于关键词查询的现有技术的搜索引擎中间是普遍的。图1示出被配置成生成并显示概念网络100的计算机环境50的实施例的框图。计算机环境50可包括可任选的网络部分72(尽管该计算机也可以是独立计算机)。计算机环境50包括搜索工具74和显示工具75。搜索工具74和显示工具75的部分包括概念网络100的一个实施例的部分。提供概念网络100作为用户界面,搜索结果的结构化表示通过该用户界面向用户显示,且搜索结果根据也可向用户示出以指示每个返回的搜索结果的相关性的概念被结构化或排列。现有技术的搜索引擎通常返回适用的万维网页的列表之类的结果,而如本发明中所揭示的所返回的概念网络包括,例如根据其内容结构化排列的多个万维网页。生成概念网络100的搜索依赖于被搜索的数据(例如,万维网页)内所包含的信息,如被搜索的数据的某个结构化特征所指示。由此,与现有技术的搜索引擎(基于关键词匹配)相比,概念网络所返回的结果(基于所搜索的数据的结构)一般提供更准确的搜索结果。包括概念网络100的图1的计算机环境50示出一般化的计算机环境。构想该概念网络高度适用于能够适用搜索引擎的任何类型的计算机环境,包括独立计算机、联网计算机、或大型计算机。但是,本发明被描述为适用于计算机环境的特定实施例。更特别地,构想概念网络100适用于网络。更特别地,构想包括概念网络100的计算机环境50的一个实施例包括排放在整个因特网上的若干万维网站上的各个万维网页。由此,概念网络的某些实施例依赖于服务器,它们在诸如因特网等联网计算机环境中向客户机提供构成搜索结果的数据。向用户显示的搜索结果的结构化表示的一个实施例是基于因特网用户一般已知的统一资源定位器(URL)。在此揭示中描述因特网的某些实施例中使用的URL的结构化方面。尽管此揭示描述URL为向概念网络中所依赖的数据提供结构,但是要强调的是,可包含能为概念网络所依赖的类似的结构化信息的任何其它机制都落入本发明的预期范围之内。在计算机环境50的某些实施例中,提交查询的用户将导致有关的概念网络100,其中所显示的结果被组织为一系列有关的概念。一般而言,基于各种用户査询可获得大量各种类型的搜索结果。由此,本揭示描述基于大量用户查询生成各种概念网络。概念网络的一个示例性例子是通过搜索"前N个"査询(寻求任何类别的前"N"个的査询,其中N是整数)产生的。概念网络的另一个示例性例子在诸如"解释电子"等复杂概念的搜索中产生有意义的结果。概念网络100是基于概念生成的(与基于用户查询所提供的实际关键词产生搜索结果的现有技术的搜索引擎不同)。概念网络100是响应于查询,以能向用户提供更详细和准确的信息的方式而生成的。例如,概念网络的某些实施例是考虑涉及査询所提出的概念的大量万维网站而生成的。概念网络考虑每个万维网站与查询所提供的概念的相关性,然后通过概念网络向用户示出各个万维网页的有关部分。与依赖关键词查询结果的现有技术的搜索引擎相比,概念网络100能以更有组织和准确的方式显示来自各种査询的结果。包括了更为定向和准确的查询相应这一事实允许概念网络在向用户的显示中处理较少的万维网页。随即可根据概念网络所生成的相对很少的万维网页的结构来组织这些万维网页。例如,涉及一类概念的万维网页可通过概念网络的一个部分来访问,而涉及另一类概念的万维网页可通过概念网络的另一个部分来访问。因此,概念网络100可包含涉及大量被检索的信息(诸如万维网站、万维网站内容信息、或万维网页的部分)的结构信息。概念网络100提供大多数现有技术的搜索引擎所返回的万维网页列表上的若干改进。概念网络100的某些实施例改为提供并显示按(显示概念网络的)万维网页上的顺序排列的结构化信息。对用户而言,如图4所示的自动生成和显示的概念网络100是更易理解、解释和更为有用的形式。一般而言,与现有技术的搜索引擎相比,概念网络100提高搜索的精度和速度,并且提高在这些搜索期间所获信息的相关性。--般而言,概念网络100显示基于数据的结构信息(例如,格式、节点之间的链接、等等)导出的相当大量的信息。在一个实施例中,此结构信息是基于统一资源定位器(URL)获得的,尽管可使用包含所检索的信息的结构信息的任何设备。在因特网中,URL目前被用于导航目的,以允许浏览器通过因特网访问特定万维网页。URL还可被用于提供此揭示中所描述的用于创建概念网络的结构信息(描述不同节点之间的关系)。此类结构信息的例子涉及,例如是另一个节点的祖先、后代、兄弟或其它关系的节点。此类结构信息被概念网络100的各种实施例用于结构化地描述概念网络内部的不同节点之间的关系。在概念网络100中此类结构信息被用于提供单词的分类或归类。概念网络的分类(如同现有技术的搜索引擎)涉及特定单词的含义。考虑到搜索引擎内已改变含义或者被添加或移除的大量单词,现有技术的手动搜索引擎难以维护现行的分类法。概念网络的某些实施例提供自动构造的分类法,基于在査询期间所访问的万维网站的结构,该分类法适应于域和用户。构想如本文所揭示的概念网络100可被应用于各种计算机系统,包括但不限于,数据库、在线购物、摄像机、个人计算机、手持式计算机、机器学习、以及计算机制造。尽管此揭示描述概念网络100被应用于分析因特网上的万维网站,但是应当强调,这些概念适用于所有联网的、独立的、以及其它基于计算机的搜索引擎。由此,将概念网络应用于因特网或者任何其它网络或计算机系统都是在本发明的预期范围之内。本揭示描述概念网络100及相关联组件的各种实施例。概念网络100被设计成自动对其自身进行更新,而无需代表用户进行任何更新。在査询之间,计算机环境的一个实施例以与关键词搜索高速缓存流行的搜索类似的方式(诸如通过使用万维网站爬寻器等)不断地进行搜索。概念网络100的一个实施例将爬寻所有涉及所收集的概念的万维网站以更新概念网络。构想此爬寻过程类似于常规搜索引擎所执行的那些过程。在合理的时间量内,概念网络100能够基于用概念网络生成的分类法来理解大量典型用途的关键词(包括它们的结构)。使用此分类法,概念网络以结构化的方式显示关键词。由此,概念网络能够被用作分类词汇汇编,因为概念网络能够基于分类来解释单词的含义。因此,概念网络的分类(即,字典)中越来越多的单词对搜索诸如网络或Web等计算机环境以寻找特定技术、法律或其它此类专用单词的用户特别有用。几乎所有专业都有相当大量的专用单词,其中许多随时间不断更新。例如,诸如代理人、税务专家、工程师等专业或群体基于它们特定的使用和专长的领域,每-一个都有其自己的分类法。由于每个领域都只有相对很少数量的用户的缘故,手动搜索引擎不更新其中的许多项。概念网络可自动更新其中专用的、不常用的或被频繁更新的许多项。用于得出概念网络100的万维网站搜索部分201的一个实施例在图2中描述。万维网站搜索部分201的实施例包括入口页和爬寻器规则部分202、万维网站结构分析器204、万维网页摘要部分206、万维网站结构合并工具208、以及概念网络100。万维网站结构分析器204包括超链接队列212、万维网站爬寻器214、HTML语法分析器216、基于功能的对象模型(FOM)分析器218、以及超链接分析220。为生成概念网络IOO,万维网站结构分析器204分析万维网站的结构。然后图2的Web合并工具(本文中也称为Web站点结构合并工具208)合并来自不同的结构化万维网站的内容以产生可使用概念网络来显示的搜索结果。在常规万维网站中,链接被用于导航。为分析万维网站内容结构以创建每一个概念网络IOO,链接从用于导航被转换为用于内容。为完成此转换,执行以下步骤a)在URL中编码每个万维网站的结构化信息。由此,在URL中编码特定链接,而无论其是向上链接、向下链接、兄弟链接还是交叉链接。这在现有技术的搜索引擎中是没有的。在一个实施例中,区别链接的类型是由万维网站爬寻器214通过考虑万维网站爬寻器的访问顺序来执行的。b)执行聚合和关联分析。此聚合和关联分析包括确定各集线器和不同授权机构的位置。在一个实施例中,这可由FOM分析器218执行。c)然后区分信息链接和导航链接。此识别是使用基于功能的对象模式(FOM)来分析导航条、导航列表或独立链接来执行的。由此,页的布局被用来对万维网页进行分块。在一个实施例中,c)可使用FOM分析器218来执行。现有技术的搜索引擎在一次一个的基础上提供对多个万维网站的访问,而概念网络IOO被构造成同时包含从各个万维网站获得的结构信息。可在概念网络100上以可被读者轻易理解的方式组织来自这各个万维网页的信息。更特别地,可在概念网络100中以呈现来自多个万维网页(通常基于URL)的结构信息的可量化的值的方式显示来自多个万维网站的类似地结构化的信息。随即可用导致不同万维网页的主题之间的比较的方式呈现来自多个万维网页的此类结构信息。例如,涉及特定工业或主题的多个公司或集团很可能在它们的万维网页中以相似的结构包含相似类型的信息。概念网络提供一种媒介以显示来自不同万维网页的此相似信息;或者以允许从同一概念网络轻易访问不同万维网页的方式来呈现要向用户呈现的不同但相关的万维网页。在某些实施例中,万维网站结构分析器204从入口页和爬寻器规则部分202接受万维网站的进入点URL和一些万维网站爬寻器规则作为输入。这些URL包含涉及特定万维网页的各种结构信息(例如,链接的端点、万维网页的类型、等等)。常规搜索引擎不使用由URL提供的这一结构来导出涉及万维网页的结构信息。万维网站结构分析器204分析万维网站结构,并向万维网页分配深度信息。结果是,万维网站结构分析器204的一个实施例生成万维网站的分层结构图,其节点包括概念。由概念网络所导出的概念可用如本揭示中所描述的关键词来表征。万维网站结构分析器204导致使用结构化的万维网站。万维网站分析器204的一个实施例是基于BFS(广度优先搜索)算法。万维网站结构分析器204维护超链接队列212。万维网站爬寻器214从超链接队列212取URL,然后使用万维网站爬寻器214爬寻来自因特网的超文本标记语言(HTML)源代码,然后将HTML源代码转发给HTML语法分析器216。超文本队列212是包括未经分析的超链接的队列。在分析开始以前,万维网站结构分析器204附接进入点URL。在分析期间,只有万维网站爬寻器214从超链接队列212提取URL。只有超链接分析器220应用新的未经分析的超链接。万维网站的进入点URL从入口页和爬寻器规则部分202进入万维网站结构分析器204的超链接队列212。当万维网站结构分析器204开始分析时,万维网站爬寻器214从超链接队列212提取URL,然后万维网站爬寻器爬寻来自因特网的HTML源代码,并将HTML源代码转发给HTML语法分析器216。HTML语法分析器处理从因特网爬寻的HTML源代码。HTML语法分析器216接受从万维网站爬寻器214输入的HTML源代码。在一个实施例中,HTML语法分析器216的活动包括URL提取、URL统一、和URL分组。对于URL提取,HTML语法分析器216根据输入的万维网站定义取所有指向一万维网页并且在该万维网页内部的URL。用锚文本附接每一个URL。对于图像链接,锚是包围文本。对于UR统一,HTML语法分析器216的一个实施例执行多个操作,包括a)将相对URL地址转换为直接URL地址;b)将IP地址改为域名;以及c)通过用最终目标URL地址替换该URL来解决重定向的URL的问题。对于URL分组,具有相同标签元数和相同外观的表格或列表中的超链接很可能被视为例如相关的节点。来自HTML语法分析器216的结果随即被转发给基于功能的对象模型(FOM)分析器218。基于功能的对象模型(FOM)分析器218使用FOM的基本概念和算法对超链接分配功能信息。此功能信息对分析每个万维网站的结构是非常有用的。FOM表示万维网页的基于功能的对象模型。FOM分析器218不是进行语义分析,而是试图通过表示每个对象功能和类别来理解作者的意图。每个万维网页都可起到索引页或内容页的作用。一类导航对象是导航条。FOM分析器218的一个实施例执行如以下FOM分析任务等索引/内容页识别和导航条检测。对于索引/内容页识别,FOM分析器218的一个实施例确定万维网页URL是否包括文本"Index"(索引)或"default"(默认),以及该URL是目录还是索引页。如果该页内部有对应于子目录的链接,则此链接是指向索引页。将超链接和内容单词的比值和阈值相比较。如果该比值大于阈值,则该万维网页是索引页。如果阈值大于该比值,则该万维网页是内容页。FOM分析器218的一个实施例提供导航条检测。导航条中的项是彼此互连的,并且对应的链接拓扑结构是完全连通图。FOM分析器218的输出包括多个超链接,它们被转发给超链接分析器220。FOM分析器218为万维网页提供分块。在一个实施例中,分块以后,基于其功能,万维网页被分成若干小单元,诸如内容块、导航块、广告块、等等。这些小单元可由用户单独访问。超链接分析器220的一个实施例使用万维网站结构分析算法来处理FOM分析器218所分析(并从该处发来)的每一个超链接。经语法分析的源代码被转发到FOM分析器218以执行功能分析。超链接分析器220根据万维网站结构分析规则分析每一个超链接,而新的未经分析的超链接被插入到超链接队列212中。超链接分析器220对每一个万维网页分配一个深度值(并维护万维网站的临时分层结构图)。该深度值可由万维网站爬寻器214输出。在一个实施例中,万维网站爬寻器214通过广度优先搜索访问万维网站。行进路径将被构成为树的格式,树的节点是万维网页,节点内部的链接是万维网页内部的超链接。因此树中节点的深度是我们想要获得的值。例如,进入点万维网页的深度(诸如由URLh加:〃www.microsoft.com所标识的进入点页)是0。相比之下,由URLhttp:〃www.microsoft.com/china所标识的万维网页的深度是l。万维网站结构分析器204构造了可被视为在超链接队列212处开始和结束的循环。万维网站爬寻器214从超链接队列212提取下一个UR1以开始下一个循环。执行此动作直至超链接队列212中没有新的URL为止。分析过程完成,万维网站(称为结构化的万维网站)的分层结构图被构造出来。每个万维网站的结构化信息是以可使用超链接分析器220检测的方式编码到URL中的。由此,无论特定链接是向上链接、向下链接、兄弟链接或交叉链接,它都被编码到URL中(并可使用超链接分析器220检测)。在一个实施例中,使用基于URL块长度的启发式规则来检测向上链接和向下链接。URL块长度被定义为块数,块是URL中被"/"或"?"分开的部分。例如,URL"http:〃丽w.sonvstvle.com/digital/digitalcamera.htm"的URL块长度是3,包括"http:〃www.so蹈tvle.com"、"digital"禾口"digitalcamera"。在一个实施例中,应用约束的规则来分析URL。然后,对于未被规则覆盖的其余URL,使用以上策略来进行分析。超链接检测规则的一个实施例根据两个规则来描述。第一规则是,如果URL块长度(超链接)小于或等于万维网页的URL块长度,则该超链接是向上链接。第二规则是,如果URL块长度(超链接)减去URL块长度(万维网页的URL)大于或等于2,则该超链接是前向链接。假定当前万维网页节点为B,它有到万维网页C的超链接。万维网站结构分析器204的超链接分析器部分220进行以下过程I.如果该超链接是向上链接,则将其丢弃(不再考虑)。II.如果B和C属于导航条,则B和C是兄弟节点(如本文所讨论)。III.如果C己被访问,且B的URL块长度大于或等于C:如果B是索引页;则C是B的子节点(如本文所讨论);否则如果B是内容页,则C是B的兄弟节点。IV.如果C未被访问,如果B是内容页,则C是B的兄弟节点,否则C是B的子节点。否则如果C尚未被访问,则首先如果B是内容页或在若干页中被显示,则该链接是显式关联。否则此链接是聚合。在分析超文本队列中的URL以后,使用万维网页摘要部分206得出万维网站结构。例如,万维网页中所包含的某个量的数据可能与特定用户的査询有关,而其它数据则无关。万维网页摘要以可在概念网络100内的特定概念部分上显示的形式提供有关的信息。因为不在概念网络上示出每一个万维网页的整体,所以概念网络可提供可由用户访问的每个概念或万维网页的信息的更为定向的摘要。随即使用万维网站结构合并工具208将从万维网页摘要部分206导出的不同万维网页的各种各样的内容(或其它内容)合并到概念网络100中。万维网站结构用分层结构图表示。概念网络100的某些实施例分析相关万维网站的结构,并据此将结果合并到一起。在此揭示中,将来自多个万维网站的信息合并被称为Web合并,如图2所示由万维网站结构合并工具208执行。万维网站结构合并工具208所执行的Web合并提高概念网络的精度和速度,并被执行如下。在每个万维网站都被结构化为"树状图"或"深度图"以后,接下来的问题是将这些图合并成一个网络。在该网络中,每个节点表示一个概念,而这些节点之间的链接表示这些概念之间的关系。基本关系可包括,但不限于,超义词、假义词、同义词、等等。因为每个万维网站都表示原始编辑者对有关主题的观点,所以将不同的观点合并为一个观点有点困难。因此在以下,我们给出将来自各种类型的资源的概念分层结构合并成一个可用的分层结构的解决方案。为示出如何合并概念网络的分层结构的一个实施例,从两个不同的分层结构//合并给定概念C的一类关系i。解决此问题的详细算法如下以下技术表示可用于执行本体合并过程的一个实施例a)对于每个Web块,使用如图2所示的万维网页摘要部分206为万维网页简述概念。这些概念被解释为关键词集合。b)然后对这些概念进行令牌化,通过此方法,要通过概念网络100来生成和显示的每个概念都由"令牌"短语或关键词表示。由此,建立关键词集合以表示和描述概念网络中所包含的概念。(l)被用于最终生成概念<formula>formulaseeoriginaldocumentpage13</formula>(1)其中^,^,2,...,,表示单词,而n,表示单词数组,",是概念网络中一个节点(万维网页)的摘要,它可被分解为若干单词/短语,即^,,.2,...,,。c)在分层结构树上提供滑动窗口,以分别用(2)、(3)和(4)来生成后代(offspring)、祖先(ancestor)和兄弟(sibling)的子树ST。假定一些单词在不同的窗口中出现。<formula>formulaseeoriginaldocumentpage13</formula>其中,^(o炎pn'"g)、S7;(""ce加。和S7;Cy/W/"g)是用于计算后代、祖先和兄弟关系的子树;M"^、/^M"和W'fe,分别代表节点",的第d层子节点、父节点和兄弟节点。d)对于每一个所生成的子树(例如,"(朋"加0),按等式(5)计算术语对的互信息。计算每个单词对w,,,的的互信息ML具有高值的互信息指示该单词对是相似的。<formula>formulaseeoriginaldocumentpage14</formula>其中,M/(w,,w,)是项w,和w,的互信息;e(w,,w7)表示项w,和,一起在子树中出现的概率;(x可为w,或,)表示项x在子树中出现的概率。确定一对项的相关性的另一个因素是项对的分布。越多子树包含该项对,则这两个项就越相似。在我们的实现中,使用熵(entropy)来测量项对的分布,如步骤(d)中所示。d)计算每个单词对w,,^的熵。基于在(5)中确定的互信息实际上在所有万维网站中是共同的,熵转换是对被确定为共同的单词对w,,的度量,。熵越高,概念网络可向用户提供的该单词在所有万维网站之间成对的信心就越高。<formula>formulaseeoriginaldocumentpage14</formula>e)根据(ll)计算每个单词对的相似性S/m:<formula>formulaseeoriginaldocumentpage14</formula>如(ll)中所阐述的相似性将互信息M/(w,,,)和e"的"(w,,,)相结合。为指示涉及(2)、(3)和(4)的有关概念(后代、祖先和兄弟),概念网络生成各种有关的类别。例如,表1示出公知概念的各种示例性后代概念表l:<table>tableseeoriginaldocumentpage14</column></row><table>14<table>tableseeoriginaldocumentpage15</column></row><table>表2示出各种示例性的袓先概念表2:祖先概念<table>tableseeoriginaldocumentpage15</column></row><table>表3示出各种示例性兄弟概念:<table>tableseeoriginaldocumentpage15</column></row><table>图2中所示的概念网络100的一个实施例被规定为图3中的结构形式、以及图4中其向用户所呈现的形式中所示出的有向图。概念网络所基于的有向图(G)300由(12)描述G=(V,E)(12)其中V是节点的集合,而E是边或链接的集合。由此,如有向图所表示的概念网络100包括多个节点以及链接这些节点的多个链接或边。节点表示概念。边或链接表示概念之间的关系。如图4中所示的概念网络100的有向图300由此提供内容结构。万维网页的内容结构被信息挖掘以产生用于生成概念网络的信息。图3示出用于使用概念网络100构造特定域的分类的技术的一个实施例。图3以导出一个或多个域专属的万维网站302而开始。这可通过利用现有的元搜索引擎来进行此工作来完成。例如,如果用户想要构造"数字摄像机"域的概念网络,用户可向搜索引擎发送査询,并使用前IOO个万维网站来构造概念网络。每个域专属的万维网站302包括对应于内容(由节点表示)的分析和链接结构(由链接结构表示)的分析的结构。产生概念网络100依赖于一个或多个万维网站的内容结构的有效挖掘。此挖掘可通过分析链接类型来执行,链接类型确定链接是后代链接、祖先链接、还使兄弟链接,诸如相对于图2的超链接分析器220所述。这些链接类型中的一个被分配给每个链接。然后使用如图2中所示的万维网页摘要部分206来简述节点的语义。在图3中,域专属分类是基于此信息挖掘而导出的。注意,与诸如WordNet⑧等要求手动的编辑输入以进行分类的现有技术的工具相比,在本揭示中,域专属分类的导出是自动执行的。Wordnet是针对一般域的手动构造分类。此分类是由编辑者而不是端点用户构造的。信息挖掘依赖于域专属万维网站的链接结构和内容。这与某些现有技术的自动分类词汇汇编构造不同,在后者中,信息是从内容而不是链接结构挖掘的。然后使用本体学习来构造概念网络100。基于本体学习,自动构造的概念网络开发其自身的分类。本体学习是基于统计框架,并且能够产生多个编辑者的视图。统计框架容易被应用于许多统计应用程序。如图3中所示地构造的概念网络100描述电子的各种概念网络。概念网络100包括各种Web块450,其中每个Web块表示一个不同的电子类别(例如,电子产品、电子类别、以及电子设备制造商、等等)。每个Web块由用户可识别的关键词描述。每个子Web块454可被视为与主Web块相关。例如,在图3中,单词"电子"表示主Web块452。术语"电子"表示好的主Web块452,因为此术语出现在许多涉及各种产品(各种产品中的每一种都可被视为一个子Web块)的万维网站中。例如,在图3中,在电子主Web块下示出各种子Web块454(包括照像机和相片、音频和视频、手持式、蜂窝电话、计算机、Sony、iPAQ、Palm⑧、外设、以及各种Comp叫⑧产品)。在此揭示中,每个Web块都被视为包含同构信息的一个概念。因此术语"概念网络"描述多个概念,或Web块的网络。每个Web块都可由一个关键词(诸如照相机、计算机、以及"Sony",如图3中所示)简述。图3中每个子Web块的主题极大地涉及主Web块电子,因此可被宽泛地归类到概念"电子"之下。基于Web块的结构、挖掘、以及概念网络100的域专属分类,如图3中所示的电子的概念网络包含这些术语中的许多。图3中所示的所生成的概念网络100可被视为自动构造的最终结果。图4中示出示例性概念网络100的一个实施例,如其在诸如平面显示器或CRT监视器等计算机显示器200上所显现的。由此,图4示出所生成的包括各种概念402的概念网络100(使用图2和3中所示出的技术)。每个概念402包括涉及以此方式所生成的至少一个Web块450,其中某些实施例在图3中示出。因此图4中示出的概念网络100包含覆盖在显示器上的若干概念402。就所关注的领域(在此实例中为"电子")相对地详述了概念网络的细节。例如,这些概念中的几个如果被用户选择,则会将用户带到比当前所显示的概念网络更狭隘或更宽泛的另一个概念网络。例如,用户可从电子概念网络转移到计算机概念网络。通过搜索所有各种万维网站执行概念网络的分析。分析指出在概念网络的某些实现中,被正确定位的万维网站的百分比有所提高(增至75%)。就准确性而言,这表示现有技术上的显著进步。考虑示例性查询"数字摄像机制造商"。典型的现有技术的搜索引擎搜索整个Web并返回包含关键项"数字"和/或"摄像机"和/或"制造商"的万维网页。因而此类现有技术的搜索引擎将返回相当大量的无关万维网页。概念网络100仅需搜索从节点"数字摄像机"扩展的子图。因此,概念网络速度更快,并且所返回的无关万维网页的数量显著减少。概念网络100提高对査询的期望响应的简单程度、速度和可靠性。首先,在概念网络100中定位项"数字摄像机"。所有指向节点"数字摄像机"或其所指向的节点都被提取。然后属性为"制造商"的节点被选择并分级(例如,基于点击数)。如此,便可搜索对任何类别的万维网页的前N个的查询(最大的公司、最大的制造商、最多的办公室、最近的位置、等等),而捕获合理数量的准确点击的概率大大提高。由概念网络所表征的此类改良的搜索得以发生是因为查询是定向到被搜索的万维网站的结构(如URL内所包含)。如相对于图5所描述的概念网络100的某些实施例可提供各种搜索服务,它们可搜索如因特网上的万维网站上所列出的前"N"个(其中"N"是某个正数)组织、公司、项目、群组、产品等等的某个可量化的阐述。例如,某些实施例生成提供找出世界上前五个数字摄像机制造商的查询的搜索结果的概念网络100。另一个査询提供诸如指示欧洲前五个钢铁制造公司等另一个复杂查询的搜索结果。预期概念网络高度有益的一类査询依赖于基于万维网站的结构(例如,基于URL所提供的结构)来访问数据。"前N"类型的査询基于多个万维网站的结构来分析和返回信息。例如,一种确定谁是美国前三名的汽车生产商的技术涉及访问所有可能的汽车生产商的万维网站,从每个万维网站导出类似的生产信息,然后比较从不同的万维网站导出的生产信息。由此,概念网络100的某些实施例可搜索万维网页内的详细特征。数据挖掘针对于此类万维网站分析。一般而言,数据挖掘(有时称为数据或知识发现)是基于查询从不同角度分析数据并向用户将数据总结为有用信息的过程。数据挖掘软件是用于分析数据的许多分析工具中的一种。它允许用户从许多不同的方面或角度分析数据、归类数据、以及总结所标识出来的关系。技术上,数据挖掘是在大型关系型数据库中的几十个字段之间寻找相关性或模式的过程,并且通常在査询中是公知的。由此,概念网络的某些实施例可使用如图3所提供的数据挖掘306来导出域专属的分类304。图5示出导致生成概念网络的过程600的一个实施例。过程600包括用户将査询输入到计算机环境50(如图1中所示)中的602。该査询将导致生成并向用户显示概念网络。在604,该查询给提交给如相对于图3所描述的多个域专属的万维网站302。这些万维网站由常见的元搜索引擎或人类构建的Web分层结构返回。在606,计算机环境通过诸如考虑对相关联万维网站的URL结构和内容等来分析万维网站结构。在610,被挖掘的信息被用于生成域专属分类(如相对于图3中的304所描述)。过程600前进至612,生成并向用户显示概念网络100。概念网络100能够被生成以返回对诸如"解释单词电子"等査询的响应(这是现有技术的搜索引擎所不能执行的)。此类概念网络也是通过分析各种万维网站和万维网页的结构来生成的(如图5中的查询的情形)。概念网络的一个实施例保存万维网站的结构信息,此信息标识编辑者对概念的分层结构的观点。在概念网络100中,不同编辑者的观点被合并到一起,从而用户可确定什么是最常见的解释。概念网络100的某些其它实施例可提供确定用户执行诸如解释单词"电子"等任务的最佳万维网站的査询。此类査询可被视为解释和/或比较的查询。由此,必须由概念网络对若干万维网站进行评估和比较。生成此类概念网络(诸如能够解释复杂问题的概念网络等)所涉及的一种机制牵涉到考虑涉及査询所提出的问题的大量万维网站;在某种程度上如现有技术的搜索引擎所可测量地考虑每个万维网站的相关性,然后向概念网络的用户显示万维网页的有关部分。图5的过程600的实施例也可被用于执行此类查询。为响应这些类型的相对复杂的查询(前N类型的査询,或者必须评估和比较多个万维网站的查询,等等),通过评估所考虑的每个万维网页或万维网站的结构来构造概念网络100。现有技术的搜索引擎不能够从万维网站导出该结构以执行这些分析(因此不能响应于此类査询)。例如,相关于电子的例子,概念网络考虑被结构化的万维网页,以提供定位到准确描述电子主题处足够的信息。概念网络100在查询扩展中也非常有用。目前,许多因特网应用程序使用现有技术的WordNet来扩展用户的査询以提高现有搜索引擎的精度。但是,WordNet是手动构造(分类词汇汇编)的高强度劳动的工作。几乎没有哪个万维网站愿意手动构造分类词汇汇编。万维网站操作者更喜欢自动分类词汇汇编构造。用户的手动分类词汇汇编构造不适合于因特网的迅速增长。诸如因特网等网络中的文档数量不断增长。越来越多的新单词和概念不断出现,这使得如在本揭示中所描述的概念网络的有用性得以突出。与依赖于关键词比较的现有技术的搜索引擎相比,概念网络返回较少的、但更为定向的结果。因此,用户较易评估概念网络所返回的每一个结果。此外,用户较易评估査询是否未能返回期望类型的结果,从而用户将能够修改原始査询使之更为定向。现用分类词汇汇编(概念网络可发挥此作用)对因特网和其它网络搜索是有用的。此外,概念网络100不但包含概念的分层结构,而且还包含这些概念的统计信息。因此它可被轻易地应用于诸如调查等某些关于普及性的特定问题。因为概念网络100的一个实施例为因特网和其它网络环境合并来自所有作者的单词和概念的观点,所以概念网络IOO可被视为向网络用户提供替换的分类词汇汇编。概念网络100可被适应于客户方以作为个人分类词汇汇编。用户的浏览路径将生成Web的子空间。类似的方法可被应用来分析Web的子空间,以生成个人频繁使用的概念的关系。因此概念网络提供万维网页的摘要。超链接和页标题上的文本可被用作万维网页的摘要。在另一个实施例中,自然语言语法分析(NLP)技术可被集成到万维网站搜索部分201中(可作为HTML语法分析器216的一部分),以使用某些主导关键词来总结文档。此揭示描述各种概念网络100。概念网络可被视为通过分析多个万维网站的结构并合并分析结果而从万维网站构建的因特网概念网络。概念网络100在提高搜索引擎的精度和速度方面特别有用。概念网络从万维网站结构、而不是单纯地从万维网站内所包含的明文文本中提取知识。概念网络提供域的自动构造。来自概念网络的统计结果揭示各个万维网站中所包含的一般知识。由此,概念网络不仅从特定万维网站获得信息,而且还从网络上大量各种各样的万维网站获得知识。概念网络可使用本体学习来维护涉及万维网站的结构信息。因此,当新的万维网页和概念被应用于因特网时,本体允许来自万维网页的结构信息被自动集成到概念网络中。此外,概念网络IOO可提供普通搜索引擎所不能提供的一些服务,诸如"找出世界上前N个数字摄像机制造商"以及"解释单词电子"等。概念网络还可对查询扩展起到现用因特网分类词汇汇编的作用,因为它提供如此多样的子Web块,它们通过主Web块相互关联,如图3中所示。图6示出合适的计算机环境或网络500的示例,其中包括可生成概念网络的用户界面。计算机环境500表示图1中所示的计算机环境的一个实施例。类似的资源可使用本文中所描述的计算机环境和过程。图6中所示出的计算机环境500是一般计算机环境,它可用于实现本文中所描述的概念网络技术。计算机环境500只是计算机环境的一个例子,它并不试图对计算机和网络体系结构的使用范围或功能提出任何限制。也不应将计算机环境100解释为具有涉及在示例性计算机环境中所示出的任一组件或其组合的任何依赖性或要求。计算机环境100包括计算机502形式的通用计算设备。计算机502可包括,例如以下组中的一个或多个,该组包括独立计算机、联网计算机、大型计算机、PDA、电话、微型计算机或微处理器、或与存储器结合使用处理器的任何其它计算机设备。计算机502的组件可包括,但不限于,一个或多个处理器或处理单元504(可选地包括加密处理器或协处理器)、系统存储器506、以及耦合包括处理器504和系统存储器506在内的各个系统组件的系统总线508。系统总线508表示若干类型的总线结构中的一种或数种,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线体系结构中的任何一种的处理器或局部总线。作为示例,此类体系结构可包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及也称为Mezzanine总线的外围组件互连(PCI)总线。计算机502通常包括各种计算机可读介质。这些介质可以是可由计算机502访问的任何可用介质,并包括易失性和非易失性、可移动和不可移动介质。系统存储器506包括诸如只读存储器(ROM)512等非易失性存储器和/或诸如随机存取存储器(RAM)510等易失性存储器形式的计算机可读介质。包含诸如在启动期间帮助在计算机502内部各元件之间传递信息的基本例程的基本输入/输出系统(BIOS)514存储在ROM512中。RAM510通常包含可由处理单元504即时访问和/或正由其操作的数据和/或程序模块。计算机502还可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。作为示例,图6示出用于读和写不可移动、非易失性磁介质(未示出)的硬盘驱动器515,用于读和写可移动、非易失性磁盘520(例如,"软盘")的磁盘驱动器518,以及用于读和/或写诸如CD-ROM、DVD-ROM或其它光介质等可移动、非易失性光盘524的光盘驱动器522。硬盘驱动器515、磁盘驱动器518和光盘驱动器522每一个都由一个或多个数据介质接口527连接到系统总线508。或者,硬盘驱动器515、磁盘驱动器518、以及光盘驱动器522可由一个或多个接口(未示出)连接到系统总线508。各盘驱动器及其相关联的计算机可读介质为计算机502提供计算机可读指令、控制节点数据结构、程序模块以及其它数据的非易失性存储。尽管该例示出硬盘驱动器515内的硬盘、可移动磁盘520和非易失性光盘524,应当认识到,能存储可由计算机访问的数据的其它类型的计算机可读介质也可被用于实现示例性计算机环境500,诸如磁带盒或其它磁存储设备,闪存卡、CD-ROM、数字多功能盘(DVD)或其它光存储,随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM),等等。可在硬盘驱动器515内所包含的硬盘、磁盘520、非易失性光盘524、ROM512、和/或RAM510上存储任何数量的程序模块,例如包括,OS526、一个或多个应用程序52S、其它程序模块530、以及程序数据532。OS526、一个或多个应用程序528、其它程序模块530、以及程序数据532中的每一个(或其组合)可实现支持分布式文件系统的所有或部分常驻组件。用户可经由诸如键盘534和定位设备536(例如,"鼠标")等输入设备将命令和信息输入到计算机502中。其它输入设备538(未具体示出)可包括话筒、操纵杆、游戏垫、圆盘式卫星天线、串行端口、扫描仪和/或其它。这些及其它输入设备经由耦合到系统总线508的输入/输出接口540连接到处理单元504,但也可由诸如并行端口、游戏端口或通用串行总线(USB)等其它接口和总线结构连接。监视器、平面显示器、或其它类型的计算机显示器200可经由诸如视频适配器544等接口连接到系统总线508。除了计算机显示器200以外,其它输出外围设备可包括诸如扬声器(未示出)和打印机546等组件,它们可经由输入/输出接口540连接到计算机502。计算机502可使用到诸如远程计算机548等一个或多个远程计算机的逻辑连接在联网环境中工作。例如,远程计算机设备548可以是个人计算机、便携式计算机、服务器、路由器、网络计算机、对等设备、或其它普通网络节点、游戏控制台、等等。图示远程计算机设备548为可包括在本文中相对于计算机502所描述的许多或所有元件的便携式计算机。计算机502和远程计算设备548之间的逻辑连接被示为局域网(LAN)550和一般广域网(WAN)552。此类网络环境常见于办公室、企业范围的计算机网络、内联网和因特网。当在LAN网络环境中实现时,计算机502经由网络接口或适配器554连接到局域网550。当在WAN网络环境中实现时,计算机502通常包括调制解调器556或用于通过广域网552建立通信的其它装置。可以是内置或外置于计算机502的调制解调器556可经由输入/输出接口540或其它适当机制连接到系统总线508。应当认识到,所示网络连接是示例性的,并且可以使用在计算机502和548之间建立通信链路的其它装置。在诸如以计算机环境500所示的联网环境中,相对于计算机502所描述的程序模块或其部分可存储在远程记忆存储设备中。作为示例,远程应用程序558驻留在远程计算机548的记忆设备上。为说明的目的,应用程序及诸如操作系统等其它可执行程序组件在本文中被示为离散的Web块,尽管可以认识到,这些程序和组件在各个时间驻留在计算机502的不同存储组件中,并由计算机502的数据处理器执行。可以认识到,所示出并描述的网络连接是示例性的,并且可以使用建立计算机之间的通信链路的其它装置。本文中在一个或多个计算机或其它设备所执行的诸如程序模块等计算机可执行指令的通用上下文中描述各种模块和技术。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、控制对象650、组件、控制节点数据结构654、等等。通常,在各实施例中可按需组合或分布各程序模块的功能。这些模块和技术的一个实现可被存储在某种形式的计算机可读介质上,或可通过其发送。计算机可读介质可以是可由计算机访问的任何可用介质。作为示例,而非限制,计算机可读介质可包括"计算机存储介质"和"通信介质"、"计算机存储介质"包括以用于存储诸如计算机可读指令、控制节点数据结构、程序模块或其它数据等信息的任何过程或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术,CD-ROM、数字多功能盘(DVD)或其它光存储,磁带盒、磁带、磁盘存储或其它磁存储设备,或可用于存储所需信息并可由计算机访问的任何其它介质。"通信介质"通常具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、控制节点数据结构、程序模块或其它数据。通信介质还包括任何信息传递介质。术语"已调制数据信号"指以在信号中以将信息编码的方式设置或改变其一个或多个特征的信号。作为示例,而非限制,通信介质包括诸如有线网络或直接连线连接等有线介质,以及诸如声学、RF、红外和其它无线介质等无线介质。以上任何组合也被包括在计算机可读介质的范围之内。尽管使用专属于结构和功能特征和/或方法的语言描述了系统、介质、方法、方式、过程等,但是应当理解,所附权利要求书中所定义的本发明不必被限制于所描述的具体特征或方法。相反,揭示这些具体特征和方法是将其作为实现要求保护的发明的示例性形式。权利要求1.一种方法,包括考虑多个域专属万维网站;通过分析所述多个域专属万维网站的相对内容导出域专属分类;以及基于所述域专属分类规划概念网络。2.如权利要求1所述的方法,其特征在于,所述域专属分类是基于信息挖掘而导出的。3.如权利要求2所述的方法,其特征在于,所述信息挖掘基于链接结构和内容。4.如权利要求1所述的方法,其特征在于,所述概念网络是基于熵来规划的。5.如权利要求l所述的方法,其特征在于,所述概念网络是基于互信息来规划的。6.如权利要求1所述的方法,其特征在于,所述概念网络是基于相似性来规划的。7.—种方法,包括生成概念网络,包括基于从用户提交的査询,分析关于多个万维网站的结构信息;基于所述多个万维网站的结构信息,确定对"前N个"类型的査询的响应;以及向用户返回涉及所确定的响应的信息。8.如权利要求7所述的方法,其特征在于,所述结构信息基于统一资源定位器URL。9.如权利要求7所述的方法,其特征在于,所述结构信息基于每个万维网页内的隐藏概念。10.—种方法,包括生成概念网络,包括基于从用户提交的査询,分析关于多个数据存储位置的结构信息;基于所述多个数据存储位置的结构信息,确定对相关性类型的查询的响应;以及向用户返回涉及所确定的响应的信息。11.如权利要求10所述的方法,其特征在于,所述结构信息基于统一资源定位器URL。12.如权利要求10所述的方法,其特征在于,所述结构信息基于每个数据存储位置内的隐藏信息。13.如权利要求10所述的方法,其特征在于,所述数据存储位置包括万维网页。14.一种具有用于生成概念网络的计算机可执行指令的计算机可读介质,包括基于从用户提交的查询,分析关于多个万维网站的结构信息;基于所述多个万维网站的结构信息,确定对相关性类型的查询的响应;以及向用户返回涉及所确定的响应的信息。15.—种方法,包括通过以下动作自动导出域专属分类基于从用户提交的査询,分析关于多个数据存储位置的结构信息;基于所述多个数据存储位置的结构信息,确定对相关性类型的查询的响应。16.如权利要求15所述的方法,其特征在于,还包括使用所述域专属分类生成概念网络。全文摘要一种可响应于用户查询而被生成的概念网络(100)。在一个实施例中,概念网络(100)配合搜索工具使用。该搜索工具搜索多个数据存储位置。每个数据存储位置都用一个节点(302)来排列。这些节点中的某几个至少用一个链接(306)相连。该概念网络(100)基于该链接(306)选择这些节点中的某几个中的一部分,其中这至少一个链接是用于内容目的(306)。文档编号G06FGK101256581SQ200810081579公开日2008年9月3日申请日期2004年4月12日优先权日2003年5月1日发明者S·刘,Z·陈,马维英申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1