开采产品支持服务请求的制作方法

文档序号:6551610阅读:218来源:国知局
专利名称:开采产品支持服务请求的制作方法
技术领域
本发明的系统和方法关于数据筛选。
背景现在的高科技公司典型地提供产品服务的一些方面以确保消费者和股东在技术投资上得到最大的价值。例如,可以提供许多消费者和企业服务报价和战略IT咨询服务以帮助满足消费者和股东的各种需要。服务报价可以包括电话,现场,基于网页的服务,等等。不幸地,该产品支持服务可能变得异常地昂贵,不仅按照财务成本,而且按照终端用户的经验需要查找解决问题的时间的总量。例如,现场服务报价典型地昂贵到这种程度,即,非团体消费者不能负担雇用个别产品顾问或故障检修员。
另外,当服务被自动化时(例如,通过知识库的在线查找,该知识库包括产品帮助(怎样)和/或故障检修条款)使消费者识别条款的点上设置的时间总量可以变得受到抑制。这方面的一个原因是因为知识库条款典型地由专业作者,卖方,等等生成,而不是产品的日常用户所寻求的服务。在这种情况下,如果用户不使用由点上KB条款的作者采用的精确术语来形成检索查询,用户找到它可能非常困难并且设置任何点上知识库故障查找信息非常费时。更糟的是,由于一个特殊原因,KB条款一般具体到一个细节问题,即,缺乏多种问题调查和诊断的综合文件。因此,用户可能需要设置和评论多种KB条款以达到解决具有多种潜在原因的问题。
概述描述了用于开采产品支持服务请求的系统和方法。一方面,非结构服务请求被转换为一个或多个结构应答对象。每个结构应答对象包括分级结构历史问题诊断数据。鉴于产品问题说明,识别一个或多个结构应答数据对象的集合。该集合中的每个结构应答数据对象包括与产品问题说明相关的关键字和/或关键短语。来自该集合的历史和分级结构问题诊断数据被提供到终端用户用于产品问题的诊断。
附图简要说明图中,部件参考数字最左边的位代表该部件第一次出现的具体图。


图1说明了用于开采产品支持服务请求的示范性系统。
图2示出了从结构应答对象将分级结构历史问题诊断数据呈现到用户用于选择产品问题诊断交互的故障查找向导用户界面的示例。
图3说明了用于产品支持服务服务器开采产品支持服务请求的示范性过程300。
图4说明了客户计算设备在故障查找向导中呈现结构应答对象以将产品问题支持提供到终端用户的示范性过程。
图5示出了一个示范性的适当计算环境,在该环境中,随后所描述的用于开采产品支持服务请求的系统,设备和方法可以被全部或部分地实施。
图6是可以用于聚类的计算机环境的一个实施例的结构图。
图7是聚类异构对象的结构的一个实施例的结构图。
图8是混合网络模型的一个实施例的结构图。
图9是计算机环境的另一个实施例的结构图,该计算机环境涉及因特网。
图10是聚类算法的一个实施例的流程图。
图11是聚类算法的一个实施例的流程图。
图12是包括隐蔽层的聚类异构对象的结构的另一个实施例的结构图。
图13是聚类算法的另一个实施例的流程图。
详细说明综述创建的知识库(KB)和帮助(“怎样”)条款用于辅助消费者找出答案以便解决/调试产品问题。研究表明,对于终端用户越容易查找和获得点上KB条款(例如,消费者查询的一个直接地址),消费者对产品和它的支持基础结构的满足将越大。然而,研究表明,终端用户经常花费大量收集数据的时间,诸如KB条款,试图为他们的调试查询找出点上条款。对于这的一个原因是因为传统的产品支持基础结构经常处理单一原因的问题,而缺少多种原因产品问题诊断的知识表示。为了访问这种限制,下面开采,分析,和组织非结构产品支持服务(PSS)日志的产品支持服务请求的系统和方法基于结构数据对象的相关聚类。该结构数据对象包括历史的单一和多种产品问题诊断数据。
特别地,从非结构服务请求的PSS日志提取用户生成文本以及连接/参考产品支持(PS)条款。根据相关特征将文本地分析并组织的信息提取到交互结构数据对象的聚类。例如,与其他服务请求内容相比,连接信息可能是相对多余的。然而,当两个服务请求引用同一个KB条款时,两个服务请求可能相对于同一个问题和原因。在分析和集中之后,结构对象包括一些产品问题症状,原因,解答,连接/引用到相关PS文件的组合,并且参考任何其他相关的数据对象。分级结构数据对象的这些聚类用于生成故障查找向导。
该故障查找向导,鉴于所给产品的症状或问题说明,为用户提供直接与结构数据对象的组织交互用于问题的诊断和解决。特别地,故障查找向导允许终端用户用相应的问题原因和解决方法系统地平衡分级结构历史数据对象以便匹配/识别他们的产品问题症状,或说明。现在详细地描述了用于开采产品支持服务请求的系统和方法的这些和其他方面。
示范性的系统返回附图,其中相同的参考数字代表相同的元件,描述和示出了在合适的计算环境中实现的系统和方法。虽然没有要求,在由个人计算机执行的计算机可执行指令的普通上下文中描述了本发明,诸如程序模块。程序模块通常包括例程,程序,对象,元件,数据结构,等等,它执行特定的任务或执行特定的抽象数据类型。然而在上文中所描述的系统和方法,在下文中所描述的行为和操作也可以用硬件来实现。
图1示出了用于开采产品支持服务请求的示范性系统100。在该实施中,系统100包括通过通信网络104耦合到客户计算设备106的产品支持服务(PSS)服务器102。网络104可以包括局域网(LAN)和普通广域网(WAN)通信环境的任意组合,诸如在办公室中普通设置的那些,企业范围的计算机网络,内部网,以及因特网。PSS服务器102耦合到下面的数据储存库PSS服务请求(SR)日志108,聚类和分级结构应答数据对象110,以及KB条款112。客户计算设备106是任意类型的计算设备,诸如个人计算机,膝上计算机,服务器,移动计算设备(例如,蜂窝电话,个人数字助理,或便携式计算机),等等。
PSS服务器102开采PSS服务请求日志108以生成分级组织和结构应答数据对象(SAOs)110的聚类。每个SAO110包括历史的,单一和/或多种问题,产品问题诊断数据。作为问题说明/症状,结果,原因,以及解决诊断数据的一个或多个功能该诊断数据由PSS服务器102组织成层次树,例如编号114中所示。如下面所描述的,响应由PSS服务器从客户计算设备106接收的问题说明/症状查询116,响应信息118中的这些结构应答数据对象110之一由PSS服务器102传送到客户计算设备106。与查询116的项目对应,结构应答数据对象110传送到客户计算设备106。计算设备106的终端用户客户使用故障查找向导120系统地呈现和平衡通过通信结构应答数据对象110封装的历史产品问题诊断数据以便至少识别问题的相应原因和相关的解答。优先说明了什么样的故障查找向导120将该分级结构历史产品问题诊断数据呈现给终端用户用于问题的解决,我们首先描述由PSS服务器102怎样生成结构应答数据对象110。
结构应答数据对象PSS服务请求日志108中记录的每个项目是终端用户和产品支持工程师/工作人员调查产品问题诊断,调试,以及解答通信过程的结果。该产品问题诊断和解答通信是非正式的(例如,没有基于由专业作者或卖方独自生成的记录产品的任务信息),并且经常包括涉及将产品问题症状限制到根源的非结构问题和应答的集合。该问题可以包括产品名称,问题范围诸如问题说明,症状,原因,解答,等等的一些组合。支持工程师/工作人员的回应可以包括相应系统和产品问题诊断/调查问题,原因,和/或问题的解答的一些组合。该支持工程师/工作人员的回应也可以包括连接/参考PS条款(例如,知识库(KB)条款112),该条款相应于特定的问题解决过程。该链接/参考经常包括,例如,基本上唯一的文件IDs,超文本链接,通用资源标识符(URIs),文件题目,等等。在终端用户和产品支持工程师/工作人员之间通信的这些信息以下简称为非结构服务请求122。
为了开采PSS服务请求日志108,结构应答对象(SAO)生成模块124从非结构服务请求122之一提取产品问题范围和解答信息。所提取的信息在它的中间数据格式中作为元数据126示出,并且包括例如,产品名称,问题范围诸如问题说明,症状,原因,解答,产品问题诊断/调查问题,原因,解答,到一个或多个PS条款的链接/参考数据,等等的任意组合。SAO生成模块124从元数据126定位有关的症状,结果,原因,解答,问题/应答对,有关的KB条款,等等,以便形成结构应答对象110。从单一的服务请求生成单一的SAO,因此,SAO110表示一个问题一种原因一种解答的结构。由聚类的多个SAOs110一起提供分级的一个问题多种原因多种解答,如以下的段落 , ,和 中所描述的。
为了简化通过SAOs110的查找和检索,鉴于问题说明检索词,索引模块128的集合创建索引130。为此,索引模块128从SAOs110提取检索词和关键短语,执行统计和基于会议的特征选择以便将合适的加权值分配到所提取的特征,并且规范SAOs110中的术语。特别地,索引模块128的特征提取部分执行从结构应答对象110中提取特征诸如术语,短语,和/或句子。统计信息被用于执行该提取。例如,在一个实施中,如果在第一文件(SAO)中单词出现多次而在第二个(不同)文件中很少出现或根本不出现,则该特定的单词被决定为第一文件中的术语。交互信息用于计算关键短语。例如,在文件中当相互邻近的两个术语频繁地出现时,则这两个术语被结合以便生成短语。用索引130的个别部分表示所提取的术语和短语的特征。在一个实施中,索引模块128用语义数据诸如用同义词来扩大一个或多个所提取的特征。
接下来,索引模块128执行统计和提取特征的基于会议的选择(特征选择)以便将较高的加权值选择和分配到基本上最重要的标记。统计特征选项处理作为层状结构的文件,例如单词包,以便执行诸如检索词频率的简单检索词统计。基于会议的特征选项利用服务请求的内部结构。例如,服务请求可以被视为多种信息的树结构,具有它的父节点的应答信息的每个节点。这种树结构用于增强特征选项。用索引130的个别部分表示特征选项的操作结果。示范性的特征选项算法基于DF,IG,MI,CHI,在主动维数减缩上具有焦点,如上所述,例如,在1997年,Yang和Pederson的“文本编目方法中特征选项的比较研究”中。
接下来,索引模块128转换,或规范所提取的特征。该规范将检索词转换为一致的格式,例如在工程师之间以及在消费者和工程师之间。例如,在一个实施中,检索词“腐败”可以被映像得与检索词“损害”类似,检索词“WINDOWSXP”映像到检索词“Win XP”,等等。例如,在2003年7月-8月,SIGIR-03的“根据网页链路结构建造网页辞典”中描述了检索词的规范,该文献在这里被结合参考。用索引130的个别部分表示检索词规范的结果。
用于SAO110分级和聚类的统一结构增强聚类模块132使用来自索引130的信息根据他们的内容和链接特性将SAOs110组织到语义聚类中。例如,虽然与其他的SAO内容相比链接信息可能是相对稀少的,当多个SAOs110引用同一个KB条款112时,多个SAOs110可能相应于同一个问题和原因。在这种情况下,增强聚类模块132交叉引用相关的多个SAOs110。特别地,增强聚类模块132使用相互增强聚类算法计算SAO110(文件/对象)对的相似性,以便将每个SAO的特征迭代地聚类到低维特征空间。SAO110相似性计算基于tf*idf,它是公知的规范检索词特征加权值的加权算法。“多种类型相关数据对象的增强聚类”描述了用于增强聚类的示范性的技术,如在下面的附录A中所描述的。相关SAOs110的分析和聚类后,相关SAOs110被一起聚类到故障查找向导120,如下面描述的,并且索引被存储在索引130中。
半监督学习方法使用标记和非标记的排列数据采样构造分级器。而非标记的数据采样可以有助于将排列模式的精确度提高到一定的程度,当标记数据不足并且对基础的数据分配有偏见时,存在的方法仍然面对困难。为了访问传统聚类方法的这种限制,在一个实施中,聚类模块132用附加的聚类分析统一它的增强聚类操作,诸如该附加的聚类分析由人工生成。这样形成了用于SAOs110的聚类和分级的统一结构。
例如,在一个实施中,增强聚类模块132的基于聚类的分级(CBC)操作在标记数据的指导下首先聚类包括标记和非标记的数据的排列数据。然后基于所获得的聚类标记一些非标记数据的采样。然后用扩展的标记数据集合随后排列不同的分级器。为了说明的目的,用其他数据134的个别部分表示该排列采样,扩展标记数据集合,聚类,等等。美国,佛罗里达州,墨尔本,ICDM-03(2003 IEEE数据筛选的国际信息处理会议),2003年11月19-22日,Hua-JunZeng等的“CBC基于文本分级的聚类请求最小标记数据”描述了使用CBC执行该统一聚类的示范性的技术,该文献在这里被结合参考。
示范性的知识库更新在一个实施中,知识库(KB)更新模块136从一个或多个SAOs110动态地生成KB条款112。静态生成的KB条款是一种手工生成的,例如,通过人工。动态生成的KB条款112是一种由KB更新模块136自动生成的并且包括来自相应SAOs110之一的信息—由SAO生成模块124从产品终端用户以及支持工程师/工作人员编译的分级结构历史问题诊断数据。当多个SAOs110用于生成KB条款时,多个SAOs110表示SAOs110的增强聚类—如索引130所表示的。
更特别地,SAOs110被集中在一起,当他们具有相同的问题说明时用于生成故障查找向导120,如上面的段落 , ,以及 中所描述的。该聚类的频率是SAOs110集合成故障查找向导120的数目。另外,具有相同原因的SAOs110进一步被聚类到子组,每个子组的频率为聚类到各个子组的SAOs110的数目。如果“向导”(例如,用于生成故障查找向导120的SAOs的集合)的尺寸足够大,例如,整个向导的频率和所有子组的频率超过某个极限,一个新(提高的)KB条款112被创建。
示范性的产品问题故障查找向导在该实施中,客户计算设备106包括故障查找向导120,该故障查找向导120允许客户计算机106的终端用户鉴于所提供的产品问题症状或说明从结构应答数据对象110系统地呈现和平衡分级结构历史产品问题诊断数据。该呈现允许终端用户识别问题的相应原因和相关的解答。在这些终端,用户将作为计算机程序应用或产品(例如,浏览,字处理应用程序,和/或计算机编程应用的任何其他类型)的基于文本的症状或问题说明138输入到故障查找向导120(例如,通过用户界面(UI)控制)。故障查找向导120生成包括产品问题说明和/或症状138的查询116,和通信查询116以便通过网络104查找PSS服务器102的供给器模块140。
响应所接收的查询116,查找供给器140执行索引130的整体文本查找以便识别与查询116中的检索词相关的检索词和/或短语的一个或多个SAOs110。在一个实施中,该检索词和/或短语将具有与所查询的检索词基本上较高的客观关联性(加权值),并且可以用于决定一个SAO110比另一个SAO110与查询116更相关。响应一个或多个相关SAOs110的定位,查找供给器140将一个或多个SAOs110传送回客户计算设备106,例如,通过应答信息118。响应所接收的一个或多个SAOs110,故障查找向导120从一个或多个SAOs110提取历史的,单一和/或多种问题产品问题诊断数据。故障查找向导120将所提取的信息呈现到客户计算设备106的终端用户,例如,如图2中所示。
图2示出了从SAOs110将分级结构历史问题诊断数据呈现到用户用于选择产品问题诊断交互的示范性的故障查找向导用户界面(UI)200。如UI200中所示,对于所提供的产品问题症状/说明138,UI200呈现一个或多个相应的症状,原因,解答,和/或其他信息,每个从一个或多个SAOs110提取的信息由应答信息118封装。相对于症状的KB条款112是它的子原因/解答的相关KB条款的集合,具有叠加的频率。
虽然UI200示出了一些症状,原因,和/或解答数据集合,在这里可以是许多作为特定问题138的功能被访问的该数据和SAOs110的内容。故障查找向导120平衡嵌入响应118中的SAO(s)110的内部数据表示,以便在个别层次树结构中呈现每个症状,原因,以及解答数据集合。在这个树中,每个症状呈现节点具有一个或多个原因子节点。每个原因节点依次是用于一个或多个解答子节点的父节点。为了选择UI200中的信息表示的目的,在该实施中,标点符号“+”和“-”显示在个别症状和原因节点的左边。符号“+”和“-”表示可选的UI对象,该对象允许用户选择地扩展和/或折叠与相应的结构应答对象节点相关的信息。
故障查找向导120,鉴于所提供产品的症状或问题说明138,通过UI200将组织的历史问题诊断数据的相互作用直接从应答118提供给用户用于问题的诊断和解答。因此,故障查找向导120允许终端用户系统地平衡分级结构的历史数据对象以便用相应的问题原因和解答匹配/识别他们的产品问题的症状,或说明。
示范性的过程图3说明了用于产品支持服务服务器开采产品支持服务请求的示范性过程。为了讨论的目的,相对于图1的部件讨论过程的操作。(所有的参考数字从附图号开始,附图中的部件首先被介绍)。在块302,产品支持服务(PSS)服务器102(图1)将非结构服务请求122从PSS服务请求日志108转换为一个或多个结构应答数据110。在块304,PSS服务器102,响应在请求信息116中接收的产品问题说明138,识别一组结构应答数据110,该应答数据110包括与产品问题说明138相关的检索词和/或短语。在块306,PSS服务器102将历史和分级结构问题诊断数据从该组中提供到终端用户用于产品问题的诊断。在一个实施中,这是通过将应答信息118传送到客户计算设备106来完成的。在另一个实施中,这是通过知识库更新模块136来执行的,该模块根据组中的信息动态地生成知识库文章112。
图4说明了客户计算设备在故障查找向导中呈现结构应答对象以便为终端用户提供产品支持的示范性过程400。为了讨论的目的,相对与图1的部件讨论过程的操作。(所有的参考数字从附图号开始,附图中的部件首先被介绍)。在块402,客户计算设备106将查找请求(图1的查询116)传送到PSS服务器102。该查找请求包括产品问题说明138。在块404,响应所接收的查找请求的应答信息118,客户计算设备106呈现故障查找向导120以便呈现访问产品问题说明138的历史和分级结构问题诊断数据。图2中示出了示范性的表示。
示范性的操作环境图5说明了一个合适的计算环境500的例子,在该环境中图1的系统100以及图3和4用于开采产品支持服务请求的方法可以被全部或部分地实施。示范性的计算环境500仅仅是合适的计算环境的一个例子,并不用于暗示这里所描述的有关使用范围或系统和方法功能的任何限制。计算环境500也不被解释为具有任何从属物或要求,该从属物或要求与所说明的计算环境500中的任何一个部件或部件的组合相关。
这里描述的方法和系统与计算系统环境或结构的许多其他的通用目的或专用目的操作的结合。公知的计算系统,环境,和/或结构的例子可以是适用的,包括但不限制到个人计算机,服务器计算机,多处理器系统,基于微处理器的系统,网络PCs,小型计算机,大型计算机,包括上述任何系统或设备的分布式计算环境,等等。也可以在有限资源的客户中实施网络的压缩或小型版本,诸如便携式计算机,或其他计算设备。本发明在分布式计算环境中实现,该环境中由通过通信网络链接的远程处理设备执行任务。在分布式计算环境中,程序模块可以设置在局域或远程存储器存储设备中。
参考图5,用于开采产品支持服务请求的示范性系统包括计算机510形式的通用目的计算设备。以下描述的计算机510的方面是客户计算设备PSS服务器102(图1)和/或客户计算设备106的示范性的实施。计算机510的部件可以包括但不限制到处理单元520,系统存储器530,以及系统总线521,该系统总线521将包括系统存储器的各种系统部件耦合到处理单元520。系统总线521可以是多种类型总线结构的任意一种,该多种类型的总线结构包括存储器总线或存储器控制器,外围总线,以及使用不同总线体系结构的任意一种的局部总线。作为例子而不是限制,该体系结构可以包括工业标准体系结构(ISA)总线,微通道体系结构(MCA)总线,增强的ISA(EISA)总线,视频电子标准协会(VESA)局部总线,并且外围部件互连(PCI)总线作为附加板总线也是公知的。
计算机510典型地包括各种计算机可读介质。计算机可读介质可以是任何可获得的介质,所述介质可以通过计算机510访问并且包括易失性和非易失性介质,可移动和不可移动介质。作为例子而不是限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括易失性和非易失性,可移动和不可移动介质,该介质用任意方法或技术执行诸如计算机可读指令,数据结构,程序模块或其他数据信息的存储。计算机存储介质包括但不限制到RAM,ROM,EEPROM,闪存或其他存储器技术,CD-ROM,数字通用唱片(DVD)或其他光盘存储器,磁带盒,磁带,磁盘存储器或其他磁存储设备,或任何其他可以用于存储想要的信息并且可以由计算机510访问的介质。
通信介质典型地包含计算机可读指令,数据结构,程序模块或调制数据信号中的其他数据诸如载波或其他传送机构,并且包括任何信息传送介质。术语“调制数据信号”的意思是具有它的一个或多个特征或者为了信号中的编码信息采用这种方法改变的信号。作为例子而不是限制,通信介质包括有线介质诸如有线网络或直接有线连接,以及无线介质诸如声波,RF,红外和其他无线介质。上述的任意组合也可以包括在计算机可读介质的范围中。
系统存储器530包括易失性和/或非易失性存储器形式的计算机存储介质诸如只读存储器(ROM)531和随机存取存储器(RAM)532。基本输入/输出系统533(BIOS),包含有助于在计算机510的部件之间传送信息的基本例程,诸如在启动期间典型地存储在ROM531中。RAM532典型地包含数据和/或程序模块,该模块由处理单元520立即访问和/或操作。作为例子而不是限制,图5说明了操作系统534,应用程序535,其他程序模块536,以及程序数据537。在一个实施中,其中的计算机510是PSS服务器102。在这种情况下,应用程序535包括结构解决数据对象生成模块124,增强聚类模块132,索引模块128,查找供给器模块140,和知识库(KB)更新模块136。在相同的情况下,程序数据537包括元数据126,索引130,其他数据134,和应答信息118。在另一个实施中,其中的计算机510是图1的客户计算设备106,应用程序535包括故障查找向导120。在相同的情况下,程序数据537包括查询116,和产品问题症状/说明138。
计算机510也可以包括其他可移动/不可移动,易失性/非易失性计算机存储介质。仅作为例子,图5说明了读或写不可移动,非易失性磁介质的硬盘驱动器541,读或写可移动,非易失性磁盘552的磁盘驱动器551,以及读或写可移动,非易失性光盘556诸如CD ROM或其他光学介质的光盘驱动器555。其他可移动/不可移动,易失性/非易失性计算机存储介质可以在示范性的操作环境中使用,该示范性的操作环境包括但不限制到盒式磁带,闪存卡,数字通用唱盘,数字视频磁带,固态RAM,固态ROM,等等。硬盘驱动器541通过不可移动存储器接口诸如接口540典型地连接到系统总线521,而磁盘驱动器551和光盘驱动器555通过可移动存储器接口诸如接口550典型地连接到系统总线521。
以上讨论的并在图5中说明的驱动器和他们相关的计算机存储介质,提供计算机可读指令,数据结构,程序模块和用于计算机510的其他数据的存储。图5中,例如,硬盘驱动器541作为存储操作系统544,应用程序545,其他程序模块546,和程序数据547被说明。注意到,这些部件可以与操作系统534,应用程序535,其他程序模块536,和程序数据537相同或不同。这里给出操作系统544,应用程序545,其他程序模块546,和程序数据547的不同的编号来说明它们至少是不同的副本。
用户可以通过输入设备诸如键盘562和定点设备561将命令和信息输入到计算机510,该定点设备561通常被认为是鼠标,跟踪球或触摸板。其他输入设备(未示出)可以包括麦克风,操纵杆,游戏板,辅助盘,扫描仪,等等。这些和其他的输入设备经常通过耦合到系统总线521的用户输入接口560连接到处理单元520,但是可以通过其他接口和总线结构连接,诸如并行端口,游戏端口或通用串行总线(USB)。
监视器591或其他类型的显示设备也通过接口连接到系统总线521,诸如视频接口590。除了监视器,计算机也可以包括其他外围输出设备诸如喇叭597和打印机596,它们可以通过输出外围接口595连接。
在网络环境中操作的计算机510逻辑连接到一个或多个远程计算机,诸如远程计算机580。远程计算机580可以是个人计算机,服务器,路由器,网络PC,同等设备或其他通用网络节点,并且作为它特定执行的功能,可以包括许多或所有上述的与计算机510相关的元件,虽然图5中仅仅说明了存储器存储设备581。图5中描述的逻辑连接包括局域网(LAN)571和广域网(WAN)573,但是也可以包括其他网络。该网络环境是办公室中通常设置的,企业范围的计算机网络,内部网和因特网。
当在LAN网络环境中使用时,计算机510通过网络接口或适配器570连接到LAN571。当在WAN网络环境中使用时,计算机510典型地包括调制解调器572或用于通过WAN573设置通信的其他装置,诸如因特网。调制解调器572可以是内部的或外部的,可以通过用户输入接口560或其他适当的机制连接到系统总线521。在网络环境中,相对于计算机510或它的一部分所描述的程序模块可以存储在远程存储器存储设备中。作为例子而不是限制,图5说明了保存在存储设备581中的远程应用程序585。所示的网络连接是示范性的并且可以使用在计算机之间设置通信连接的其他装置。
总结虽然已经用具体到结构特征和/或方法操作或行为的术语描述了用于开采产品支持服务请求的系统和方法,将被理解的是,所附权利要求中定义的设备不必限制到具体的特征或行为描述。例如,虽然图1示出了与客户计算设备106相关的故障查找向导120,故障查找向导120也可以在服务器计算机102上实现。因此,作为实现权利要求主题的典型的形式,公开了具体的特征和行为。
附录A典型的聚类系统和方法的背景聚类涉及多个对象的分组,并且用于应用程序中诸如搜索引擎和信息开采。聚类算法基于对象的相似性来分组对象。例如,网页对象基于它们的内容,连接结构,或它们的用户存取日志被聚类。用户聚类基于他们所选择的项目。用户对象基于他们的存取历史被聚类。与用户有关的项目的聚类传统地基于用户所选择的那些项目。多种聚类算法是公知的。现有技术的聚类算法包括基于分割的聚类,分级聚类,和基于密度的聚类。
用户访问的网页或图案的内容经常用于创建用户的概况以聚类网页用户。然后采用传统的聚类技术。在合作的过滤器中,为了较好地推荐/预测,聚类也用于分组用户或项目。
这些现有聚类算法的使用,通常,具有一定的局限性。传统聚类技术太分散而不能获得有效的对象聚类,该传统聚类技术可能面临对象数目或异构对象之间的连接数目数据稀少的问题。用同族聚类,被分析的数据集合包含相同类型的对象。例如,如果同族聚类基于网页和用户,则每个网页对象和用户对象将被分别聚类。如果同族聚类基于项目和用户,则每个项目对象和用户对象将被分别聚类。在该同族聚类实施例中,那些相同类型的对象被一起聚类而不考虑其他类型的对象。
现有技术的异构对象聚类分别聚类对象集合。该异构对象聚类仅使用表示每个对象节点平面特征的连接。在现有技术的异构聚类中,不考虑层内部和之间的所有连接结构,或者简单地当作分离特征。
示范性的聚类系统和方法图6中示出了可以得益于聚类的使用的计算机环境600(即通用计算机)的一个实施例。该计算机环境600包括存储器602,处理器604,聚类部分608,和支持电路606。支持电路包括诸如显示器和输入/输出电路部分,该电路允许计算机环境600的不同部件传送信息(例如,数据对象)。
在聚类部分608中执行聚类。该聚类部分608可以在计算机环境的存储器602和处理器604部分中被集成。例如,处理器604处理聚类不同对象的聚类算法(该算法从存储器检索)。存储器602(诸如数据库)负责存储聚类的对象以及相关的程序以及聚类算法以至于可以根据需要检索(和存储)聚类的对象。计算机环境600可以被配置为独立的计算机,网络计算机系统,大型机,或公知的任意不同的计算机系统。这里公开的一些实施例描述了计算机环境的应用(从因特网下载网页的计算机)。可以预见的是,这里描述的原理适用于任何公知类型的计算机环境600。
该编写的说明书提供了一种聚类机制,通过该机制认为可靠的返回结果的百分比(例如,应用到用户的查询)被提高。聚类可以被应用到诸如搜索工具,信息筛选,数据筛选,合作过滤器,等等的技术领域。搜索工具已经得到关注,由于它们服务不同信息的能力需要并获得增强的检索性能。搜索工具与诸如网页,用户,查询,等等的计算机方面有关。
当前编写的说明书描述了用于聚类数据对象的各种聚类算法的实施例。数据对象的聚类是一种技术,通过该技术数据对象的大型集合被组合成大量的集合或数据对象的聚类(每个大量的数据对象聚类具有较少的数据对象)。包含在数据对象的聚类组中的每个数据对象具有一些相似性。因此,聚类的一方面可以被认为是多种数据对象的分组。
在编写的说明书中描述的一种聚类机制涉及结构图750,图7中说明了结构图的一个实施例。在不同类型的对象中提供了统一聚类机制的一些实施例,该对象在不同层或节点集合P和U之间被聚类,如图7的结构图750中所示。同样可以预见的是,在所编写的说明书中描述的原理可以应用到三个或多个层中,代替编写的说明书中所描述的两个层。每个节点集合P和U也可以被认为是一层。在所编写的说明书中,术语“统一”聚类应用到聚类异构数据的技术。节点集合P包括多个数据对象p1,p2,p3,…,pi,每个数据对象是相同的数据类型。节点集合U包括多个数据对象u1,u2,u3,…,uj,每个数据对象是相同的数据类型。在每个节点集合(P或U)上聚类的对象的数据类型是一致的,因此,每个节点集合(P或U)中的数据对象是同族的。节点集合P中的数据对象p1,p2,p3,…,pi的类型与节点集合U中的数据对象u1,u2,u3,…,uj的类型不同。诸如,在不同节点集合P和U之一中的数据对象的类型是不同的,或异构的。编写的说明书的一些方面提供了使用从对象的同族和异构数据类型输入(基于连接)的聚类。
在编写的说明书中通过在数据对象对之间的线性扩展说明了连接。连接表示聚类中数据对象对之间的关系。在一个例子中,连接可以从网页对象扩展到用户对象,并且表示用户选择的一些网页。在另一个例子中,连接可以从网页对象扩展到另一个网页对象,并且表示不同网页之间的关系。在聚类的一些实施例中,“连接”被认为是“边缘”。用在编写的说明书中的通用术语“连接”用于描述连接,边缘,或一个对象到另一个对象的任何连接器,其描述了对象之间的关系。
存在多种不同类型的连接(如编写的说明书中所描述的),该连接涉及与结构图750中说明的不同对象之一相关联的不同类型对象的聚类。连接可以被分类为隔层连接或层内连接。层内连接703或705是结构图750中的连接的一个实施例,其描述了相同类型的不同对象之间的关系。隔层连接704是结构图750中的连接的一个实施例,其描述了不同类型对象之间的关系。如图7中所示,存在多种在某个数据对象u1,u2,u3,…,uj之间扩展的层内连接703。在图7所示的实施例中,也存在多种在某个数据对象p1,p2,p3,…,pi之间扩展的层内连接705。在图7所示的实施例中,也存在多种在节点集合P的某个数据对象u1,u2,u3,…,uj以及在节点集合U的某个数据对象p1,p2,p3,…,pi之间扩展的隔层连接704。使用隔层连接识别的一种类型对象的聚类可以被另一种类型的对象影响。例如,网页对象的聚类可以被用户对象的结构,状态,和特性影响。
由于数据对象之间的关系在任何方向上可以是直接的,连接方向(由图7中用于连接703,704,或705的箭头提供,图8中也是)被解释为双向的。连接被认为是说明性的而不是限定范围。结构图750的图形中的一些连接可以更适当地在一个方向上引导,箭头的方向一般不影响结构的操作。结构图750由节点集合P,节点集合U,和连接集合L组成。结合结构图750,pi和uj表示两种类型的数据对象,其中pi∈P(i=1,…,I)并且uj∈U(j=1,…J)。I和J分别是节点集合P和U的基数。
由参考符号704说明的连接(pi,uj)∈L是不同类型对象之间的隔层连接(其被配置为2-元组)。由705和703引用的连接(pi,pj)∈L和(ui,uj)∈L分别是在相同类型对象之间扩展的层内连接。为简单起见,应用不同的参考符号代表隔层连接集合(704)和层内连接集合(703,705)。
使用统一的聚类,在对象之间更全面地利用连接来增强聚类。不同层中不同类型对象的聚类通过有效的聚类被增强。如果对象被正确地聚类,则聚类结果将更合理。聚类可以提供在分析数据中使用的结构信息。
结构图750说明了多种类型对象的聚类,其中每种类型的对象基本上相同(例如,属于网页组,用户组,或文件组,等等的一种类型)。结构图750中的每组对象的类型一般与其他组对象的类型不同。
所公开的聚类技术在聚类时考虑并接收从不同的(异构的)对象类型的输入。所编写的说明书的一方面基于固有的相互关系,其中被聚类的对象连同连接被提供到其他对象。连接到每个对象的某一连接(以及连接对象的那些连接)可以用不同的值来加权以便反映它们到那个对象的关联性。例如,被聚类的那些相同类型的对象可以被提供得具有比不同类型的对象更大的值。所编写的说明书提供了一种机制,通过该机制不同级别的值可以分配到不同的对象或不同类型的对象。不同级别的值分配到不同的对象(或不同类型的对象)在这里被认为是具有值的聚类。不同对象的不同级别的值经常导致增强的聚类结果和效果。
用于聚类图7中所示的异构对象的结构图750的实施例中,每个表示不同层的不同节点集合P或U包含不同的对象类型。结构图750的多个节点集合(所说明的P和U)为聚类提供基础。两层的有向图750包含被聚类的一组数据对象。每种类型对象的对象类型(其根据聚类算法被聚类)可以被认为是“潜在”类的例子。在某些对象节点之间扩展的连接703,704,或705反映由聚类提供的对象节点之间的固有关系。用于聚类的迭代设计方法使对象的单独聚类能够促进聚类过程,在编写的说明书中描述了多个实施例。
通过使用这里所描述的迭代聚类技术增强异构类型的对象(以及它们的有关连接)。该迭代聚类设计技术依靠从单独类型的对象获得的聚类信息,该对象排列在单独的层中,每层包含相同类型的对象。与连接信息相结合的节点信息用于迭代地设计和传送聚类结果(在层之间提供聚类算法)直到聚类汇合。迭代地将一种类型对象的聚类结果聚类到另一种类型对象的聚类结果可以减少与数据稀少相关的聚类挑战。用这种迭代设计,在聚类而不是另一种类型聚类的个别组上计算一层中聚类的相关性测量。
检查每种类型的不同种节点和连接以便获得可以用于聚类的结构信息。例如,考虑到连接不同数据对象的连接的类型(例如,连接是隔层连接还是层内连接)可以获得结构信息。通过它的节点集合P或U指示每个对象的类型,如图7中所显示的。
图7的通用结构图750可以应用到特定的聚类应用程序。也就是说,结构图750可以表示因特网上与用户组有关的网页组。网页层被分组为节点集合P。用户层的对象被分组为节点集合U。结构图750在两层结构图750的图示中集成多个网页对象和多个用户对象。结构图750使用连接(例如,边缘)关系703,704,705来简化不同类型对象的聚类(如图7的通用结构图所概括的)。在聚类过程中检查所有数据集合的连接结构以便获得不同级别值的节点。根据聚类过程中它们的值加权节点以确保更合理地聚类重要的节点。
在本发明说明书的某些实施例中,连接中聚类之间的连接703,704,和705被保留。保留的连接是那些在聚类对象而不是对象本身之间扩展的连接。例如,一种在网页聚类和用户聚类之间(而不是象原始连接一样在网页对象和用户对象之间)扩展的保留连接。在某些实施例中,为多种将来的应用程序提供保留连接,诸如结构图750中的推荐。例如,具有保留连接的网页/用户聚类的聚类结果可以被示为用户采样行为的略图,其提供用户采样的预测。
通过个别向量fi和gj表示个别节点pi和uj的内容(图7中没有示出)。根据应用程序,每个单独的节点pi和uj可以具有(或可以不具有任何)内容特征。现有的聚类技术从节点uj独立地聚类节点pi。相反,在说明书中描述的聚类结构750中,基于它们的相关值从属地聚类节点pi和节点uj。这里描述的聚类算法使用相似性函数为每种聚类测量对象之间的距离以便产生聚类。(1)中说明的余弦相似性函数可以用于聚类sc(x,y)=cos(fx,fy)=Σi=1kxfx(i)·Σi=1kyfy(j)Σi=1kxfx2(i)·Σj=1kyfy2(j)----(1)]]>sc(x,y)=cos(fx,fy)=fx·fy||fx||||fy||=Σkifx=fy(k)fx(k)fy(k)Σi=1kxfx2(i)·Σj=1kyfy2(j)---(2)]]>fx·fy是两个特征向量的点积。它等于fx和fy中相同部件的加权积的和。表示相关性的sc基于内容特征;fx(i)和fy(j)是特征向量fx和fy的第i和第j个部件。kx是个别特征fx中项目的数量;而ky是特征fy中项目的数量。
在编写的说明书中,节点集合P用作一个例子以说明节点的隔层连接704和层内连接703和705。假设所有的数据包括一系列节点对,对于层内节点对(p(1),p(1),(p(2),p(2),…[其中的p(1)和p(2)与pi相同,而对(p(1),p(1),(p(2),p(2)),都代表相同层中的节点]诸如通过连接703或705连接;而对于隔层对(p(1),u(1)),(p(2),u(2)),…诸如通过连接704连接。因此,节点对(pi,pk)或(pi,uj)之间的连接表示数据序列中相同对的一个或多个事件。连接的加权值与它的事件频率有关。
在编写的说明书中,两个单独向量表示用于每个特定节点的隔层连接704和层内连接703,705的特征。例如,使用向量表示层内连接703,705的特征,该向量的部件与同层中其他的节点相应。比较起来,使用向量表示隔层连接704的特征,该向量的部件与另一层中的节点相应。每个部件可以是表示从(或到)相应节点连接的加权值的数值。例如,节点p1和p2的隔层连接704的特征(如图7中所示)可以被分别表示为[1,0,0,…,0]T和[1,1,1,…,0]T。
因此,相应的相似性函数可以被定义为上面的余弦相似性。为了确定节点p1和p2之间的层内连接703,705特征的相似性所应用的相似性函数slx(x,y)在下面的(3)中描述sc(x,y)=cos(fx,fy)=Σi=1kxfx(i)·Σi=1kyfy(j)Σi=1kxfx2(i)·Σj=1kyfy2(j)----(1)]]>比较起来,用于确定节点p1和u2之间的隔层连接704特征的相似性的相似性函数slx(x,y)在下面的(4)中描述sl2(x,y)=cos(hx,hy)(4)其中分别表示相似性的sl1和sl2基于各自的层内和隔层连接特征;lx和ly是节点x和节点y的层内连接特征向量;而hx和hy是节点x和节点y的隔层连接特征向量。
可以使用连接特征的其他表示以及其他相似性测量,诸如作为集合表示每个节点的连接并且应用Jaccard系数。这里描述的实施例存在多种优点。一个优点是,某一聚类算法的实施例适应加权连接。此外,该聚类算法,诸如k-装置聚类算法,简化了聚类质心的计算。该质心在用于指示聚类对象的概括值或特征的进一步计算中是有用的。
节点x和节点y的所有相似性函数可以被定义为三个相似性的加权和,所述的三个相似性包括(5)中说明的三个加权值α,β,和γ。这里公开了两种用于分配三个加权值的技术试探性的和通过培训。例如,如果没有协调数据,加权值被人工地分配一些想要的值(例如,alpha=0.5,beta=0.25,以及gamma=0.25)。如果存在一些附加的协调数据,比较起来,则可以使用贪心算法,爬山算法,或者局部或全局改善或最优化程序的一些其他类型计算加权值。贪心算法引用一种在每个步骤中寻求增强每个系数的最优化算法,以便最终达到一个增强的(并且在某些实施例中被最优化)答案。
s(x,y)=αsc(x,y)+βsl1(x,y)+γsl2(s,y)(5)其中α+β+γ=1。
使用这些算法,节点的内容,以及节点的相似性被确定。根据应用程序,可以修改三个变量以提供聚类算法的不同信息值。节点的这些内容和相似性于是可以被用作检索的基础。
许多异构聚类问题经常共享不是同样重要节点的相同属性。异构聚类的例子包括网页/用户聚类,用于合作过滤器的项目/用户聚类,等等。作为这些应用程序,在获得更合理的聚类结果时重要的对象扮演重要的作用。在编写的说明书中,整个数据集的连接结构用于获得节点的值。对于节点集合P和U中的每个节点,例如pi和uj,通过连接结构计算加权值ipi和iuj并且用于聚类过程中。
聚类的一方面涉及连接分析算法,在编写的说明书中提供了多个实施例。在连接分析算法的一个实施例中,图8中所示的混合网模块800被构造。使用该混合网模块800,用户和网页被用于节点的两种说明类型。图8中包括网页和用户类型对象的混合网模块的实施例特别涉及包括因特网,内部网,或其他网络的聚类类型。包括网页超链接/交互的连接如连接805所示,用户到网页的超链接/交互如连接804所示,而用户到用户的超链接/交互如连接803所示。图8的混合网络模型800通过指示用户与网页中以及之间的关系来解释这些超链接/关系,所述的关系通过连接803,804,和805说明。
给出了一些包含在用户集合810中的用户808组,被访问的所有网页形成网页集合812,该所有网页来自用户集合810的任何节点。通过将基本网页集合传送到搜索引擎并获得一个基本网页集合来确定网页集合812。由图8中的箭头表示的三种连接具有不同的含义。包含在网页集合812中由箭头805表示的那些连接指示网页之间的超链接。包含在用户集合810中由箭头803表示的那些连接指示用户之间的社会关系。在用户集合810与网页集合812之间扩展的由箭头804表示的那些连接指示用户到网页的访问行为。由箭头804表示的连接指示用户的每个特定网页的评价,因此,网页的权限/集线器得分将更加可信。因此,不同类型的连接803,804,和805表示不同的关系。例如,可以根据连接被访问的频率或每个相关节点对的数量用不同的值加权每个连接,该节点由链接连接。
图9说明了计算机环境600的一个实施例,该计算机环境被配置得使用因特网执行聚类。该聚类一方面可以涉及根据用户聚类网页(包括有关的隔层连接和层内连接)。该计算机环境包括多个网址950,搜索引擎952,服务器/代理部分954,模拟模块956,计算模块958,和方案/参考部分960。计算机环境600与用户962连接诸如与图形用户接口(GUI)。计算模块958包括执行聚类算法的迭代计算模块980(依靠迭代计算的某些实施例)。模拟模块956起收集数据和跟踪数据的作用(例如,与对象相关的)。搜索引擎基于用户的查询返回搜索结果。网址950表示按照原样呈现给用户的数据。服务器/代理将查询等等传送到执行大量聚类的服务器。方案/参考部分960允许用户修改或选择聚类算法。
模拟模块956包括预先定型部分970,网页提取部分972,和用户提取部分974。部分970,972,和974被配置得提供和/或跟踪预先定型970的数据,该数据从网页提取或从用户962提取。图9中说明的计算机环境的实施例被配置得提供连接分析算法,在编写的说明书中描述了一个实施例。
聚类算法的一个实施例可以通过查找两种类型的页面集线器,权限,和用户,来分析网页图形。集线器是连接到多个其他页面的页面,该集线器在特殊的标题上提供有用的相关信息。权限页面被认为是与许多集线器相关的页面。用户访问每一个权限和集线器。从而,每对集线器,权限,和用户表现出相互增强的关系。聚类算法依赖三个在当前连接分析算法的某些实施例中使用的向量网页权限加权向量a,集线器加权向量h,和用户向量u。在编写的说明书中描述了这些向量的某些方面。
与下面的加权计算相关的部分下面的项目没有在图诸如图9中说明,并且代替相关的计算。在一个实施例中,对于给出的用户i,用户加权ui表示他/她的知识水平。对于网页j,各个项aj和hj表示权限加权值和集线器加权值。在一个实施例中,三个向量的每一个分别被初始化为某个值(诸如1)。然后基于因特网的使用,考虑下面(6),(7),和(8)中分别说明的算法,迭代地更新所有三个向量h,a,和ua(p)=Σq→ph(q)+Σt→pu(r)---(6)]]>h(p)=Σp→qa(q)+Σr→pu(r)---(7)]]>u(r)=Σr→pa(p)+Σr→qh(q)---(7)]]>其中,p和q代表具体的网页,而r代表具体的用户。在所公开的网络的某些实施例中存在两种连接不同页面之间的连接(超链接)和用户与页面之间的连接(浏览模式)。使A=|aij|表示三个向量h,a,和u基本集合的邻接矩阵。如果页面i连接到页面j,注意到aij=1或者aij=0。V=[νij]是用户集合到网页集合的访问矩阵。如果用户i访问页面j,认为vij=1或者vij=0。同样,如(9),(10),和(11)中所说明的a=ATh+VTu (9)h=Aa+VTu (10)u=V(a+h)(11)在一个实施例中,(9),(10),和(11)中所说明的用于向量a,h,u的算法通过多个迭代提供有意义的结果。在某些实施例中在迭代之前,随机值分配到每个向量a,h,和u。随着每个迭代,向量a,h,u的值将被改变和定型以便为下一个迭代提供基础。随着每个迭代,每个迭代值a,h,和u用于集中到某些个别值。具有高用户加权值ui的用户和具有高权限加权值aj的网页和/或集线器的加权值hj可以被报告。在优选的实施例中,某些个别的用户或网页对象可以分配有比其他个别的用户或网页对象较高的值。该值越高,所分配到的对象越重要。
编写的说明书中描述了连接分析算法的实施例,该连接分析算法从而可以依赖来自网页和用户的迭代输入而聚类。诸如,从用户输入的加权值应用到网页的聚类算法。使用被加权的用户输入来提高聚类查找结果的精确度,以及可以执行的聚类算法的速度。
而这里描述的连接分析算法应用到聚类算法,用于基于用户聚类网页,可以预见的是,连接分析算法可以应用到任何异构聚类算法。如这里所描述的,为聚类部分地提供加权值。
描述了可以用于聚类对象类型的聚类算法的各种实施例。聚类算法试图根据被聚类的数据对象之间的一些相似性而得到数据对象的自然组。诸如,聚类算法在数据对象上执行聚类作用。聚类算法的某些实施例也得到数据集合组的质心,该质心表示一个点,该点的参数值是聚类中所有点的参数值的平均数。为了确定聚类成员,多数聚类算法计算一个点与聚类质心之间的距离。聚类算法的输出基本上是每个聚类中具有部件数目的聚类质心的统计说明。
编写的说明书中描述了聚类算法的多个实施例。双行线k-装置聚类算法基于相互增强的聚类过程。双行线k-装置聚类算法是迭代聚类算法。在双行线k-装置聚类算法中,通过(6)-(8)或(9)-(11)首先计算对象的值,然后将结果应用到下面的迭代聚类过程中。聚类算法基于定义的相似性函数在每层中聚类对象。虽然可以使用许多聚类算法,诸如k-装置,k-质心,以及聚集分级方法,编写的说明书中描述了k-装置聚类算法的应用程序。
存在多种技术用以应用节点的被计算的分值。一种技术涉及将基本的k-装置聚类算法修改为‘加权的’k-装置算法。在所修改的k-装置算法中,使用特征的加权和来计算所给聚类的质心,该特征具有用于确定分值的加权装置。具有较高值或加权值的节点以聚类质心的形式被更加重要地给出,作为内容和连接特征。另一个实施例涉及通过它们的分值修改节点的连接加权值,然后在相似性函数中使用加权的连接特征。用这种方法,节点的值仅反映聚类过程中的连接特征。
图10和11中示出了聚类算法输入/输出的一个实施例。聚类算法的输入包括两层的结构图750(包括节点fi和gj的内容特征)。聚类算法的输出包括反映聚类的新结构图750。在新结构图的某些实施例中,可以说明每个旧节点的变化,该旧节点被改变到它的新节点的位置。
流程图的一个实施例说明了图10和11中示出的聚类算法1050的一个实施例。聚类算法1050包括1051,在1051中输入原始的结构图(优先于每个聚类迭代)。在1052中,使用(6)-(8)或(9)-(11)确定或计算所考虑的每个节点的值。在1054中,为聚类选择一个任意层。在1055中,用适当的方式(例如,根据内容特征)聚类所选层的节点。在某些实施例中,可以使用想要的过滤算法(未示出)过滤节点以增强聚类。在1056中,每个聚类节点被合并为一个节点。例如,如果过滤器下面存在两个候选节点,可以通过,例如,平均两个候选节点的向量值来合并最接近的两个候选节点。这种合并允许组合个别节点以便减少必须考虑的节点的数量。同样,合并操作可以用于降低副本和接近副本的出现率。
在1057中,基于合并更新相应的连接。在1058中,用于聚类的聚类算法转入第二层(从任意选择的层)。在1160中,根据它们的内容特征和更新连接特征聚类第二层的节点。在1161中,每个聚类的节点被合并为一个节点。
在1162中,恢复其他层的原始连接结构和原始节点。在1164中,合并第二层的每个聚类的节点,并且更新相应的连接。在1166中,在计算机环境中继续该迭代聚类过程。在1168中,输出结构图750的修订本。
在初始的聚类传送中,只使用内容特征。因为在多数情况下,开始时的连接特征太稀少对于聚类没有用。在随后的聚类传送中,内容特征和连接特征被组合以增强聚类的效果。通过组合内容特征和连接特征,用不同的值指定加权值并且可以比较结果,可以提供精确度增强的聚类。
相对图10和11描述的聚类算法可以应用到许多聚类实施例。更特别地,现在描述基于用户访问网页的频率的网页聚类的一个实施例。在用户层的节点到网页层的节点之间扩展的那些类型的连接中,如果存在uj到pi的一个连接,用户uj先访问网页pi。表示为Pr(pi|uj)的连接装置的加权值表示在特定的时间用户uj将要访问网页pi的可能性。它可以通过统计观测数据中的数字而简单地计算,如(12)中所示。
Pr(pi|uj)=C(pi,uj)Σt∈P(uj)C(pt,uj)---(12)]]>其中,P(uj)是用户uj之前访问的页面的集合。C(pi,uj)表示用户uj已经访问网页pi之前的统计。
图12的结构图750的实施例中示出了聚类算法的一个实施例,包括原理层或隐蔽层。图12中,为简单起见,图7的结构图中所示的层内连接703和705被隐藏。然而,可以预见的是,图12中所示的结构图的实施例可以依赖层内连接和隔层连接的任何组合并且仍然保留在当前编写的说明书的原理中。
隐蔽层1270(在图12中所示的结构图750的实施例中)位于网页层和用户层之间。隐蔽层1270提供抽象的附加层(从该层连接扩展到每个节点集合P和U),该附加层允许与原始节点集合P和U的扩展连接相比以增强的真实性模拟。诸如图7(它没有隐蔽层)中所示的结构图750的实施例的一个隔层连接704可以被模拟为结构图750的实施例的一对隐蔽的隔层连接诸如图12中所示的。一个隐蔽的隔层连接在包含节点集合P的网页层与隐蔽层1270之间扩展,而另一个隐蔽的隔层连接在用户层与隐蔽层1270之间扩展。图12中所示的每个隐蔽的隔层连接上的箭头的方向是任意的,作为隐蔽层中的节点,是各个节点集合P和U中特定的网页和用户,该节点集合通过隐蔽的隔层连接连接。
在包含节点集合P的网页层与隐蔽层1270之间扩展的连接(例如,隐蔽的隔层连接)指示隐蔽层1270中网页p1,p2,等等属于特定概念节点P(c1),P(c2),等等的可能性。在用户层与隐蔽层1270之间扩展的连接(例如,隐蔽的隔层连接)指示特定概念节点P(c1),P(c2),等等中具有兴趣的用户节点u1,u2,等等在隐蔽层1270中的可能性。
因此,在网页层与概念层之间扩展的每个连接表示网页pi被分类为概念类ck的可能性,表示为Pr(pi|ck)。由结构图具体化的模型共享由 Bayesian分类使用的假设,其中不同的单词被认为是条件独立的。因此,概念ck可以表示为常规分布,例如,用于预期的向量 以及用于方差的 向量。值Pr(pi|ck)可以从(13)得到。
E(Pr(pi|ck))=Pr(pi|ck)ΣtPr(pt|ck)=ΠlPr(wl,i|ck)ΣtΠlPr(wl,t|ck)=e-Σt12σl,k(wl,i-μl,k)2Σte-Σt12σl,k(wi,k-μi,k)2---(13)]]>其中的wl,i是第1个单词上的网页pj的加权值。
在用户层中的节点与隐蔽层中的节点之间扩展的那些连接(表示为Pr(ck|uj))反映用户的兴趣,该用户在由概念反映的分类中。因此,一个向量(Ij1,Ij2,…,Ijn),Ijk=Pr(ck|uj)相应于每个用户,其中的n是隐藏概念的数量。图12中所示的连接可以被认为是用户的向量模块。(14)中说明了由用户的使用数据抑制的向量。
Pr(pi|uj)=ΣlPr(pi|cl,uj)Pr(cl|uj)≈ΣlPr(pi|cl)Pr(cl|uj)---(14)]]>因此,通过从(13)查找答案可以获得值Pr(ck|uj)。
为了简单起见,Pr(pi|uj)=Ri,j,Pr(pi|ck)=Si,k,并且Pr(ck|uj)=Tk,j。用户j可以被认为是(15)中所单独说明的那样。
R1,jR2,j···R|Page|,j=S1,1S1,2···S1,|Concept|S2,1S2,2···S|Page|,1···S|Page|,|Concept|×T1,jT2,j···T|Concept|,j---(15)]]>其中“|Page|”是网页的总数,而“|Concept|”是隐藏概念的总数。由于|Page|>>|Concept|,可以用(15)或(16)求Tk,j的最小二程解。
Ri,1Ri,2...Ri,|User|=Si,1Si,2...Si,|Concept|×T1,1T1,2...T1,|User|T2,1T2,2......T|Concept|,1T|Concept|,|User|]]>(16)其中“|User|”是用户的总数。
由于|User|>>|Concept|,我们也可以用(17)中所说明的给出Si,k的最小二程解。
μj→=ΣtPt→Pr(pt|ck)=ΣkSt,kPt→----(17)]]>获得用于预期的向量 之后,可以计算用于方差的向量 而图12中说明的结构图750的实施例在节点集合P和节点集合U之间扩展,可以预见的是,节点集合的特定内容本质上是说明性的,并且可以应用到节点集合的任意集合。
根据用户对象聚类的网页对象中聚类算法的一个实施例可以如下被概括,如图13中的1300所示的,有关网页聚类算法的一个实施例1.收集用户的日志组,如1302中所示。
2.计算在特定的时间Pr(pi|uj)用户uj将要访问网页pi的可能性,如通过(12)以及图13中的1304所说明的。
3.在图13的1306中定义用于隐藏概念层(如图12中所示的670)的节点的数量|Concept|,并且在图13的1308中,为用于预期的向量 以及用于方差的初始向量 随机地分配初始参数。
4.计算Pr(pi|ck)的值,它表示网页pI归入概念分类ck的可能性,如(13)和图13中的1310所说明的。
5.计算Pr(ck|uj),它表示用户在用户节点与隐蔽层节点之间连接的兴趣,可以通过(15)获得,如图13中的1312中所示。
6.更新网页归入概念分类的可能性Pr(pi|ck),如通过(13)所决定的,图13的1314中所示的。
7.使用(13)中所说明的Pr(pi|ck)重新设置每个隐蔽概念节点的参数。
8.通过(13)和(15)的多次重复来为节点集合的值(或至少到模块稳定地显示节点集合的向量结果)提供某些基础。
权利要求
1.一种方法,包括通过计算设备,将非结构服务请求转换为一个或多个结构应答对象,每个结构应答对象包括分级结构历史问题诊断数据;以及鉴于产品问题说明识别一个或多个结构应答数据对象的集合,集合中的每个结构应答数据对象包括与产品问题说明有关的检索词和/或短语;以及从该集合为终端用户提供历史和分级结构问题诊断数据,用于产品问题的诊断。
2.权利要求1中所述的方法,其中的问题诊断数据包括产品问题说明,症状,原因,和解答的任意一个或多个。
3.权利要求1中所述的方法,其中的问题诊断数据包括与产品支持条款的连接。
4.权利要求1中所述的方法,其中的转换,识别,和提供由服务器计算设备执行,并且其中的方法进一步包括从客户计算设备接收产品问题说明;并且其中的提供进一步包括查找检索词和/或短语的索引,该索引与产品问题说明中的检索词相匹配以便识别集合中的一个或多个结构应答对象;将该集合传送到客户计算设备,通过故障查找向导显示给终端用户。
5.权利要求1中所述的方法,其中的方法进一步包括根据由集合提供的信息动态地生成知识库条款。
6.权利要求1中所述的方法,其中在转换之后以及识别和提供之前,该方法进一步包括通过以下步骤生成索引从结构应答对象提取特征;分析该特征以便识别检索词和短语;将有关加权值分配到检索词和短语;规格检索词和短语中的术语;并且其中的识别基于索引中的信息。
7.权利要求6中所述的方法,其中在转换之后以及识别和提供之前,该方法进一步包括基于索引分别聚类一个结构应答对象以便组合有关的结构应答对象;并且其中,如果集合中存在多于一个的结构应答对象,提供包括结构应答对象的增强聚类的集合。
8.权利要求7中所述的方法,其中的聚类包括增强以及统一聚类操作。
9.一种方法,包括将查找请求传送到服务器计算设备,该查找请求包括产品问题说明;响应所接收的对查找请求的应答,通过故障查找向导从该应答呈现信息;并且其中的信息包括分级结构历史问题诊断数据,该历史问题诊断数据与和产品问题说明有关的检索词和/或短语有关。
10.权利要求9中所述的方法,其中的历史问题诊断数据包括分级结构产品问题说明,症状,原因,和解答信息的任意一个或多个。
11.权利要求9中所述的方法,其中的信息包括与产品支持条款的连接。
12.权利要求9中所述的方法,其中的信息包括结构应答对象的集合。
13.权利要求12中所述的方法,其中通过服务器分别聚类与另一个相应的一个结构应答对象,该聚类基于增强的聚类操作。
14.权利要求13中所述的方法,其中的聚类进一步基于统一的聚类操作。
15.一种包括计算机可执行指令的计算机可读介质,用于通过计算设备,将非结构服务请求转换为一个或多个结构应答对象,每个结构应答对象包括分级结构历史问题诊断数据;以及鉴于产品问题说明识别一个或多个结构应答数据对象的集合,集合中的每个结构应答数据对象包括与产品问题说明有关的检索词和/或短语;以及从该集合为终端用户提供历史和分级结构问题诊断数据,用于产品问题的诊断。
16.权利要求15中所述的计算机可读介质,其中的问题诊断数据包括产品问题说明,症状,原因,和解答的任意一个或多个。
17.权利要求15中所述的计算机可读介质,其中的问题诊断数据包括与产品支持条款的连接。
18.权利要求15中所述的计算机可读介质,其中的转换,识别,和提供由服务器计算设备执行,并且其中的计算机可执行指令进一步包括指令,用于从客户计算设备接收产品问题说明;并且其中的提供进一步包括查找检索词和/或短语的索引,该索引与产品问题说明中的检索词相匹配以便识别集合中的一个或多个结构应答对象;将该集合传送到客户计算设备,通过故障查找向导显示给终端用户。
19.权利要求15中所述的计算机可读介质,其中的计算机可执行指令进一步包括指令,用于根据由集合提供的信息动态地生成知识库条款。
20.权利要求15中所述的计算机可读介质,其中在转换之后以及识别和提供之前,该计算机可执行指令进一步包括指令,用于通过以下步骤生成索引从结构应答对象提取特征;分析该特征以便识别检索词和短语;将有关加权值分配到检索词和短语;规格检索词和短语中的术语;并且其中的识别基于索引中的信息。
21.权利要求20中所述的计算机可读介质,其中在转换之后以及识别和提供之前,该计算机可执行指令进一步包括指令,用于基于索引分别聚类一个结构应答对象以便组合有关的结构应答对象;并且其中,如果集合中存在多于一个的结构应答对象,提供包括结构应答对象的增强聚类的集合。
22.权利要求21中所述的计算机可读介质,其中的聚类包括增强以及统一聚类操作。
23.一种包括计算机可执行指令的计算机可读介质,用于将查找请求传送到服务器计算设备,该查找请求包括产品问题说明;响应所接收的对查找请求的应答,通过故障查找向导从该应答呈现信息,该信息包括分级结构历史问题诊断数据,该历史问题诊断数据与和产品问题说明有关的检索词和/或短语有关。
24.权利要求23中所述的计算机可读介质,其中的历史问题诊断数据包括分级结构产品问题说明,症状,原因,和解答信息的任意一个或多个。
25.权利要求23中所述的计算机可读介质,其中的信息包括与产品支持条款的连接。
26.权利要求23中所述的计算机可读介质,其中的信息包括结构应答对象的集合。
27.权利要求26中所述的计算机可读介质,其中通过服务器分别聚类与另一个相应的一个结构应答对象,该聚类基于增强的聚类操作。
28.权利要求27中所述的计算机可读介质,其中的聚类进一步基于统一的聚类操作。
29.一种包括在产品问题分析和诊断中使用的结构应答请求数据结构的计算机可读介质,该结构应答请求数据结构包括产品问题说明数据区;产品问题原因数据区;产品问题解答数据区;并且其中的产品问题说明数据区是产品问题原因数据区的父节点,而产品问题原因数据区是产品问题解答数据区的父节点。
30.权利要求29中所述的计算机可读介质,其中的结构应答请求数据结构进一步包括产品问题症状数据区,作为产品问题症状数据区的父节点的产品问题说明区。
31.一种计算设备,包括处理器;以及耦合到该处理器的存储器,该存储器包括由处理器执行的计算机程序指令,用于通过计算设备,将非结构服务请求转换为一个或多个结构应答对象,每个结构应答对象包括分级结构历史问题诊断数据;以及鉴于产品问题说明识别一个或多个结构应答数据对象的集合,集合中的每个结构应答数据对象包括与产品问题说明有关的检索词和/或短语;以及从该集合为终端用户提供历史和分级结构问题诊断数据,用于产品问题的诊断。
32.权利要求31中所述的计算设备,其中的问题诊断数据包括产品问题说明,症状,原因,和解答的任意一个或多个。
33.权利要求31中所述的计算设备,其中的问题诊断数据包括与产品支持条款的连接。
34.权利要求31中所述的计算设备,其中的转换,识别,和提供由服务器计算设备执行,并且其中的计算机可执行指令进一步包括指令,用于从客户计算设备接收产品问题说明;并且其中的提供进一步包括查找检索词和/或短语的索引,该索引与产品问题说明中的检索词相匹配以便识别集合中的一个或多个结构应答对象;将该集合传送到客户计算设备,通过故障查找向导显示给终端用户。
35.权利要求31中所述的计算设备,其中的计算机可执行指令进一步包括指令,用于根据由集合提供的信息动态地生成知识库条款。
36.权利要求31中所述的计算设备,其中在转换之后以及识别和提供之前,该计算机可执行指令进一步包括指令,用于通过以下步骤生成索引从结构应答对象提取特征;分析该特征以便识别检索词和短语;将有关加权值分配到检索词和短语;规格检索词和短语中的术语;并且其中的识别基于索引中的信息。
37.权利要求36中所述的计算设备,其中在转换之后以及识别和提供之前,该计算机可执行指令进一步包括指令,用于基于索引分别聚类一个结构应答对象以便组合有关的结构应答对象;并且其中,如果集合中存在多于一个的结构应答对象,提供包括结构应答对象的增强聚类的集合。
38.权利要求37中所述的计算设备,其中的聚类包括增强以及统一聚类操作。
39.一种计算设备,包括处理器;以及耦合到该处理器的存储器,该存储器包括由处理器执行的计算机程序指令,用于将查找请求传送到服务器计算设备,该查找请求包括产品问题说明;响应所接收的对查找请求的应答,通过故障查找向导从该应答呈现信息,该信息包括分级结构历史问题诊断数据,该历史问题诊断数据与和产品问题说明有关的检索词和/或短语有关。
40.权利要求39中所述的计算设备,其中的历史问题诊断数据包括分级结构产品问题说明,症状,原因,和解答信息的任意一个或多个。
41.权利要求39中所述的计算设备,其中的信息包括与产品支持条款的连接。
42.权利要求39中所述的计算设备,其中的信息包括结构应答对象的集合。
43.权利要求42中所述的计算设备,其中通过服务器分别聚类与另一个相应的一个结构应答对象,该聚类基于增强的聚类操作。
44.权利要求43中所述的计算设备,其中的聚类进一步基于统一的聚类操作。
45.一种计算设备,包括装置,用于将非结构服务请求转换为一个或多个结构应答对象,每个结构应答对象包括分级结构历史问题诊断数据;并且鉴于产品问题说明装置,用于识别一个或多个结构应答数据对象的集合,该集合中的每个结构应答数据对象包括与产品问题说明有关的检索词和/或短语;以及装置,用于从该集合为终端用户提供历史和分级结构问题诊断数据,用于产品问题的诊断。
46.权利要求45中所述的计算设备,其中的问题诊断数据包括产品问题说明,症状,原因,和解答的任意一个或多个。
47.权利要求45中所述的计算设备,其中的问题诊断数据包括与产品支持条款的连接。
48.权利要求45中所述的计算设备,进一步包括装置,用于从客户计算设备接收产品问题说明;并且其中用于提供的装置进一步包括装置,用于查找检索词和/或短语的索引,该索引与产品问题说明中的检索词相匹配以便识别集合中的一个或多个结构应答对象;以及装置,用于将该集合传送到客户计算设备,通过故障查找向导显示给终端用户。
49.权利要求45中所述的计算设备,进一步包括装置,用于根据由集合提供的信息动态地生成知识库条款。
50.一种计算设备,包括装置,用于将查找请求传送到服务器计算设备,该查找请求包括产品问题说明;装置,用于响应所接收的查找请求的应答,从该应答呈现信息,该信息包括分级结构历史问题诊断数据,该历史问题诊断数据与和产品问题说明有关的检索词和/或短语有关。
51.权利要求50中所述的计算设备,其中的历史问题诊断数据包括分级结构产品问题说明,症状,原因,和解答信息的任意一个或多个。
52.权利要求50中所述的计算设备,其中的信息包括与产品支持条款的连接。
53.权利要求50中所述的计算设备,其中的信息包括结构应答对象的集合。
54.权利要求53中所述的计算设备,其中其中通过服务器分别聚类与另一个相应的一个结构应答对象。
全文摘要
描述了一种用于开采产品支持服务请求的系统和方法。一方面,非结构服务请求被转换为一个或多个结构应答对象。每个结构应答对象包括分级结构历史问题诊断数据。鉴于产品问题说明,识别一个或多个结构应答数据对象的集合。该集合中的每个结构应答数据对象包括与产品问题说明有关的检索词和/或短语。来自该集合的历史和分级结构问题诊断数据被提供给终端用户,用于产品问题的诊断。
文档编号G06F19/00GK1694099SQ200510071688
公开日2005年11月9日 申请日期2005年4月13日 优先权日2004年4月15日
发明者H-J·曾, G·R·希施尔, 陈正, J-R·文, H·李, K·A·萨缪尔森, 马维英, B·章 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1