通过分类而自动匹配主体到客户的内容的机制的制作方法

文档序号:6456523阅读:159来源:国知局
专利名称:通过分类而自动匹配主体到客户的内容的机制的制作方法
技术领域
本发明涉及因特网搜索,更具体地涉及搜索结果的内容匹配。
背景技术
为了快速匹配因特网上的相似内容,对于在万维网(Web)进行 广告和交叉参考,广告商和发行商已试图通过手工或通过自动关键字 交叉参考建立交叉参考。手工建立交叉参考不能跟上万维网的快速扩 展已使得自动关键字交叉参考成为众人瞩目的。将来访者业务从搜索 引擎推动到万维网站点的需要,连同流行交叉参考关键字的存在,已 鼓励万维网站点所有者包括这些关键字,而不论这些单词的含义是否 实际出现在他们的站点内。这些虛假的单词使得关键字交叉参考对于 包含流行关键字的任何站点产生大部分为假的肯定结果。
在克服上述缺点的一种方法中,自动交叉参考的建立者试图通过 分析万维网超链接推断万维网站点的真实含义。超链接交叉参考的流 行性鼓励万维网站点所有者包括到他们的站点和到其他流行站点的 链接,而不论这些额外超链接是否连接到对于广告或交叉参考目的有 任何关系或价值的站点。这些虛假的链接使得超链接交叉参考对于被 以这种方式超链接的任何流行站点产生大部分为假的肯定结果。
为了克服这些缺点,自动交叉参考的建立者在致力于推断万维网 站点的真实含义时采用了语义技术。这些语义技术涉及相对于包含在 一个分类中的语义项剖析站点内容,然后匹配具有相似的语义项的站点。然而,这些技术的主要局限是该分类的覆盖范围,该分类是手工 建立的,通常比万维网上的单词和/或短语的词汇小若干数量级。
这种方法的其他局限来自包含在任意一个文档中的语义项的巨 大数目。这些项中的一些项比其他项对于文档的基本含义更为突出。 然而,这些项在分类中的位置不能确定实际文档中的哪些项最好地代
表文档的含义。因此,诸如Lu (美国专利No. 7,107,264 B2)的基于
简单的分类匹配万维网站点和/或文档的常规技术不能实现万维网站 点和/或文档的 一致准确的匹配。
为了实现万维网站点和/或文档的更一致准确的匹配,自动交叉 参考的建立者尝试的一种方法是采用统计技术推断万维网站点的真 实含义。例如,试图追踪通过超链接从一个站点到另一个站点的点击 序列,以便确定哪些站点倾向于被从其他站点点击。然而,这些统计 技术具有两个主要缺点(1)不能分析很少被访问但是有意义的站 点上的点击的小样本组;和(2)不能分析被频繁访问的站点的罕见 含义。当使用这种方法在站点间进行匹配时,这些缺点引起了大量假
的肯定和假的否定。
因此,为了实现防止大量假的肯定和/或假的否定匹配的目标, 可能需要一种使用比常规技术产生更准确的结果的技术来准确地匹 配文档和/或其他内容单元的方法。

发明内容
公开了 一种利用分类而自动匹配主体到客户的内容的机制的各 种实施例。宽泛地讲,构想了一种使用特定的分类技术准确匹配文档 和/或其他内容单元诸如万维网站点或段落的机制。更具体地,通过使 用准确分类技术,尤其是下面描述的那些,可将内容单元的突出含义 更准确地映射到其他内容单元,从而有效地匹配内容单元以便创建与 被匹配的内容单元共享相似含义的其他内容单元的视图。除了更准确 匹配之外,分类匹配还可以提供结果匹配的分类。另外,使用下面描 述的方法,围绕着由实际内容引入的语义进行分类,从而即使当新的语义项是内容单元中最突出的项时,也能使分类准确。
通过使得能够进行准确的分类匹配,该自动匹配机制还使得广告
键字上投标,过度使用的关键字的价值由于各竟争广告商过度对流行 关键字投标而被哄抬价格,并且过度使用的关键字提供不良的产品区 分。
该自动匹配机制还可以使得能够进行因特网广告拷贝编辑以便 包括更突出的特定类别短语,并且提供立刻评估改进的拷贝是否通过 到其他万维网站点的散布产生改进的广告覆盖的机会。通过使得广告 商能够通过创造新的特定类别短语而不是哄抬关键字的价格来改进 广告覆盖,该自动匹配机制可以减小关键字广告膨胀,并且将万维网 广告的使用扩宽到更广大的广告商群体。通过在从公司广告拷贝中自 动剖析出的短语上投标而不需搜索引擎优化专家的花费,该自动匹配 机制可以有效地使小公司能够为特定领域产品和服务^t广告,否则需 要雇用搜索引擎优化专家调整广告拷贝的关键字。另外,本发明的方 法和系统可以有效地消除需要雇用搜索引擎优化专家以购买关键字 集合的花费。
在一个实施例中,一种自动匹配机制包括一种用于将内容单元映 射到其他内容单元的方法。该方法包括主体显示发送对客户内容的请 求。该方法还可以包括主体用户服务器例如在类别内容索引中查询客 户内容,并且提供相应于该请求的索引且分类的内容。该方法还包括 响应于确定该索引且分类的内容既不是新内容也不是更新的内容,提 供所述索引且分类的内容以便显示。该方法还包括在主体显示上显示 该分类的内容。
在一个特定实现中,该方法包括响应于确定该索引且分类的内容 是新内容和更新的内容中的任意一种,将该索引且分类的内容添加到 语义内容索引中。另外,该方法可以包括从内容语义索引中收集类别 相关的语义内容信息,并且对收集的类别相关的语义内容信息重新分 类。在另一个特定实现中,该方法可以包括提供搜索项和包括该搜索 项的查询请求,使用搜索项搜索数据存储,并且选择相应于查询请求 的文档集合。该文档集合可以包括具有与搜索项相关的语义短语的文 档。
在另 一个实施例中,该自动匹配机制包括产生匹配客户内容以便 在主体显示上使用的方法。该方法包括发送对预览匹配的内容的客户 请求,并且在类别内容索引中查询客户匹配内容。该方法还可以包括 提供相应于该请求的所请求的索引且分类的客户内容,并且将该索引 且分类的客户内容添加到语义内容索引。该方法还可以包括从语义内 容索引中收集类别相关的语义内容信息,并且对收集的类别相关的语 义内容信息重新分类。另外,该方法可以包括将重新分类的类别相关 的语义内容信息添加到类别内容索引,并且报告匹配客户请求的分类 的匹配内容。


图1是示出了用于将内容单元自动匹配到其他内容单元的机制
的一个实施例的图2是示出了图1所示的主体显示内容单元的示例实施例的图3是示出了图1所示的客户显示的示例实施例的图4是示出了用于语义索引新的或更新的主体内容,并且将语义
索引的新的或更新的主体内容与被分类显示的语义相关内容合并的
方法的一个实施例的流程图5是示出了客户内容的所有者或创建者将客户内容的部分内
容散布到主体内容单元,并且为了支付该散布竟争地投标的方法的一
个实施例的流程图6是可以实施自动匹配机制的计算机系统的一个实施例的框
图7是可以实施自动匹配机制的通信系统的一个实施例的框图; 图8是示出了用于自动分类数据的方法的一个实施例的流程图;图9是示出了用于将文档剖析为语义项和语义组的方法的一个 实施例的流程图10是示出了用于对语义项分级以便寻找最优语义种子集合的 方法的 一 个实施例的流程图11是示出了用于围绕核心最优语义种子集合积累语义项的方 法的一个实施例的流程图12是示出了用于将语句剖析为主语、动词和宾语(SVO)短 语的方法的一个实施例的流程图13是示出了用于消解主语、动词和宾语短语中嵌入的指代的 方法的一个实施例的流程图14是示出了用于分析短语标记列表中嵌入的语义项,输出语 义项的索引和语义项被共同定位的位置的索引的方法的一个实施例 的流程图15是示出了使用万维网页的自动分类将搜索结果概括为四类 的万维网入口万维网搜索用户接口的实施例的图16是示出了图15的万维网入口万维网搜索用户接口的实施例 的搜索结果的图17是图15的万维网入口万维网搜索用户接口的实施例的附加 搜索结果的图18是示出了用于使用图8的自动分类器的实施例自动扩增语 义网络字典词汇的方法的一个实施例的流程图;以及
图19是示出了使用图ll所示的自动扩增器恰好在搜索引擎入口 需要新词汇之前增加新词汇的方法的一个实施例的流程图。
虽然本发明能够有各种修改和可替换形式,在附图中以示例的方 式给出了其特定的实施例,并且将在此进行详细描述。然而,应当理 解,附图和其详细描述不旨在将本发明局限于公开的特定形式,而是 相反,本发明要覆盖落在由所附权利要求书确定的本发明的精神和范 围内的所有修改、等同物和替换物。注意,整个本申请中词"可以"被 在允许的意义上(即,具有可能性,能够)而不是在强制的意义上(即,必须)使用。
具体实施例方式
现在转到图1,示出了用于将内容单元自动匹配到其他内容单元 的机制的实施例的图。由于万维网上和/或其他大型信息存储系统上的 内容的巨大数量, 一种高效访问这种内容的方法是在信息处理体系结 构的核心处使用索引。然而,可以使用其他方法诸如内容可编址存储 器访问这种内容。
在示出的实施例中,自动匹配机制100使用至少两个大型的索
引。这两个大型索引中的一个可以是例如语义内容到站点(scs)索
引105,其描述语义项和每个项的实际使用,诸如内容单元(例如, 文档或万维网站点)中的内容中的实际语句。当执行匹配内容单元时, SCS索引105可被中央语义含义仓库用于分类。两个大型索引中的第 二个可以是例如主体到客户分类内容(HTGC)索引107,其包括被 配置为快速检索匹配内容单元的在先分类的结果的中央索引。在各种 实施例中,这些索引可以提供出众的响应时间和可伸缩性。这些索引 可以建立在例如基数树或TRIE树结构之上,其可以提供比散列表更 好的总响应时间。尤其是对于大于例如100, OOO个元素的索引集合。 在一个实施例中,为了实现可伸缩性,索引(例如,105和107)可 被分散在多个服务器上,每个服务器可以支持整个索引的截断的子树 部分,并且每个子树可以指向其他分布式服务器上的其他子树。可以 通过从服务器向叶向服务器传递直到达到终端树叶的分组来计算索 引遍历。
另外,在一个实施例中使用的两个中央索引(例如,105和107) 还消除了额外的不希望的索引遍历。例如,如美国专利No. 7,107,264B2 ( "Lu")中所述,Lu教导使用"提取器"将主体内容提取 到索引的主体内容数据库和用于查询索引的客户内容数据库的查询 的后续组成中。除了连接两个遍历的中间查询的组成之外,Lu需要 主体内容索引和客户内容索引两者的遍历。由于涉及嵌套的混合布尔条件的复杂查询通常被数据库系统不正确地优化,Lu的教导不仅因为遍历两个索引浪费处理器能力,而且还以不必要的查询组成、投递和优化浪费处理器能力。这与图1中的SCS索引105的单个遍历相反。另外,由于无错误地将复杂文档提取为简单关键字查询可能是不现实的,Lu的查询使用的教导还可能在匹配中产生假的肯定和假的否定结果。由于嵌套的布尔查询是对含义的不良语义表示,无错误地将复杂文档提取为复杂的嵌套的布尔查询可能是不现实的。另外,没有数据库设计师手工设计和规格化数据库表的干预,数据库不能准确地捕捉语义含义。因此,基于数据库设计的查询不能准确地检索作为万维
含义。、 , ^ - ' y , 、
因此,在一个实施例中,通过直接使用SCS索引105中的一组语义项作为客户到主体候选分类优化匹配器(GHCCOM )106的输入,自动匹配机制IOO可以完全避免查询、数据库和相关的性能以及语义限制。 一组语义项,与每个项在内容中的实际使用一起,可以为常规的统计分类器或更准确的分类器诸如下面更详细描述的分类器的分类提供极佳的基础。由于Lii教导使用简单的分类,而不是能够自动应付新分类语义项的优化分类器,Lii的"评估器"的匹配内容的覆盖范围通常不足以匹配一般的万维网内容。Lu在非常有限的环境中执行合理的匹配(例如,当Lu的分类覆盖足以小到词典编幕者手工映射的有限主题中的所有必要语义项时)。注意,下面进一步描述图1的其余框。
现在参考图2,示出了主体显示内容单元,诸如包括其他类别匹配内容单元中的内容的万维网站点或文档页面的一个实施例。在主体显示200的左上手侧是下面具有简要情节的标题"Proposed SubwayTunnel Revisited",其右边是相关的按关系类型分类的赞助广告。在主体显示200的下半部中,示出了按关系类型分类的相关内容单元。通过以到相关内容的链接给类别提供标题,主体显示200简明地解释为何客户内容i者如(<www.arlowburgers> )与图2的主体内容相关。因此,分类使得主体内容的阅读者能够跳过当前不太感兴趣的客户内容。另外,分类还压缩了解释为何用户应当点击客户内容所需的空间,
因此节省了主体显示上有价值的显示空间。因此,为了实现分类的上述益处,使用分类器诸如下面更加详细描述的分类器以便执行图1中
的GHCCOM 106的分类器功能可能是有用的。
转到图3,给出了一个示出了客户显示的示例实施例的图。客户显示300可以允许其他内容的所有者或创建者在主体显示的内容单元内自动分类显示这种其他内容的部分。通过在客户显示300顶部处的URL输入框305中输入统 一 资源定位符(URL )诸如www.bore-maker.com ,并且按压预览匹配按钮340,客户内容的所有者或创建者可以发起对客户用户的请求。总地参考图1到图3,图1的客户用户接口服务器108可以访问所提供的URL处的客户站点内容109。通过勾选"Spider Whole Site"选择框310,客户用户内容还将访问相同站点中的链接的内容URL的客户用户内容。在语义分类索引器103剖析并且在例如SCS索引105中存储了语义和它们的相关内容诸如语句之后,相同或同义条目之下的所有更新的和相关的条目被传递到GHCCOM 106,以l更如客户显示300的可滚动区域315中所示,产生关系类别和匹配主体内容单元。滚动条320被示出为右侧上的细长矩形。由于可滚动区域315的内容尚未超出其显示长度,滚动条320被显示为空白,代表休眠状态。可滚动区域315提供了由自动匹配机制100自动产生的匹配关系的快照。可滚动区域315还提供了反馈,以便为客户内容的所有者或创建者提供快速修订内容的机会。例如,创建者可以调节术语和费解的短语,并且随后再次按压预览匹配按钮340,从而可以实现更好的覆盖和分级,而不需对类别项进行更高的投标。这个特征使得广告商能够通过更好地描述其提供物竟争,而不是仅仅通过支付更多的用于广告的金钱竟争。从而,前者可以减少将销售者映射到购买者的总社会成本,并且后者仅仅起到使得广告价格膨胀,同时危及不能支付高的广告定价的直接特定环境销售者的经济价值的作用。
13在一个实施例中,对于实现的分级的快速纵览,客户显示300提供了各种分级类别的匹配数的柱状图350。对于涉及多于12个匹配的计算,检查这种柱状图可能比在可滚动区域中滚动匹配细节列表更容易。
如果客户内容的所有者或创建者满意匹配结果,所有者或创建者可以在投标框325中输入投标数量,并且按压客户显示300底部的提交你的投标按钮330。在大多数情况下,在按压了提交按钮之后,所有者或创建者将对在投标框325中输入的投标价格在金融上负有义务。构想该义务将是当主体内容的观看者在客户内容链接上点击时触发的每个点击的几个美圆的货币单位。然而,在其他方法中,该义务还可被货币化为每个客户内容链接的显示的货币单位,基于在客户内容链接的点入上进行的商业交易的百分比的货币单位。在某些实施例中,货币单位甚至可以是通过非金融单位推荐(例如,代币值诸如投票)估价的非商业方法,该定价在一个系统的参与者中流通,以便为了共同目标促进工作,诸如国际语义往致力于雇用志愿人员以帮助进行万维网的交叉索引。
在图4中,示出了一个流程图,该流程图示出了用于语义索引新的或更新的主体内容,并且将语义索引的新的或更新的主体内容与分类显示的语义相关的内容合并的方法的一个实施例。总地参考图l到图4,在图4的框405中,主体显示200向主体用户接口服务器101发送对客户内容的请求。主体用户接口服务器IOI提取显示内容(框410)。主体用户接口服务器101通过查询主体到客户类别内容索引107提取该显示内容(框415)。然而,可以跳过被标记为临时的任意信息。主体用户接口服务器IOI从主体到客户类别内容索引107接收索引的最佳分类的候选内容。主体用户接口服务器IOI确定提取的显示内容是否是新的或更新的。如果主体显示内容不是新的或改变后的(框420),主体用户接口服务器101返回针对主体的索引的最佳分类候选内容(框425)。然后主体显示200显示针对主体的最佳分类候选内容(框430)。与美国专利No. 7,107,264B2中描述的Lu的教导不同,在图1到图4的实施例中,除非主体或相关客户内容的含义改变了,不重新计算以前索引的相关内容。这极大地减少了图1的主体用户接口服务器101的处理器需求。另外,与上述Lu的教导相反,图1到图4的实施例不创建查询,它们也不涉及用于索引内容的数据库,从而避免了在无边界的语义域诸如万维网或其他大规模信息内容仓库上将自然语义转换为数据库语义的缺陷。
然而,如果主体显示内容是新的或改变后的(框420),语义分类索引器103通过转变主体显示内容更新语义内容到站点索引105(框435 ) 。 GHCCOM 106接收更新的语义内容到站点索引结果(框440 )。然后GHCCOM 106从语义内容到站点索引中收集类别相关的语义内容站点信息,并且对该结果重新分类。GHCCOM 106更新主体到客户类别内容索引107 (框445)。
另外,与Lu的教导相反,图1到图4的实施例避免了对于主体内容域来说是有限的分类。对于主体内容域来说是有限的分类的诱惑是它们通过在分类中存储关键字同义词提供对关键字匹配中的局限的快速弥补。然而,当关键字是含糊的时,这种方法导致许多假的肯定。流行的关键字诸如货款和抵押相对于任何文档多半是含糊的,除非使用下面进一步描述的分类技术消除它们的真实语义含义的歧义。因此,当与图1到图4的实施例比较时,Lu的采用对于主体内容域来说是有限的分类的方法可能是不成熟并且易于出错的,这是由于在准确去除歧义和可以执行后续的内容匹配之前,必须考虑主体和客户内容的完整的域。例如,作为金融手段的"抵押,,的含义不同于作为比喻的"抵押某人的未来"。主体内容可能暗示着两种含义,在该情况下匹配客户内容应当暗示两种含义。客户内容可以包含"抵押某人的未来,,的同义词诸如"目光短浅",这可以通过分析客户内容被计算,而不能通过分析主体内容被计算。因此,语义去歧义优化必须被延迟,直到客户内容和主体内容的完整语义描述被收集并且被优化,以便计算最佳描述类别描述符作为语义匹配的基础。如Lu公开的,通过采用特定化的分类并且仅描述主体内容,不能正确解决多含义的语义内容匹配。
相反,使用如下所述的分类技术,图1的GHCCOM106可以提供使用与主体内容和一般字典内容语义一致的示例的实际客户内容去除含义的歧义的能力,主体内容和一般字典内容具有比主体内容分类独自大得多的语义覆盖范围和完整性。这可以导致语义内容匹配的正确得多的基础,尤其是当需要对多个含义去除歧义时。
在图5中,示出了一个流程图,示出了由客户内容的所有者或创建者将客户内容的部分散布到主体内容单元,以及竟争地投标以便支付该散布的方法的一个实施例。总地参考图l到图5,通过使用预览
投标条目,可以为图4和图5两者中的处理使用单个统一的索引。单个统一的索引减少了由索引占据的空间数量。
开始于图5的框505,客户显示300发送对预览匹配的请求。例如,如上所述,用户可以在客户显示300上输入URL,并且按压预览匹配按钮340。客户用户接口服务器108在客户投标索引113中存储客户投标信息(框510)。在一个实施例中,客户用户接口服务器108可以上传将被客户投标索引器112索引然后存储在客户投标索引113中的客户投标信息111。客户用户接口服务器108在语义内容到站点索引105中存储客户内容(框515)。在一个实施例中,客户用户接口服务器108可以上传将被语义分类索引器110索引然后被存储在语义内容到站点索引105中的客户站点内容109。 GHCCOM 106接收更新的语义内容到站点索引结果(框520) 。 GHCCOM106从语义内容到站点索引105收集类别相关的语义内容站点信息,并且对接收的结果重新分类。GHCCOM 106还以被标记为由预览功能使用的临时信息更新主体到客户类别内容索引(框525)。如上所述,在一个实施例中,自动匹配机制IOO可以使用下面描述的GHCCOM 106中的功能以便产生一组最优类别。这些类别中的每一个例如可以包含一组内容源诸如万维网站点,以及一组示例内容诸如语句。仅从包含主体内容源或示例主体内容的类别中选择内容,GHCCOM 106可以快速地为每个主体产生分类的客户候选内容。
客户用户接口服务器108报告穿过所有主体显示站点的分类的匹配(框530)。如果用户按压提交投标按钮330 (框535),从主体到客户类别内容索引中被标记为由预览匹配功能使用的信息中去除临时标签(框545)。
然而,如果用户不按压提交投标按钮330 (框535),主体到客户类别内容索引中的被标记为由预览匹配功能使用的信息可被从主体到客户类别内容索引107中消除或以其它方式丟弃(框540)。
注意在其他实施例中,可以使用其他方法诸如统计分组或基于规则的分类遍历为每个主体产生分类的客户候选内容。然而,如下所述,这些其他方法可能不是最优的。例如,它们可能受有限的分类覆盖范围、统计停用字列表中的不希望的或缺失的项、或来自文档级而不是名词短语,动词短语和宾语短语级剖析的不明确性的固有缺点的不利影响。
在一个实施例中,为了对每个主体的分类的客户候选内容排序,可以4吏用类似于下述的方法。例如如下所述,就〗象通过按语义名词短语、动词短语和宾语短语级属性给种子项分级来选择最佳候选项,类
选内容元素是最佳的。
可替换地,可以使用其他方法诸如统计分组或基于规则的分类遍
佳;。然而,这些方法受有限的分类覆盖范围、统计停用;列表中的不希望的或缺失的项、或来自文档或语句级而不是名词短语,动词短语和宾语短语级剖析的未消解的指代的不明确性的固有缺点的不利影响。
具体地,Lu描述的采用部分基于主体分类的搜索参数的方法受难以定义与分类器诸如下面描述的分类器可以容易地检测的新术语相关的精确搜索参数所固有的不确定性的不利影响。由于必须在可以
17计算准确语义匹配之前在语义名词短语、动词短语和宾语短语级上分析主体或客户内容自身,搜索参数一般不能准确定义这种内容的含义。例如,就像大多数人喜欢通过实际阅读书并且比较它们中的段落
而不是比较这些书背后的索引来匹配书,自动匹配机制ioo公开了作为内容匹配的基础,如何通过深入剖析实际内容和比较在语句语法级别上收集的实际内容,近似人们对语义的理解。
相反,Lii公开了使用"提取器"的方法,"提取器"产生仅仅掠过内容表面的搜索参数和搜索查询,从而留下了未解决的严重的含义不确定性,并且随后产生表面级别的内容匹配所固有的频繁的假的肯定和假的否定匹配。另外,Lu所教导的主体分类的有限的覆盖范围不能覆盖大型数据仓库诸如万维网的完整语义含义。
注意不是简单地提交用于分析和匹配主体内容的URL,在可替换的实施例中,当支持语言去歧义的用户接口支持时,客户用户可以在客户用户服务器的客户显示中进行关于匹配类别的聊天。关于匹配类别的聊天使得客户用户能够指定对于匹配和投标偏好哪些类别或子类别,因此提供了用于更准确定位目标广告而不用编辑广告拷贝或改变投标价格的可替换方案。
参考图6,示出了示例的计算机系统600的实施例。计算机系统600包括一个或多个处理器,诸如处理器604。处理器604连接到通信基础设施606 (例如,通信总线,交互开关或其他网络)。计算机系统600还包括显示接口 602,其可以被配置为转发来自通信基础设施606 (或来未示出的自帧緩冲区)的图形、文本和其他数据以便在显示单元630上显示。计算机系统600还可以包括主存储器608,诸如例如随机访问存储器(RAM),并且还包括辅助存储器610。辅助存储器610可以包括例如硬盘驱动器612和/或代表软盘驱动器、磁带驱动器、光盘驱动器等的可移动存储驱动器614。可移动存储驱动器614从可移动存储单元618中读或向可移动存储单元618中写。在各种实施例中,可移动存储单元618可以表示软盘、磁带、光盘等。如应当理解的,可移动存储单元618包括可以存储计算机可执行软件和
18/或数据的计算机可使用存储介质。
在可替换的实施例中,辅助存储器610可以包括类似设备以便允许将计算机程序或其他指令装入计算机系统600。这种设备可以包括例如可移动存储单元622和接口 620。这种设备的例子可以包括程序盒式存储器和盒式存储器接口 (诸如可见于视频游戏设备中的),可移动存储器芯片(诸如电可擦除可编程只读存储器(EEPROM)或可编程只读存储器(PROM))和相关插座,以及允许将软件和数据从可移动存储单元622传输到计算机系统600的其他可移动存储单元622和接口 620。
计算机系统600还可以包括通信接口 624,其允许在计算机系统600和外部设备之间传输软件和数据。通信接口 624的例子可以包括调制解调器,网络接口 (诸如以太网卡),通信端口,个人计算机存储器卡国际协会(PCMCIA)插槽和卡等。通过通信接口 624传输的软件和数据是信号628的形式,信号628可以是能够被通信接口 624接收的电子,电磁,光或其他信号。这些信号628被通过通信路径(例如,信道)626提供给通信接口 624。路径626承载信号628,并且被使用电线、电缆、光纤、电话线、蜂窝链路、射频(RF)链路和/或其他通信信道实现。在本文档中,使用术语"计算机程序介质"和"计算机可使用介质"一般地指介质,诸如可移动存储驱动器680、安装在硬盘驱动器670中的硬盘、以及信号628。这些计算机程序产品给计算机系统600提供软件。
计算机程序(也称为计算机控制逻辑)存储在主存储器608和/或辅助存储器610中。还可以通过通信接口 624接收计算机程序。当被执行时这种计算机程序使得计算机系统600能够此处描述的本发明的特征。具体地,当被执行时计算机程序使得处理器610执行各个实施例中描述的特征。因此,这种计算机程序代表计算机系统600的控制器。
在使用软件实现本发明的一个实施例中,软件可被存储在计算机程序产品中,并且使用可移动存储驱动器614、硬驱动器612或通信接口 620装入计算机系统600。当被处理器604执行时,控制逻辑(软件)使得处理器604执行此处描述的本发明的功能。在另一个实施例中,主要使用例如硬件组件诸如专用集成电路(ASIC )以硬件实现本发明。实现硬件状态机以便执行此处描述的功能对于相关邻域的技术人员是显而易见的。在另一个实施例中,使用硬件和软件两者的组合实现本发明。
转到图7,示出了通信系统的一个实施例的框图。通信系统700包括一个或多个访问器740, 745(此处也被互换地称为一个或多个"用户,,)和一个或多个端子诸如725和735。在一个实施例中,例如通过端子725和735以访问器740和745输入和/或访问根据本发明使用的数据。在各种实施例中,端子725和735可以表示任意类型或计算机端子,诸如个人计算机(PC)、小型计算机、大型计算机、微型计算机、电话设备、或无线设备诸如个人数字助理("PDA")或手持无线设备。这种端子可被连接到服务器710,服务器710代表PC、小型计算机、大型计算机、微型计算机或具有处理器和数据仓库和/或到处理器和/或数据参考的连接的其他设备。端子725和735可以通过例如网络705诸如因特网或内联网和连接715、 720和730与服务器710通信。连接715、 720和730可以包括任意类型的链路诸如例如有线的、无线的或光纤链路。
因此,在联网环境中实现的实施例诸如图7所示的系统使得主体用户接口服务器IOI和客户用户接口服务器108能够利用用于在网络诸如局域网和因特网上分布索引和用户接口显示两者的分布式计算和存储资源的优势。
然而,虽然自动匹配机制IOO被示出为使用联网环境,在其他实施例中可以构想自动匹配机制IOO可以操作于独立环境中,诸如操作在多个终端上。
特定实现的详情
上面已经叙述了自动匹配机制100的各个功能模块的各种实现细节。例如,结合图l到图7,各个实施例涉及可被在图l的GHCCOM106中实现的分类器和分类器功能。因此,下面的实施例描述可被结合在上述的自动匹配机制100的各个功能模块内的功能。
参考图8,给出了示出了用于自动分类数据的方法的一个实施例的流程图。在示出的实施例中,查询请求发起自一个人,诸如应用的用户。例如,万维网搜索入口的用户可以通过用户输入提交被用作查询请求的搜索项(框805)。可替换地,大型医学数据库的用户可以提名一个医疗过程,其含义将被用作查询请求。然后该查询请求作为语义或关键字索引的输入(框810),这又检索出相应于该查询请求的文档集合。
如果使用语义索引,查询请求的语义含义将从万维网或其他大型数据存储中选择具有语义相关的短语的文档。如果使用关键字索引,查询请求的文字单词将从万维网或其他大型数据存储中选择具有相同文字单词的文档。当然如上所述,语义索引远比关键字索引准确。
在示出的实施例中,语义或关键字索引的输出是文档集合,其可以是到文档的一列指针诸如URL,或文档自身,或文档的较小的特定部分诸如段落、语句或短语,所有这些被以到文档的指针标记。然后文档集合被输入语义剖析器(框815),语义剖析器将文档集合中的数据分段为有意义的语义单元,如果产生文档集合的语义索引尚未这样做的话。有意义的语义单元包括语句、主语短语、动词短语和宾语短语。
如图9所示,示出了语句剖析器815。通过首先使文档集合通过语句剖析器模块905,通过寻找语句结束标点诸如"? "、 "."、 "!"和双换行,文档集合可被首先消化为单个语句。语句剖析器905可以输出被以到文档的指针标记的单独语句,产生文档-语句列表。
如图12所示,然后可以使用语义网络字典、同义词字典和词性字典将语句剖析为更小的语义单元。对于每个单独语句,候选项标记
器通过寻找可能的一、二和三单词标记,计算每个语句内可能的标记(框1205)。例如,语句"time flies like an arrow"可被转换为候选标记"time","flies,,, "like", "an", "arrow", "time flies", "flies like","like an,,, "an arrow", "time flies like", "flies like an", "like anarrow"。候选项标记器产生包含〗矣选标记的文档-语句- <吳选-标记列表,候选标记被以它们的源语句和源文档标记。然后动词短语定位器一 句 一 句地在词性字典中查找候选标记,以便寻找可能的候选动词
短语(框1210)。动词短语定位器产生包含候选动词短语的文档-语句 -候选-动词短语-候选标记列表,候选动词短语净皮以它们的源语句和源文档标记。候选紧密性计算器考察该列表(框1215),候选紧密性计算器在同义词字典和语义网络字典中查找候选标记,以便计算为每个语句而竟争的每个候选动词短语的紧密性。每个候选的紧密性可以是动词短语候选到相同语句中的其他短语的语义距离,或动词短语的标记彼此之间的共同定位距离,或到相同语句中的代用同义词的共同定位或语义距离的组合。候选紧密性计算器产生文档-语句_紧密性 一候选—动词短语 一候选—标记列表,其中以紧密性数和它们的源语句和源文档标记每个候选动词短语。
然后由候选紧密性分级器筛选文档-语句-紧密性-候选-动词短语-候选-标记列表,候选紧密性分级器为每个语句选择语义上最紧密的竟争候选动词短语(框1220)。然后候选紧密性分级器为每
短语,从而产生以它们的源语句和源文档标记的短语标记的文档 - 语句-SVO -短语-标记列表。
再参考图9,文档-语句-SVO -短语-标记列表被输入指代消解剖析器915。由于一个语句的主要含义通常通过指代与随后的语句相联系,在进行含义群分类之前链接指代是非常重要的。例如"在国内战争期间亚伯拉罕.林肯是总统。他编写了解放黑奴宣言。,,暗示着"亚伯拉罕.林肯编写了解放黑奴宣言"。将指代词"他"链接到"亚伯拉罕.林肯"消解了该暗示。在图6中指代标记检测器使用词性字典查找指代标记诸如他、她、它、他们、我们。指代标记检测器产生指代标记的文档-语句-SVO-短语-指代-标记列表,以源文档、语句、主语、动词或宾语短语给指代标记加标记。指代链接器将这些未消解的指代链接到最近的主语、动词或宾语短语。可以通过指代标记到相同语句中的其他短语的语义距离,或指代标记到相同语句中的其他短
语的共同定位距离,或到之前或之后语句中的短语的共同定位或语义
距离的组合计算未消解的指代的链接。
指代链接器产生短语标记的文档-链接的-语句-svo -短语-标记列表,以短语标记在指代上链接的语句-短语-标记、源语句和源文档给这些短语加标记。
文档-链接的-语句-svo -短语-标记列表被输入主题项索
引器920。主题项索引器对文档-链接的-语句-SVO-短语-标记列表中的每个短语标记进行循环,将短语标记的拼写记录在语义项索引中。主题项索引器还以指向指代链接的语句-短语-标记、源语句和源文档,将短语标记的拼写记录在语义项-组索引中。作为来自主题项索引器的输出,传递语义项-组索引和语义项索引两者。为了节省存储器,语义项-组索引可以取代语义项索引,从而作为来自主题项索引器的输出仅传递一个索引。
再参考图8,语义项索引、语义项-组索引和来自用户的任意指示项被作为输入传递到种子分级器820。指示项包括对种子分级处理具有特殊含义的来自用户输入或调用自动数据分类器的自动处理的任意项。特殊含义包括将被从种子分级中排除的项,或必须作为语义种子包括在种子分级处理中的项。例如,用户可以指出从语义种子项中排除"rental"并且包括"hybrid",围绕着这些语义种子项形成类别。
在图10中,种子分级器流程图示出了如何计算指示项、语义项索引和语义项-组索引的输入,以便产生最优间隔的种子项。指示解释器取输入指示项诸如"Not rental but hybrid",并且剖析"Not"和"but,,的标记符,以便产生"rental,,的阻止项列表和"hybrid"的所需项列表。可基于关键字、基于同义词或以语义距离方法进行这种剖析。如果基于关键字进行,剖析将非常快,但是不像基于同义词那样准确。如果基于同义词进行,剖析将较快,但是不像基于语义距离进行剖析那样准确。阻止项列表、语义项索引和精确组合大小被输入项组合器和阻止
器IOIO。精确组合大小控制候选组合中的种子项的数目。例如,如果语义项索引包含N个项,可能的两项组合的数目将是NxN-l。可能的三项组合的数目将是Nx (N-l) x (N-2)。因此,本发明的单处理器实现将精确组合大小限制为小数目例如2或3。并行处理实现或非常快的单处理器可以计算更高精确组合大小的所有组合。
项组合器和阻止器1010防止将阻止项列表中的任何阻止项包括在允许的语义项组合中。项组合器和阻止器1010还防止任意阻止项与其他项一起参与允许的语义项组合的组合。项组合器和阻止器1010产生允许的语义项组合作为输出。
所需项列表和语义项-组索引与允许的语义项组合一起被输入候选精确种子组合分级器1015。此处分析每个允许的语义项组合以便计算项组合的平衡合意性。平衡合意性考虑相对于不希望的組合项的总接近性的希望的组合项的总流行性。
通常通过计数与语义项_组索引的短语内的组合项共同定位的被称为对等项的不同项的数目计算总流行性。总流行性的略微更为准确的测量还包括与该流行数的不同对等项共同定位的其他不同项的数目。然而,这种改进趋于在计算上是昂贵的,因为相同种类的改进是类似的,诸如语义地映射同义词并且将它们包括在对等项中。可以使用总流行性的其他在计算上快速的测量,诸如组合项出现在文档集合中的总次数,但是这些其他测量趋于在语义上较不准确。
通常通过计数被称为反对项的不同项的数目计算组合项的总接近性,这些反对项是与两个或多个组合的种子项共同定位的项。这些反对项是对种子项实际上含义冲突的指示。反对项不能被用于计算组合的流行性,并且在组合的总流行性的上述计算中被排除出对等项集合。
项组合的平衡合意性是其总流行性除以其总接近性。如果需要,该公式可被以某种非线性的方式调整为偏向于流行性或接近性。例如,文档集合诸如数据表可能在每个语句中具有异常小数量的不同项,从而小值流行性需要提升以便与接近性平衡。在这些情况下,该公式可以是总流行性乘以总流行性除以总接近性。
对于计算种子项的平衡合意性的一个例子,语义项gas/hydrid和"hybrid electric"频繁地共同定位在以关于"hybrid car"的关键字或语义索引产生的文档的语句内。因此,精确组合大小2可以产生gas/hydrid和"hybrid electric"的允许的语义项组合,但是在偏好组成项之间略小的总流行性但是很小的冲突的允许的语义项组合诸如"hybrid technologies,,和"mainstream hybrid cars,,时,候选精确种子组合分级器将拒绝它。在种子语义项之间共享的共同定位项被作为反对项列表输出。不是反对项但是与各种子语义项共同定位的共同定位项被作为逐种子描述符项列表输出。最佳分级的允许的语义项组合中的种子语义项被作为最优间隔的语义种子组合输出。输入的允许的语义项组合中的所有其他语义项被作为允许的语义项列表输出。
在可获得足够的计算资源以便以等于最优间隔的种子项的所希望数目的精确组合大小进行计算的本发明的变型中,上述输出是来自种子分级器的最终输出,跳过图10中的候选近似种子分级器1020中的所有计算,并且仅传递反对项列表、允许的语义项列表、逐种子描述符项列表和最优间隔的语义项组合作为直接来自候选精确种子组合分级器1015的输出。
然而,本发明的大部分实现不具有足够的计算资源以便使得候选精确种子组合分级器1020以大于2或3的精确组合大小计算。因此,需要候选近似种子分级器1020,以便产生4或5或更多种子项的较大的种子组合。利用两个或三个种子项的最优集合定义用于寻找附加种子的良好锚点,获得几个更近似最优的种子的趋势,如图10所示,候选近似种子分级器1020利用最优间隔的语义种子组合、允许的语义项、逐种子描述符项和反对项的输入。
候选近似种子分级器1020 —项一项地检查允许的语义项列表,寻找这样的候选项,该候选项到最优间隔的语义种子组合的添加就包括相应于与该候选项共同定位的新的不同项的附加对等项的新总流行性,以及包括已有的最优间隔语义种子组合和该候选项之间的共同定位项冲突的新总接近性而言具有最大的平衡合意性。在选择了最佳新候选项并且将其添加到最优间隔的语义种子组合之后,候选近似种
子分级器1020存储具有最佳候选项的对等项的新的扩增的逐种子描述符项列表,具有已有的最优间隔的语义种子组合和最佳候选项之间的项冲突的新的扩增的反对项列表,和排除了新的反对项列表或逐种子描述符项列表中的任意项的新的较小的允许语义项列表。
系统循环进行候选近似种子分级器1020积累种子项,直到达到目标种子计数。当达到目标种子计数时,当前反对项列表、允许的语义项列表、逐种子描述符项列表和最优间隔的语义种子组合成为图10的种子分级器的最终输出。
图8示出了图10的输出,种子分级器1000以及语义项-组索引被作为输入传递到类别积累器825。图11示出了类别积累器IIOO诸如图8的类别积累器825的典型计算的详细流程图。类别积累器1100的目的是加深为最优间隔的语义种子組合的每个种子存在的描述符项列表。虽然图10的种子分级器将逐种子描述符项输出到最优间隔的语义种子组合的每个种子的列表中,允许的语义项列表一般包含与特定种子有关的语义项。
为了将这些有关的语义项添加到适当种子的逐种子描述符项列表,类别积累器1100以项流行性顺序对允许的语义项排序,其中通常通过计数与语义项-组索引的短语内的允许项共同定位的被称为对等项的不同项的数目计算项流行性。项流行性的略微更准确的测量还包括与该流行数的不同对等项共同定位其他不同项的数目。然而,这种改进趋于在计算上是昂贵的,因为相同种类的改进是类似的,诸如语义地映射同义词并且将它们包括在对等项中。可以使用项流行性的其他在计算上快速的测量,诸如允许项出现在文档集合中的总次数,但是这些其他测量趋于在语义上较不准确。
然后类别积累器IIOO遍历允许的语义项的有序列表, 一次对一个候选允许项操作。如果候选允许项在语义项-组的短语内与唯--个种子的种子描述符项共同定位,则将该候选允许项移到该种子的逐种子描述符项列表。然而,如果该候选允许项在语义项-组的短.语内与多于一个种子的逐种子描述符项列表共同定位,该候选允许项被移到反对项列表。如果候选允许项在语义项-组的短语中不与种子的种子描述符项共同定位,该候选允许项是孤儿项,并且被简单地从允许项列表中删除。
类別积累器1100继续在有序的允许语义项中循环,删除它们,
或将它们移到反对项列表,或移到逐种子描述符项列表中的一个,直到耗尽所有允许语义项并且允许语义项列表为空。任何不贡献逐种子描述符项的语义项-组可被组织为属于单独的"其他"类別,它自己的其他描述符项构成了从允许语义项列表中删除的允许语义项。
作为最终输出,类别积累器IOO将最优间隔的语义种子组合的每
个种子项与相应的逐种子描述符项列表,和文档集合的语义项-组索引中的使用位置诸如文档、语句、主语、动词或宾语短语的相应列表
打包。这种输出包被总地称为类别描述符,它是类别积累器1100的输出。
本发明的某些变型以积累的顺序保持逐种子描述符项列表。其他的将如上所述以流行顺序对逐种子描述符项列表排序,或当为用户接口的需要而调用自动分类器的应用的用户希望时,按到指示项的语义距离,或甚至按字母顺序排序。
在图8中,类别描述符被输入用户接口设备830。用户接口设备830向使用应用诸如万维网搜索应用、聊天万维网搜索应用、或蜂窝电话聊天万维网搜索应用的人显示或口头传达类别描述符作为有意义的类别。图15示出了万维网搜索应用的例子,其具有左上部处的用户输入框,右上部处的启动对用户输入的处理的搜索按钮,和在它们之下的处理用户输入的结果。用户输入框示出"Cars"作为用户输入。对"Cars"的搜索结果被示出为三个类别,这三个类别被以它们的种子项"rental cars","new cars", "used cars"显示。不对这三个种子项的逐种子描述符项列表做出贡献的文档和它们的语义项-组被概括到"其他"类别。
图16示出了图15的用户接口设备,点击打开了"rental cars"的 三角图标以便展示"daily,,和"monthly"的子类别。可以从类别的逐种 子描述符项列表中的高度流行项中,或可以通过对"rental cars"类别 的类别描述符所指的文档集合的子集合完整地重新运行自动数据分 类器,选择类似显示的子类别。
图17示出了图15的用户接口设备,其中点击打开了 "used cars" 的三角图标,以l更示出各个万维网站点URL和这些万维网站点URL 的最佳URL描述符。当类别诸如"used cars"仅具有由"used cars,,类 别的类别描述符所指的几个万维网站点时,用户一般希望一次看到它 们的全部,或在电话用户接口设备的情况下,当被语音合成器朗读时, 用户将希望一次听到它们的全部。可从由"used cars"类别的类别描述 符所指的最流行项中选择最佳URL描述符。在两个或多个流行项对 于最流行性几乎不相上下的情况下,可将它们连接在一起,以便作为 混合项诸如"dealer warranty "显示或由语音合成器朗读。
图18示出了自动扩增语义网络字典的方法的高层流程图。传统 语义网络字典的显著缺点之一是手工建立的字典能够实现的通常不 充分的语义覆盖范围。存在通过与应用用户会话扩增语义网络字典的 自动方法。然而,这些应用的质量极大地依赖语义网络字典预先存在 的语义覆盖范围。
不是使得用户疲于自举阶段,其中用户必须烦瑣地进行关于建立 块功能语义项的会话,本质上通过会话定义术语表,终端用户应用可 以即时获取术语以便智能地进行关于它的会话。通过获取用户的会话 式输入,并且将其视为对语义或关键字索引的查询请求,以从该查询 得到的文档集合运行图8的自动数据分类器。得自于该运行的类别描 述符可被用于指示在会话地响应用户之前,与用户会话式输入相关的 语义准确的词汇的自动构建。因此,对用户的响应利用在接收用户会 话式输入之前语义网络字典中不存在的词汇。因此,为智能响应即时 产生的词汇可以取代烦瑣的关于建立块功能语义项的会话。例如,如果用户的会话式输入提及混合汽车,并且语义网络字典不具有术语
gas - electric或"hybrid electric"的词汇,在继续与用户进4亍关于 "hybrid cars"的会话之前,这些术语可^皮迅速地自动地添加到语义网 络字典中。
图18获取查询请求的输入或将被添加到字典中的术语诸如 "hybrid cars",并且通过图8的方法发送,该方法返回相应的类别描 述符。类别描述符中的每个种子项可被用于定义"hybrid cars"的多义 含义。例如,即使种子项不是词典编幕者所定义的确切含义,诸如 "Toyota Hybrid", "Honda Hybrid"和"Fuel cell Hybrid",每个种子 项可以产生由"hybrid cars"的各个单独多义节点所继承的相同拼写 的语义网络节点。图18的多义节点产生器创建这些节点。然后,如 词典编纂者所理解的,通过以被作为"hybrid cars,,的各个单独多义节 点的继承项链接的每个描述符项重新查询语义或关键字索引,可以进 一步定义"hybrid cars"的每个各个单独多义节点的含义。因此例如 "Toyota Hybrid"将被用作图8的方法的输入,以便产生描述"Toyota Hybrid"的类别描述符种子项,诸如"hybrid System", "Hybrid Lexus" 和"ToyotaPrius"。如果尚未在语义网络字典中,图18的继承节点产 生器创建这些拼写的节点,并且链接它们,以便使得它们被相应的各 个单独的多义节点诸如被创建以便描述"Toyota Hybrid"的"hybrid cars"继承。
自动产生语义网络字典的一个优点是低的劳动代价和最新的节 点含义。虽然可以创建非常大数量的节点,即使在检查以便确保不存 在相同拼写或通过形态学相关的相同拼写(诸如与car相关的cars) 的节点之后,可以使用各种方法以便以后通过当两个节点本质上具有 相同语义含义时以一个节点取代另一个节点简化语义网络。
图19示出了在会话用户接口中部署的图18的方法。来自应用用 户的输入查询请求被用作图18的方法的输入以便自动地扩增语义网 络字典。以图18的方法产生的语义网络节点加入作为搜索引擎万维 网入口或搜索引擎聊天机器人所使用的会话或语义搜索方法的基础
29的语义网络字典。搜索引擎万维网入口或搜索引擎聊天机器人在语义 网络字典中查找用户请求,以便更好地从语义视角理解用户实际请求 的是什么。以这种方式,万维网入口可以避免检索相应于在搜索请求
中偶然拼写的关键字的无关的数据。例如,传递到关键字引擎的"token praise" 的用户请求可以返回所希望的语句诸如"This memorial will last long past the time that token praise will be long forgotten."。 然 而,遗失关于"token praise,,的含义的词汇的关键字引擎或语义引擎将 返回无关的i吾句,诸3口儿童4亍为建i义"pair werbal praise with the presentation of a token"和"Priase: tokens and coins shipped promptly and sold exactly as advertised...four star rating"的代币商 顾客评价。通过图19公开的即时的词汇扩增,"token praise"的含义 和其他完善的语义项可被即时添加到语义字典中,以便使用其他方法 从搜索结果集合中去除无关数据。另外,通过更准确地关联语义同义 词和语义相关的拼写,从而当计算含义流行性时可以准确地检测含义 的共同定位,图19公开的即时的词汇扩增可以使得后续自动分类更 为准确。通过不仅基于共同定位的拼写,而且基于共同定位的同义词 和共同定位的密切相关含义检测描述符项和反对项,语义同义词和语 义相关拼写的更准确的关联还能够实现图10中的逐种子描述符项和 反对项更准确的检测。
注意,可以使用硬件、软件或其组合实现上述实施例,并且可以 在如上所述的一个或多个计算机系统或其他处理系统中实现这些实 施例。
虽然已经相当详细地描述了上述实施例,但是一旦完整理解了上 述公开,本领域的技术人员将会明了各种变形和修改。打算将所附的 权利要求书解释为包括所有这些变形和修改。
权利要求
1.一种用于将内容单元映射到其他内容单元的方法,该方法包括下列步骤主体显示(200)发送对客户内容的请求;针对客户内容查询类别内容索引(107);提供相应于该请求的索引且分类的内容;响应于确定该索引且分类的内容既不是新内容也不是更新的内容,提供该索引且分类的内容以便显示;和显示该分类的内容。
2. 如权利要求1的方法,还包括响应于确定该索引且分类的内容 是新内容和更新的内容中的任一种,将该索引且分类的内容添加到语 义内容索引(105)。
3. 如权利要求2的方法,还包括 从语义内容索引收集类别相关的语义内容信息;和 对收集的类别相关的语义内容信息重新分类。
4. 如权利要求3的方法,还包括将重新分类的类别相关的语义内 容信息添加到类别内容索引。
5. 如权利要求3的方法,其中收集类别相关的语义内容信息包括 提供搜索项和包括该搜索项的查询请求、使用该搜索项搜索数据存储 并且选择相应于该查询请求的文档集合,其中所述文档集合包括具有 与该搜索项相关的语义短语的文档。
6. 如权利要求5的方法,其中文档集合包括指向包括一个或多个 统一资源定位符(URL)的文档、另一个文档、和包括一个或多个段 落、语句和短语的文档的一部分的指针列表。
7. —种被配置为将内容单元映射到其他内容单元的系统(600), 该系统包括处理器(604),被配置为执行指令;和存储器(608),其连接到处理器并且被配置为存储程序指令,该程序指令可由处理器执行以便发送对客户内容的请求;针对客户内容查询类別内容索引(107);提供相应于该请求的索引且分类的内容;响应于确定该索引且分类的内容既不是新内容也不是更新的内 容,提供该索引且分类的内容以便显示;和在主体显示(200)中显示该分类的内容。
8. 如权利要求7的系统,其中该程序指令还可由处理器执行以便 响应于确定该索引且分类的内容是新内容和更新的内容中的任一种, 将该索引且分类的内容添加到语义内容索引(105)。
9. 如权利要求8的系统,其中该程序指令还可由处理器执行以便 从语义内容索引收集类别相关的语义内容信息;和 对收集的类别相关的语义内容信息重新分类。
10. 如权利要求9的系统,其中该程序指令还可由处理器执行以 便将重新分类的类别相关的语义内容信息添加到类别内容索引。
11. 如权利要求9的系统,其中该程序指令还可由处理器执行以便提供搜索项和包括该搜索项的查询请求;和 使用该搜索项搜索数据存储,并且选择相应于该查询请求的文档集合,其中所述文档集合包括具有与该搜索项相关的语义短语的文档。
12. 如权利要求11的系统,其中数据存储是万维网,并且文档集 合包括指向包括一个或多个统一资源定位符(URL)的文档、另一个 文档、和包括一个或多个段落、语句和短语的文档的一部分的指针列 表。
13. —种用于产生用于在主体显示(200)上使用的匹配客户内容 的方法,该方法包括下列步骤发送对预览匹配的内容的客户请求;针对客户匹配的内容查询类别内容索引(107);提供相应于该请求的所请求的索引且分类的客户内容; 将该索引且分类的客户内容添加到语义内容索引(107); 从语义内容索引收集类别相关的语义内容信息; 对收集的类别相关的语义内容信息重新分类; 将重新分类的类别相关的语义内容信息添加到类别内容索引;和 报告匹配客户请求的分类的匹配内容。
14. 如权利要求13的方法,还包括将重新分类的收集的类别相关 的语义内容信息标记为临时信息,然后存储到类别内容索引中。
15. 如权利要求13的方法,还包括响应于用户提交后续的预览匹 配的内容请求但是未提交针对先前的预览匹配的内容请求的投标值, 从类别内容索引中删除被标记为临时信息的重新分类的收集的类别 相关的语义内容信息。
16. 如权利要求13的方法,还包括基于对预览匹配的内容的请求 的结果,提交投标值以便购买在一个或多个主体显示上显示分类的匹 配内容的空间。
17. 如权利要求16的方法,还包括响应于提交投标值,从存储在 类别内容索引中的重新分类的收集的类别相关的语义内容信息中删 除临时标签。
18. —种用于产生用于在主体显示(200)上使用的匹配客户内容 的系统(600),该系统包括处理器(604),被配置为执行指令;和存储器(608),其连接到处理器并且被配置为存储程序指令, 该程序指令可由处理器执行以便发送对预览匹配的内容的客户请求;针对客户匹配的内容查询类别内容索引(107);提供相应于该请求的所请求的索引且分类的客户内容; 将该索引且分类的客户内容添加到语义内容索引; 从语义内容索引(105)收集类别相关的语义内容信息; 对收集的类别相关的语义内容信息重新分类;将重新分类的类别相关的语义内容信息添加到类别内容索引;和 报告匹配客户请求的分类的匹配内容。
19. 如权利要求18的系统,其中该程序指令还可由处理器执行以 便将重新分类的收集的类别相关的语义内容信息标记为临时信息,然 后存储到类别内容索引中。
20. 如权利要求18的系统,其中该程序指令还可由处理器执行以 便响应于用户提交后续的预览匹配的内容请求但是未提交针对先前 的预览匹配的内容请求的投标值,从类别内容索引中删除被标记为临时信息的重新分类的收集的类别相关的语义内容信息。
全文摘要
一种自动匹配机制包括用于将内容单元映射到其他内容单元的方法。该方法包括主体显示(200)发送对客户内容的请求。该方法还可以包括针对客户内容查询类别内容索引(107),并且提供相应于该请求的索引且分类的内容;响应于确定该索引且分类的内容既不是新内容也不是更新的内容,提供该索引且分类的内容以便显示;和在主体显示上显示该分类的内容。该自动匹配机制可以包括用于产生用于主体显示的匹配客户内容的方法。该方法包括发送客户请求以便预览匹配的内容,并且针对客户匹配的内容查询类别内容索引;从语义内容索引(105)收集类别相关的语义内容信息;和报告匹配客户请求的分类的匹配内容。
文档编号G06F17/30GK101606152SQ200780043235
公开日2009年12月16日 申请日期2007年10月3日 优先权日2006年10月3日
发明者L·奥 申请人:Qps技术有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1