使用认知概念关系的独立于数据的相关性评估的制作方法

文档序号:6569983阅读:178来源:国知局

专利名称::使用认知概念关系的独立于数据的相关性评估的制作方法使用认知概念关系的独立于数据的相关性评估些且NT尔联网和计算技术的进步促成了计算机从能够执行基本文字处理和进行低级数学计算的低性能/高成本设备转变成能够进行各种不同功能的高性能/低成本机器。例如,可以使用消费级计算设备来帮助用户支付账单、跟踪花费、通过电子邮件与朋友或家人几乎即时地远程通信、从网络化数据存储库获取信息、以及各种其它功能/活动。因此,计算机及其关联外设成为现代社会的必要组成部分,用于个人和商业活动。尤其是因特网为用户提供了获取关于任何合适主题的信息的机制。例如,各种web站点专门张贴与世界、国家和/或本地新闻有关的文本、图像和视频。了解与这些web站点之一相关联的统一资源定位符(URL)的用户能够简单地向web浏览器输入该URL,以便获取web站点并访问内容。从因特网定位所需信息的另一种常规方式是通过使用搜索引擎。例如,用户可以向搜索字段中输入一个或一连串词语并启动搜索引擎(例如通过按压按钮、一次或多次击键、语音命令等)。然后,搜索引擎利用搜索算法来定位与用户输入到搜索字段中的一个或一连串词语相关的web站点,并且该用户随后可以选择由搜索引擎返回的web站点之一以审阅相关内容。随着更多的人开始使用因特网,显然对小企业和大企业相同地存在收入机会。例如,许多零售公司利用因特网在线销售货物,从而降低与管理和维护商店场所相关联的成本,提供集中存货的能力以及使传递给消费者的成本降低的各种其它类似好处。考虑到更多的使用因特网产生商业和/或收入,显然可将因特网用作广告机制。在一个示例中,向搜索引擎中输入项目"花"的人可能对买花感兴趣——因此,对于销售花的公司而言,在用户搜索相关项时向该用户作广告是有益的。搜索信息的用户常常会查看相关广告并点击这些广告以购买花,从而为鲜花零售商创造商机。此外,通过在诸如项"花"的相关项被用作搜索项时向零售商出售特定时段的广告空间而向搜索引擎提供额外的收入。按照贯例,与向搜索引擎提供的搜索项相关的广告空间是以拍卖方式来购买或出售的。具体而言,搜索引擎可以接收(来自用户的)查询,包括多个买家感兴趣的一个或多个搜索项。买家可以对至少一个搜索项出价,与最高出价对应的买家会使其广告在结果页面视图上显示。出价和出价选择可以在几毫秒之内进行,从而不对搜索引擎的使用产生负面影响。因此,两个或更多的竞争出价人可以预定时间帧内彼此竞价,直到与所接收的查询中的一个或多个搜索项相关联的广告空间销售价格被确定。这种出价通常由用特定搜索项的需求曲线进行编程的代理(例如计算机组件)来实现。如上所暗示,拍卖与搜索项相关联的广告空间是搜索引擎的主要收入来源,并且还可能是广告客户的收入来源。因为来自用搜索项做广告的收入显著增长的潜力,企业很有可能尝试将尽可能多的搜索项与他们的广告相关联,甚至是与他们自己的搜索项不相关的词语。这通常出于两个原因一第一,增加广告曝光度,第二,使竞争对手不能做广告。然而,通过允许与不相关广告的搜索项相关联,用户通常很快对搜索引擎产生不满并切换到另一搜索引擎,或者由于在他们每次搜索时特定广告客户都持续显示不相关的广告而对特定广告客户产生敌意。为了避免这些问题,通常用"相关性标准"来确定搜索项是否足够相关以允许将它与特定广告和/或企业相关联。当前确定相关性的技术极其繁琐,通常需要在数据改变时必须进行训练和重新训练的模型,并且只能对特定企业相关性标准实现。由于相关性可能随时间发生变化(例如企业添加新的生产线、消费趋势发生变化、词语采用新含义等等),要改变当前对评估相关性的尝试变得非常繁琐和耗时。概述以下引入了本主题的简化概述以便提供对本主题实施例的某些方面的基本理解。本概述不是对本主题的详尽的概观。它不旨在标识实施例的重要/关键元素或者刻划本主题的范围。其唯一目的是以简化形式提供本主题的某些概念,作为以下呈现的更详细描述的序言。6本主题一般涉及数据验证,尤其涉及在诸如关键词广告拍卖中使用的评估相关性验证进程的系统和方法。提供将给定相关性验证进程与人类判定进程作比较的可测量手段。作为示例,可以使用认知概念关系(CCR)系统来提供与用于训练待测试的相关性验证算法的测试数据的相关性质量无关的相关性验证评估。这提供一种对具有不同相关性标准和/或相关标准随时间改变的任何数量企业应用评估例如关键词/项目对的相关性验证的手段,而无需手动重新标记测试数据和/或重新测量算法相关性。因此,能够在无需当前相关性验证技术所需的典型资源的情况下实现一种评估相关性验证的十分灵活的手段,从而节约时间和资源用于其它目的。为了实现以上和相关目的,本文中结合以下描述和附图对实施例的某些说明性方面进行描述。然而,这些方面仅指示可以采用本主题原理的各种方法中的几个,并且本主题旨在包括所有这些方面及其等效方案。结合附图考虑以下详细描述,本主题的其它优点和新颖特征将变得显而易见。附图简述图l是根据实施例一方面的自适应RV评估系统的框图。图2是根据实施例一方面的自适应RV评估系统的另一框图。图3是根据实施例一方面的自适应关键词RV评估系统的框图。图4是根据实施例一方面的自适应关键词广告评估系统的框图。图5是根据实施例一方面的认知概念关系的图示。图6是根据实施例一方面的具有多个集合的测试数据按CCR类型的示例分布的图表。图7是根据一实施例的RV机器系统按CCR的准确性的示例输出的图表。图8是根据实施例一方面的便于RV评估的方法的流程图。图9是根据实施例一方面的自适应地促进企业相关性决策的方法的流程图。图10是根据实施例一方面的便于RV评估的方法的另一流程图。图11示出一实施例发挥功能的示例操作环境。图12示出一实施例发挥功能的另一示例操作环境。详细描述现在参照附图描述主题,其中相同的附图标记用于指代全文中相同的元素。在以下描述中,出于解释目的,阐述了许多具体细节以便提供对本主题的透彻理解。然而,显然,本主题实施例能够在无需这些具体细节的情况下实施。在其它实例中,以框图形式示出公知的结构和设备以便于描述这些实施例。如本申请中所使用的,术语"组件"旨在指代计算机相关实体,无论是硬件、软硬件组合、软件还是执行中的软件。例如,组件可以是,但不限于正在处理器上运行的进程、处理器、对象、可执行代码、执行线程、程序和/或计算机。作为说明,在服务器上运行的应用程序以及该服务器都可以是计算机组件。一个或多个组件可以驻留在进程和/或执行线程内,并且组件可以位于一个计算机上和/或分布在两个或多个计算机之间。"线程"是进程内的实体,操作系统内核对其进行调度用于执行。如本领域中公知的,每个线程具有相关联的"上下文",该"上下文"是与线程执行相关联的易失性数据。线程的上下文包括系统寄存器的内容以及属于线程的进程的虚拟地址。因此,包括线程上下文的实际数据在其执行时发生变化。相关性验证(RV)描述的是一类机器学习(ML)算法,它首先从测试数据学习以建立模型,然后基于从测试数据所学到的(存储在模型中的知识)对任何输入对给出算法判定。不幸的是,要花费时间和资源来收集测试数据并建立RV模型(称为模型训练),并且存在需要应用到相同输入数据的多个企业相关性标准。本文中系统和方法的实例可以提供使用认知概念关系(CCR)系统作为与测试数据无关的相关性评估的基础的RV评估解决方案。在每个CCR类型中测量算法相关性(水平评估),而不是按每个数据集来测量算法相关性(垂直评估)。如此,算法相关性是基于人类认知的,因此与测试数据相关性质量无关。因此,本文中系统和方法的实例可以支持具有不同相关性标准的任何数量企业应用,和/或支持企业相关性标准随时间改变,而无需手动重新标记数据和/或重新测量算法相关性。本文中系统和方法的实例在广告客户对关键词出价以与他们的广告相关联的关键词拍卖中特别有用。通过这种相关联,可以基于将这些关键词用作搜索引擎中的搜索项,而向用户呈现广告。广告与关键词越相关,用户更有可能在该关键词被用于搜索Web等时购买向他们呈现的项目和/或服务。因此,关键词与广告之间的高度相关性对广告客户(例如传达给具有更高销售可能性的更合适的顾客等等)和用户(例如不呈现许多不相关、烦人的广告等等)都有利。在图1中,示出根据实施例一方面的自适应RV评估系统100的框图。自适应RV评估系统100由获取输入104和提供输出106的自适应RV评估组件102组成。输入104通常是需要检查相关性的输入项目对。在一个实例中,输入104由广告关键词和广告目标(例如由广告web页面、web页面广告、横幅等推销的特定产品和/或产品线)和/或实体(例如企业,而非特定广告目标等)组成。自适应RV评估组件102接收输入104并确定输入104中项目的相关性,并提供输出106。在一个实例中,输出106由自适应RV评估组件102使用的CCR系统所提供的认知概念关系(CCR)类型组成。CCR类型可以用作企业相关性模型(如下所述)的输入,以提供自适应的企业相关性模型。这些模型自身能够通过适应CCR类型如何在企业相关性模型中使用而适应多种类型相关性准则和/或随时间变化的相关性准则中的的变化。然而,自适应RV评估组件102所提供的CCR类型无需变化以获得该适应性。自适应RV评估组件102提供评估相关性验证算法质量的数据无关的方法。这允许在对测试数据集没有典型依赖性的情况下进行评估。这还降低了因人类与典型相关性模型进行交互而引起的主观倾向性。CCR系统通常具有从中选择的五类关系,这有效消除了对传统技术所使用的相关性的主观相关/不相关"中伤(stab)"。这降低了对CCR类型而非对最终相关性判定的人类主观性。CCR类型如何在企业相关性模型中使用/排序可以随时间改变和/或在不同企业模型中变化。这允许企业随时间改变他们对相关性的理解,而无需自适应RV评估组件102基于变化的相关性模型重新验证输入104。参照图2,示出根据实施例一方面的自适应RV评估系统200的另一框图。自适应RV评估系统200由获取输入对204和提供输出对CCR类型206的自适应RV评估组件202组成。自适应RV评估组件202由接收组件208和CCR评估组件210组成。输入对204通常由关键词和广告目标/实体组成。接收组件2089从例如广告关键词拍卖条目等获取输入对204用于相关性判断。CCR评估组件210从接收组件208接收输入对204并通过使用具有5个CCR类型的CCR系统而对输入对204进行分类。CCR类型分类由CCR评估组件210输出,作为输入对CCR类型206。分类自身可以使用人类交互和/或机器学习来推进该进程。由于任何人类交互都局限于基于CCR系统的分类,因此对由人类对应方引入的相关性的主观影响得到显著降低。参见图3,示出根据实施例一方面的自适应关键词RV评估系统300的框图。自适应关键词RV评估系统300由获取关键词304和广告目标/实体306并提供关键词企业相关性308的自适应关键词RV评估组件302组成。自适应关键词RV评估组件302由自适应RV评估组件310和企业相关性模型组件312组成。自适应关键词RV评估组件302还能够使用多个企业相关性模型组件来提供对多个关键词企业相关性的评估。自适应RV评估组件310获取关键词304和广告目标/实体306并确定输入对的CCR类型。企业相关性模型组件312接收CCR类型并应用适当的企业相关性模型以便于确定关键词企业相关性308。应该注意,企业相关性模型组件312所使用的企业相关性模型可以随时间变化,因此在给定由自适应RV评估组件310提供的相同CCR类型的情况下,关键词304和广告目标/实体306的关键词企业相关性308也可以随时间变化。在另一实例中,可以使用可以各自具有不同企业相关性模型的多个企业相关性模型组件。因此,由自适应RV评估组件310提供的CCR类型可以被多个模型(甚至同时)使用来提供不同的关键词企业相关性,而无需自适应RV评估组件310重新确定/验证CCR类型。因此,自适应关键词RV评估系统300可以用来提供对人类认知得到的关键词企业相关性等的评估对比算法得到的关键词企业相关性的评估。转向图4,示出根据实施例一方面的自适应关键词广告评估系统400的框图。自适应关键词广告评估系统400由获取关键词404和广告目标/实体406并提供关键词企业判定408的自适应关键词广告评估组件402组成。自适应关键词广告评估组件402由自适应关键词RV评估组件410和关键词广告评估组件412组成。自适应关键词RV评估组件410获取关键词404和广告目标/实体406。自适应关键词RV评估组件410确定输入对404/406的CCR类型,并应用适当的企业相关性模型来确定输入对404/406的企业相关性。企业相关性模型可由企业提供和/或由自适应关键词广告评估组件402提供。因此,例如在广告拍卖设置中,企业可以选择关键词并提供企业相关性模型和/或只选择关键词并使拍卖实体提供适当的企业相关性模型。关键词广告评估组件412从自适应关键词RV评估组件410获取关键词企业相关性,并提供关键词企业判定408。关键词广告评估组件412主要确定关键词404的企业相关性是否足以允许该企业对关键词404出价。可以按照需要动态改变关键词广告评估组件412所使用的准则。可以由拍卖实体来控制关键词广告评估组件412,和/或用于确定关键词企业判定的参数可以散布给广告实体/企业使得他们能够评估自身的系统以确定他们是否有资格对特定关键词出价。通过利用自适应相关性验证、自适应企业模型和/或自适应关键词企业判定模型而获得的充分灵活性提供了在拍卖中评估关键词相关性而无需对数据进行重新标记、对相关性算法进行重新评估、和/或开发多个相关性算法的十分有效的方式。相关性验证(RV)相关性验证通常使用根据测试数据进行训练以建立模型的机器学习算法。这些算法于是基于从测试数据获得的模型中所学习的知识提供对输入对的相关性判定。例如,在具有显著商业影响的基于关键词拍卖的支付搜索平台中使用RV。RV在拍卖系统中的角色是自动回答(无需人类编辑审阅)广告客户所出价的关键词是否与他们提交的广告页面相关。在该拍卖系统中,每个关键词/广告页面对必须通过RV检査。因此,RV位于支付搜索系统的关键路径上。因此,RV是比人类审阅方法更具规模且更成本有效的技术解决方案。然而,为了能够替代人类编辑,RV必须做出与人类编辑基本上相似的正确的相关性判断。挑战在于给定RV算法,如何评估相关性以及如何以可由人类认知系统描述的可测量方式将算法判定与人类判定作比较。此外,收集测试数据和建立RV模型(称之为"模型训练")是要花费时间和资源的。企业环境不断变化,且关于相关性的企业标准可能随时间变化,因此可能存在需要对相同数据输入应用的多个企业相关性标准。因此,如果解决方案在无需重新训练的情况下支持来自单个RV算法的变化的多个相关性标准,则会最高效。本文的系统和方法的实例提供基于独立于测试数据的人类认知概念关系的RV评估解决方案。在其它实例中,评估解决方案也通过这种概念关系将算法判定映射到企业相关性标准,从而消除对模型重新训练和/或多个模型的需要。常规RV评估方法评估RV算法的常规方法通常由以下步骤组成l)人类对测试数据的标记,通常用多个数据集。每种情形被标记成"相关"或"不相关";2)针对人类标记比较RV算法判定;以及3)对每个数据集并跨所有数据情形在准确性矩阵中报告结果。准确性矩阵的示例在表1中通过两个测试数据集示出表l:常规准确性矩阵<table>tableseeoriginaldocumentpage12</column></row><table>注意,在表l中使用的值仅为描述目的。虽然本文中系统和方法的实例是通过二元输出(相关和不相关)而示出的,但是本文中的系统和方法并不就输出的数目和/或输出值方面受到限制。可以看出,这两个数据集在数据大小和固有数据相关性差异方面具有显著变化。为了处理数据集上的相关性差异,对每个数据集(例如数据集1,数据集2)报告人类标记与机器判定之间的一致(正确)和不一致(错误),然后对组合的所有测试情形(例如总计)计算准确性矩阵。常规方法的问题该现有方法的问题包括1)缺乏通用的企业可靠评估基础——在没有这一基础的情况下,相关性的测试数据质量无法被定量描述,因此难以控制人类标记的准确性。当数据情形用判定(相关或不相关)标记时,为什么如此以及基于何种人类判定而作出都是未知的。因此,两个人类编辑对同一情形具有不同相关性标记是常见的。2)将机器相关性评估绑定到测试数据的相关性质量并因此不是与之无关的——传统方法是通过对每个单独测试集与人类输出作比较而来报告算法输出质量(确切地是每个数据集指示什么),并且还报告所组合的全部情形的算法输出质量作为总结。这样难以客观独立地评定算法准确性。3)难以通过变化或多个企业需要来改变企业相关性判定——例如,存在具有不同相关性需要的两个企业应用。第一应用不会给出相关性判定,直到两个输入讨论同一事情。然而,第二应用不需要这样严格的相关性标准。它会输出相关性判定,除非两个输入彼此完全无关。或者同一企业应用会随时间具有变化的相关性标准。所有这些要求都无法由绑定到数据集自身的传统相关性评估方法来满足。它在企业相关性标准改变时需要重新标记并移动的重新训练,或者需要建立各自服务于不同企业相关性标准的多个模型。可适应的方式本文的系统和方法的实例允许将认知概念关系(CCR)系统选为相关性评估的基础。这是定量和描述性的企业可靠基础。这些实例还可以将测试情形的人类分类提供到CCR系统中。该步骤按CCR类型对测试情形进行归类,打破了数据的集合边界。如此,实现了独立于测试数据的相关性评估。算法准确性的测量也可以由CCR系统来实现。因此,代替按每个数据集测量算法相关性(垂直评估),在每个CCR类型中进行测量(水平评估),这是基于人类认知并独立于测试数据的相关性质量的。这提供自适应的企业相关性决策。对同一CCR系统描述企业相关性判定标准,因此可以将算法输出直接映射到企业标准。本文中系统和方法的实例可以天生地支持具有不同相关性标准的任何数量企业应用,并支持企业相关性标准随时间的改变,而无需人类重新标记数据或重新测量算法相关性。可适应的方法本文所述的实例可以采用以下步骤(下文中详细描述)的某些或全部1.使用认知概念关系(CCR)系统作为相关性评估基础2.人类将测试数据分类到CCR中3.由CCR系统定量测量算法相关性4.由CCR系统将算法输出映射到企业相关性判定使用认知概念关系(CCR)类型作为相关性评估基础如表2所示,在输入对之间共有5类认知概念关系表2:认知概念关系类型输入(a,b)关系示例个人计算机0a禾口b木目同b=PC1a是b的超集a=电子产品14<table>tableseeoriginaldocumentpage15</column></row><table>一般而言,两个输入的相关性随类型数量的增大而减小。在图形上,这些类型的认知概念关系(CCR)可被视觉化为如图5的图示500所示。CCR系统定量地描述任何两个输入的相关性。测试数据的人类CCR分类数据标记变成人类分类实践,将每个数据情形(包含两个输入)分类到五种类型之一中。在该步骤中,数据集边界被打破,并且五种类型的测试数据通过人类认知概念关系而生成。一旦数据按CCR类型进行了标记,诸如相关性的给定数据的变化以及集合大小的差异就与RV评估不相关。图6是示出具有多个集的测试数据按CCR类型的示例分布的图表600。在传统方法中,人类标记简单地在单个测试情形基础上输出相关或不相关,这种方法难以量化、解释和质量控制。而且,一旦作出相关性判定,则在更新企业相关性判定标准时无法改变该判定。在企业相关性标准改变的情形中,测试数据必须被重新标记。而且,在没有诸如CCR的归类系统的情况下,难以向人类审阅者定量解释何为相关以及何为不相关。在本文的系统和方法实例中,人类编辑仅被要求将测试数据中的输入对分类到CCR系统中,这十分直接并且使标记质量更易于控制。相关性决策被延迟到该解决方案的最后步骤,变化的企业相关性标准能够得到支持。测量CCR中的算法准确性代替使用数据集,现在对每个类型使用来自以上步骤的分类后的数据按CCR类型测量机器准确性。因此,评估是定量描述并且独立于给定测试数据质量的。图7中图表700示出RV机器系统按CCR的准确性的示例输出。该图表700说明对于类型0(其中两个输入是关于来自人类标记的相同概念的)702,RV算法是9696准确的,即在IOO次类型O的情形中,RV正确96次。在该步骤中,RV算法的准确性在每个CCR类型中进行定量测量。这些结果由CCR而非各个数据集描述。再一次,企业相关性决策被延迟到后续步骤中。通过CCR将算法输出映射到企业相关性判定通过由CCR描述的算法结果,可以将算法输出直接映射到CCR系统中的企业相关性判定。表3示出这样的映射,假设两个企业应用具有不同的相关性标准。表3:算法输出映射<table>tableseeoriginaldocumentpage16</column></row><table>首先,需要将企业相关性量化成CCR。例如来自应用1的"严格"被转换成以下1.相关包括CCR类型O,2.不相关包括CCR类型1至4。然后,基于企业相关性到CCR的映射以及每个CCR类型中的算法相关性准确性,对算法相关性进行量化。算法的经评估企业相关准确性(BRA)如下算法输出=跨企业相关CCR类型的相关的情形之和BRA=-------------------------------------------------------------------------------------(等式1)跨企业相关CCR类型的所有情形之和作为示例应用#1的BRA为96%x35%xNumAllCases-----------------------------------------=%%35%xNumAllCases算法的经评估企业不相关性准确性(BNRA)如下计算算法输出=跨企业不相关CCR类型的不相关的情形之和BNRA=------------------------------------------------------------------------------------(等式2)跨企业不相关CCR类型的所有情形之和作为示例应用#1的BNRA被计算为90/ox51%xNumAllCases+20%x4%xNumAllCases+22%x6%xNumAllCases+47%x3%xNumAIlCases----------------------------------------------------------------------------------------------------------------------------------=13%51%xNumAHCases+4%xNumAIICases+6%xNumAllCases+3%xNumAUCasesBRA和BNRA分别指示按给定企业标准的相关和不相关情形如何准确(与人类判断的一致性)。本文提供的评估解决方案还报告企业相关和企业不相关类别的错误率,它们分别简单地为l-BRA和l-BNRA。由此,示出了单个RV算法能够直接支持具有不同相关性标准的多个企业应用和/或具有随时间变化的相关性标准的同一企业应用,而无需重新标记数据、重新训练算法、和/或重新评估。这可以通过将企业相关性标准映射到给定CCR类型系统、充分利用人类认知中的不相连和不同相关性关系来实现。然后,根据成员CCR类型到企业相关和企业不相关类别的算法准确性量度计算NRA和BNRA。还可以使用类似的评估算法来进一步评估关键词企业相关性模型和/或关键词广告模型的准确性。就以上所示或所述的示例性系统而言,参照图8-10的流程图,将更好地理解可以根据实施例实现的方法。虽然出于说明简洁目的,可将这些方法示出和描述为一系列框,但是应该理解和意识到,这些实施例并不受框次序的限制,因为根据一实施例,某些框可以按与本文所示和所述的不同次序和/或与其它框同时发生。此外,并非所有示出的框都是实现根据本发明的方法所必须的。可以在由一个或多个组件执行的诸如程序模块的计算机可执行指令的一般上下文中描述这些实施例。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、数据结构等。通常,可以按照实施例各个实例中所需要地对程序模块的功能进行组合和分布。在图8中,示出根据实施例一方面的便于RV评估的方法800的流程图。方法800通过获取输入对804而在802开始。输入对可以由广告关键词和广告目标(例如由广告web页面、web页面广告、横幅等推销的特定产品和/或产品线)和/或实体(例如企业而非特定广告目标等)。然后,至少部分地基于认知概念关系类型来确定输入对的独立于数据的相关性806,结束流程808。CCR类型可以用作企业相关性模型的输入,以提供可适应的企业相关性模型。这些模型自身能够通过适应CCR类型如何在企业相关性模型中使用而适应多种类型相关性准则和/或随时间的相关性准则中的变化。然而,为了获得该适应性,并不需要改变CCR类型。参照图9,示出根据实施例一方面自适应地促进企业相关性决策的方法900的流程图。方法900通过获取企业904所需的广告关键词而在902开始。然后,经由采用自适应企业相关性决策进程,确定关键词的广告相关性906,结束流程908。这允许利用采用CCR系统的自适应企业相关性决策进程来评估广告相关性。因此,很容易获得算法与人类认知方法之间的比较。参见图10,示出根据实施例一方面的便于RV评估的方法1000的另一流程图。方法1000通过将认知概念关系(CCR)系统用作相关性评估基础1004而在1002开始。CCR系统包括五类关系,如上表2所示。相关性通常随类型数量的增多而减小。参见图5的图形图示500。CCR系统允许定量描述相关性。然后,由人将测试数据分类到CCR系统中1006。这打破了数据集边界并且五种类型的测试数据通过人类认知概念关系而生成。一旦数据按CCR类型进行了标记,诸如相关性的给定数据的变化和集上大小差异就与RV评估不相关。例如,简单地要求人类编辑将测试数据中的输入对分类到CCR系统中,这是直接的且更易于控制标记质量。这延迟了相关性决策,使变化的企业相关性标准得到支持。然后,由CCR系统定量测量算法相关性1008。与传统方法中利用数据集不同,机器准确性是通过利用每个类型的分类后数据而按CCR类型来测量的。因此,评估是定量描述并且独立于给定测试数据的质量。然后,由CCR系统将算法输出映射到企业相关性判定1010,结束流程1012。采用由CCR描述的算法结果,可以将算法输出直接映射到CCR系统中的企业相关性判定。首先,将企业相关性需求量化成CCR。然后,基于企业相关性到CCR映射以及每个CCR类型中的算法相关性准确性,对算法相关性进行量化。因此,单个RV进程能够直接支持具有不同相关性标准的多个企业应用和/或具有随时间变化的相关性标准的同一企业应用,而无需重新标记数据、重新训练算法、和/或重新评估。这可以通过将企业相关性标准映射到给定CCR类型系统、充分利用人类认知中的不相连和不同相关性关系来实现。然后,根据成员CCR类型到企业相关和企业不相关类别的算法准确性量度到计算NRA和BNRA。还可以使用类似的评估算法来进一步评估关键词企业相关性模型和/或关键词广告模型的准确性。为了提供实现实施例各个方面的附加上下文,图ll和以下讨论旨在提供可以执行本发明各方面的合适计算环境1200的简要、一般描述。虽然以上在运行于本地计算机和/或远程计算机的计算机程序的计算机可执行指令的一般上下文中对实施例进行了描述,但是本领域技术人员可以认识到,也可以结合其它程序模块执行这些实施例。通常,程序模块包括执行特定任务和/或实现特定抽象数据类型的例程、程序、组件、数据结构等。此外,本领域技术人员会意识到,可以采用其它计算机系统配置来实践本发明的方法,包括单处理器或多处理器计算机系统、小型计算机、大型计算机以及个人计算机、手持式计算设备、基于微处理器和/或可编程消费电子产品等等,其中每个都能够与一个或多个关联设备有效通信。还可以在分布式计算环境中实践本发明的所示方面,其中某些任务可以通过经由通信网络链接的远程处理设备来执行。然而,即使不是实施例的全部方面,也是部分方面,可以在独立计算机上实践。在分布式计算环境中,程序模块可以位于本地和/或远程存储器存储设备中。参照图11,用于执行实施例各方面的示例性系统环境iioo包括常规计算机1102,包括处理单元1104、系统存储器1106和将包括系统存储器在内的各种系统组件耦合到处理单元1108的系统总线1104。处理单元1104可以是任何市场上可购买的或专用处理器。此外,处理单元可以实现为由诸如并行连接的一个以上的处理器形成的多处理器。系统总线1108可以是若干类型总线结构中任一种,包括存储器总线或存储器控制器、外围总线和使用诸如PCI、VESA、微信道、ISA、和EISA等的各种常规总线体系结构中任一种的局部总线。系统存储器1106包括只读存储器(ROM)1110和随机存取存储器(RAM)1112。基本输入/输出系统(BIOS)1114存储在ROM1102中,包含帮助在诸如启动期间在计算机1110内元件之间传递信息的基本例程。计算机1102还包括例如对可移动盘1120读写的硬盘驱动器1116、磁盘驱动器1118,以及对CD-ROM盘1124或其它光学介质读写的光盘驱动器1122。硬盘驱动器1116,磁盘驱动器1118和光盘驱动器1122分别通过硬盘驱动器接口1126、磁盘驱动器接口1128和光盘驱动器接口1130连接于系统总线1108。驱动器1116-1122及其关联计算机可读介质为计算机1102提供数据、数据结构、计算机可执行指令等的非易失性存储。虽然以上计算机可读介质的描述涉及硬盘、可移动磁盘和CD,但是本领域技术人员应该意识到,在示例性操作环境1100中还可以使用可由计算机读取的其它类型介质,诸如磁带盒、闪存、数字视频盘、贝努利盒式磁带等,并且任何这种介质可以包含用于执行本实施例方法的计算机可执行指令。多个程序模块可以存储在驱动器1116-1122和RAM1112中,包括操作系统1132、一个或多个应用程序1134、其它程序模块1136和程序数据1138。操作系统1132可以是任何合适的操作系统或操作系统的组合。通过示例,根据实施例的一方面,应用程序1134和程序模块1136可以包括相关性检验评估方案。用户能够通过诸如键盘1140和定点设备(例如鼠标1142)的一个或多个用户输入设备向计算机1102中输入命令和信息。其它输入设备(未输出)可20以包括麦克风、操纵杆、游戏手柄、圆盘式卫星天线、无线遥控、扫描仪等。这些和其它输入设备通常经由耦合到系统总线1108的串行端口接口1144连接到处理单元1104,但是可以通过诸如并行端口、游戏端口或通用串行总线(USB)的其它接口连接。还可以经由视频适配器1148将监视器1146或其它类型的显示设备连接到系统总线1108。除了监视器1146之外,计算机1102可以包括其它外围输出设备(未输出),诸如扬声器、打印机等。应该意识到,计算机1102能够在使用到一个或多个远程计算机1160的逻辑连接的网络化环境中操作。远程计算机1160可以是工作站、服务器计算机、路由器、对等设备或其它公共网络结点,并且通常包括相关于计算机1102描述的元件的某些或全部,虽然出于简洁目的,在图11中只示出存储器存储设备1162。图ll所示的逻辑连接可以包括局域网(LAN)1164和广域网(WAN)1166。这种网络环境在办公室、企业范围计算机网络、内联网和因特网中十分常见。例如,当在LAN联网环境中使用时,计算机1102经由网络接口或适配器1168连接到局域网1164。当在WAN联网环境中使用时,计算机1102通常包括调制解调器(例如电话、DSL、缆线等)1170,或者连接到LAN上的通信服务器,或者具有用于在诸如因特网的WAN1166上建立通信的其它装置。对计算机1102或为内置或为外置的调制解调器1170经由串行端口接口1144连接到系统总线1108。在网络化环境中,程序模块(包括应用程序1134)和/或程序数据1138可以存储在远程存储器存储设备1162中。应该意识到,所示网络连接是示例性的,并且在执行实施例一方面时可以使用在计算机1102与1160之间建立通信链路的其它装置(例如有线或无线)。根据计算机编程领域中技术人员的实践,除非另行指出,否则参照由诸如计算机1102或远程计算机1160之类的计算机所执行操作的动作和符号表示来描述实施例。这些动作和操作有时被称为由计算机执行。应该意识到,这些动作和符号表示操作包括由处理单元1104对表示导致电信号表示的变换或縮减的数据位的电信号的操控,以及数据位在存储器系统(包括系统存储器1106、硬盘驱动器1116、软盘1120、CD-ROM1124和远程存储器1162)的存储器位置上的维护以重新配置或以其他方式改变计算机系统操作、以及其它信号处理。维护这些数据位的存储器位置是具有与数据位对应的特定电、磁或光性质的物理位置。图12是实施例能够交互的示例计算环境1200的另一框图。系统1200还示出包括一个或多个客户机1202的系统。客户机1202可以是硬件和/或软件(例如线程、进程、计算设备)。系统1200还包括一个或多个服务器1204。服务器1204也可以是硬件和/或软件(例如线程、进程、计算设备)。客户机1202与服务器1204之间的一种可能通信可以采用适于在两个或多个计算进程之间传送的数据分组的形式。系统1200包括可以采用以便于客户机1202与服务器1204之间通信的通信框架1208。客户机1202连接到可用于将信息存储到客户机1202本地的一个或多个客户机数据存储1210。类似地,服务器1204连接到可用于将信息存储到服务器1204本地的一个或多个服务器数据存储1206。应该意识到,实施例的系统和/或方法可以在促进计算机组件和非计算机相关组件等的相关性验证评估中使用。此外,本领域技术人员会认识到,实施例的系统和/或方法可以用大量相关电子技术采用,包括但不限于计算机、服务器和/或手持式电子设备等。以上所描述的包括实施例的示例。当然,不可能为了描述实施例而描述组件或方法的所有可构想组合,但是本领域技术人员可以认识到,本发明的许多其它组合和排列也有可能。相应地,本主题旨在涵盖落在所附权利要求书的精神和范围内的所有这些更改、修改和变化。此外,就在详细描述或权利要求书中使用的术语"包含"而言,该术语旨在以与术语包括类似的方式表示包括性,如同包含在权利要求中用作过渡词汇时所解读的一样。2权利要求1.一种便于数据项目对的相关性验证评估的系统,包括接收组件,获取输入数据项目对以便相关性评估;以及评估组件,采用评估系统以便于评估相关性验证进程以及独立于用于训练所述相关性验证进程的测试数据来确定所述输入数据项目对的相关性。2.如权利要求1所述的系统,其特征在于,所述输入数据项目对与广告关键词和广告目标和/或实体相关联。3.如权利要求1所述的系统,其特征在于,所述评估组件采用认知概念关系(CCR)系统以便于评估所述相关性验证进程。4.如权利要求3所述的系统,其特征在于,所述CCR系统采用测试情形的人类分类。5.如权利要求3所述的系统,其特征在于,所述评估组件提供算法相关性准确性的量度。6.如权利要求l所述的系统,其特征在于,还包括企业模型组件,利用所述相关性确定来自适应地确定关键词对企业模型的相关性。7.如权利要求6所述的系统,其特征在于,还包括广告组件,基于所述企业相关性对关键词确定企业广告判定。8.如权利要求1所述的系统,其特征在于,所述评估组件同时支持多个企业相关性标准和/或支持随时间改变的企业相关性标准而无需重新训练所述评估模型。9.一种至少部分地采用如权利要求1所述系统的广告关键词拍卖系统。10.—种便于数据项目对的相关性验证评估的方法,包括获取要对相关性进行评估的输入数据项目对;以及经由使用采用认知概念关系(CCR)系统的评估模型,独立于算法相关性验证训练数据来评估所述输入数据项目对的相关性。11.如权利要求10所述的方法,其特征在于,所述输入数据项目对与广告关键词和广告实体和/或目标相关联。12.如权利要求10所述的方法,其特征在于,还包括对所述CCR系统采用由人类分类的测试情形;打破所述测试情形中的数据集边界,并使测试数据独立于相关性评估。13.如权利要求10所述的方法,其特征在于,还包括利用所述CCR系统来测量算法关于相关性的准确性。14.如权利要求10所述的方法,其特征在于,还包括将算法输出直接映射到企业标准以支持具有不同企业相关性标准的企业应用、随时间的企业相关性标准中的变化、和/或并发的多个企业相关性标准。15.—种在线因特网拍卖方法,至少部分地采用如权利要求10所述的方法以便于自动拍卖关键词。16.—种便于评估广告关键词拍卖的方法,包括获取企业实体所需的要与其广告相关联的关键词;以及利用自适应企业相关性决策进程来评估所述关键词是否与所述企业相关。17.如权利要求16所述的方法,其特征在于,还包括基于所述关键词与企业的相关性,确定是否接受所述企业的出价。18.如权利要求16所述的方法,其特征在于,自适应企业相关性决策进程是部分地基于认知概念关系(CCR)技术的。19.一种采用如权利要求10所述方法的设备,包括选自计算机、服务器和手持式电子设备中的至少一个。20.—种采用如权利要求1所述系统的设备,包括选自计算机、服务器和手持式电子设备中的至少一个。全文摘要提供一种相对人类判定进程评估给定相关性验证进程的可测量手段。作为示例,可以使用认知概念关系(CCR)系统来提供与用于训练待测试的相关性验证算法的测试数据相关性质量无关的相关性验证评估。这提供一种对诸如具有不同相关性标准和/或随时间的相关性标准中的改变的任何数量企业应用评估关键词/项目对的相关性验证的手段,其中无需手动重新标记测试数据和/或重新测量算法相关性。文档编号G06Q90/00GK101496058SQ200680046845公开日2009年7月29日申请日期2006年11月13日优先权日2005年12月14日发明者L·王,P·奎瓦,Y·李申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1