获取特征排序模型的装置和方法以及特征排序方法与流程

文档序号:12601643阅读:177来源:国知局
获取特征排序模型的装置和方法以及特征排序方法与流程
本公开总体上涉及一种用于获取特征排序模型的装置和方法以及一种特征排序装置和方法,具体而言,涉及能够基于特征的子特征通过学习而获取特征排序模型的装置和方法以及根据所获取的特征排序模型来确定特征排序的特征排序装置和方法。
背景技术
:随着互联网的发展和大数据的应用需求,诸如监督学习等数据分析需要从样本中提取特征并选择合适的特征。除了监督学习之外,诸如分类和预测等数据处理也依赖于特征的提取和特征的选择。在这些处理中,如何识别好的特征并加以选择起到决定作用。在上述技术中,期望能够以准确、高效的方式选择合适的特征。技术实现要素:在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。鉴于现有技术的上述缺陷,本发明的目的之一是提供一种用于获取特征排序模型的装置和方法以及一种特征排序装置和方法,以至少克服现有的问题。根据本公开的一个方面,提供了一种获取特征排序模型的方法,所述方法基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数,所述方法包括:针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及基于针对所述N个原始样 本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。根据本公开的另一方面,提供了一种特征排序方法,其基于通过上述的用于获取特征排序模型的方法获得的特征排序模型来对多个待测样本的特征进行排序,所述多个待测样本中的每一个均具有多个特征,该多个特征与获得所述特征排序模型时所使用的原始样本的多个特征相对应,所述特征排序方法包括:基于所述多个待测样本,提取所述多个特征中的每个特征的子特征;以及利用从所述多个待测样本提取的子特征,根据所述特征排序模型,确定所述多个待测样本的所述多个特征的排序。根据本公开的再一方面,提供了一种获取特征排序模型的装置,所述装置基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数,所述装置包括:排序标签获取单元,其针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;子特征提取单元,其针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及学习单元,其基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。依据本公开的其它方面,还提供了一种使得计算机用作如上所述的获取特征排序模型的装置的程序。依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述获取特征排序模型的方法。上述根据本公开实施例的各个方面,至少能够获得以下益处至少之一:以将特征视为样本的方式,从特征中提取子特征,并通过学习获取基于子特征的特征排序模型,从而能够实现准确、高效的特征排序,以有利于选择合适的特征。通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。附图说明本公开可以通过参考下文中结合附图所给出的描述而得到更好的理 解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:图1是示意性地示出根据本公开实施例的用于获取特征排序模型的装置的示例结构的框图。图2是用于说明根据本公开实施例的用于获取特征排序模型的装置中的排序标签获取单元所进行的示例处理的说明图。图3是用于说明根据本公开实施例的用于获取特征排序模型的装置中的子特征提取单元所进行的示例处理的说明图。图4是示意性地示出根据本公开实施例的用于获取特征排序模型的装置中的学习单元的示例结构的框图。图5是示意性地示出根据本公开实施例的特征排序装置的示例结构的框图。图6是示出了根据本公开实施例的用于获取特征排序模型的方法的示例流程的流程图。图7是示出了根据本公开实施例的用于获取特征排序模型的方法中的学习步骤的示例流程的流程图。图8是示出了根据本公开实施例的特征排序方法的示例流程的流程图。图9是示出了可用来实现根据本公开实施例的用于获取特征排序模型的装置和方法的一种可能的硬件配置的结构简图。具体实施方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。本发明人发现,在现有的监督学习以及分类和预测等数据分析技术中,对特征的选择基于简单的排序处理。例如,基于原始样本构建回归树,并根据回归树的分裂点获得特征排序等。然而,以这种方式对特征进行排序得到的结果不一定准确。基于此,本公开提出了一种用于获取特征排序模型的装置和方法以及根据所获取的特征排序模型来确定特征排序的特征排序装置和方法,其中以将特征视为样本的方式,从特征中提取子特征,并通过学习获取基于子特征的特征排序模型,从而能够实现准确、高效的特征排序,以有利于选择合适的特征。根据本公开的一个方面,提供了一种用于获取特征排序模型的装置。图1是示意性地示出根据本公开实施例的用于获取特征排序模型的装置的示例结构的框图。图1示出了用于获取特征排序模型的装置10。所述装置10基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数。如图1所示,所述装置10包括:排序标签获取单元101,其针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;子特征提取单元102,其针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及学习单元103,其基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。利用如图1所示的用于获取特征排序模型的装置10,能够以将原始样本的特征视为新样本的方式,通过对N个原始样本组的处理而获得这些特征(新样本)的排序标签以及这些特征的子特征,并通过基于如此获得的排序标签和子特征进行学习而获取基于子特征的特征排序模型。因此,用于获取特征排序模型的装置10将通常仅用于原始样本的学习过程引入到特征本身的排序当中,有利于实现准确、高效的特征排序。根据本公开实施例的用于获取特征排序模型的装置10所针对的N个原始样本组可以通过各种适当的方式获得。在一个优选实施例中,所述N原始样本组可以是通过从T个原始样本中进行带放回的随机抽取而得到的,并且每个原始样本组包括k个原始样本,其中T、k均为自然数,并且k<<T。当然,也可以通过不带回放的随机抽取从T个原始样本中获得N个原始样本组。然而,相较于不带回放的随机抽取,优选实施例中带回放的随机抽取所获得的N个原始样本组可以更好地体现原始样本数据的相关性,并且更好地涵盖原始样本数据之间的比较,因而与原始样本数据更接近。根据本公开实施例的用于获取特征排序模型的装置10中的排序标签获取单元101可以利用各种现有技术的排序方案针对每个原始样本组中的原始样本来获取多个特征的排序标签。在一个优选实施例中,排序标签获取单元101可以被配置为通过下述方式针对一个原始样本组获取所述多个特征的排序标签:为该组中的原始样本构建分裂点与所述多个特征相关的回归树,并基于所述回归树中的分裂点的重要程度来获取所述多个特征的排序标签。接下来参照图2,图2是用于说明根据本公开实施例的用于获取特征排序模型的装置10中的排序标签获取单元101所进行的示例处理的说明图。如图2所示,针对N个原始样本组中的每一组,排序标签获取单元101为该组中的原始样本构建了分裂点与原始样本的多个特征相关的回归树,并相应地输出了特征的排序标签。作为示例,回归树中的每个分裂点(即图2中的回归树的每个节点)与一个特征及该特征的阈值相关联,并且越靠近根节点的分裂点重要程度越高。相应地,一个给定特征的重要程度可以通过对回归树中与该特征相关的所有分裂点的重要程度求和而获得。因此,排序标签获取单元101可以基于一个原始样本组的回归树中的分裂点的重要程度来获取该组中的原始样本的各个特征的重要程度的排序,以作为这些特征的排序标签。排序标签获取单元101可以通过各种现有技术方式来构建回归树并相应地获得排序标签,在此不进行详细描述。在一个优选实施例中,如果排序标签获取单元101通过上述构建回归树的方式获取多个特征的排序标签,则子特征提取单元102可以被配置为通过下述方式针对一个原始样本组提取一个特征的子特征:基于为该组中的原始样本构建的回归树中与该特征相关的分裂点,为该特征划分多个特征区域,并提取该特征的、基于所述多个特征区域的子特征。作为示例,返回参照图2,子特征提取单元102可以从如图2所示的、由排序标签获取单元101构建的回归树中获取每个回归树的分裂点。对于一个给定的原始样本组,子特征提取单元102可以在该原始样本组的回归树中,针对一个特征来提取与该特征相关的所有分裂点,并基于这些分裂点处的该特征的阈值,将该组原始样本中的该特征的值域(即,包含了该组原始样本中该特征的所有取值的集合)划分为多个特征区域,并基于这些特征区域提取该特征的子特征。接下来参照图3,图3是用于进一步说明根据本公开实施例的用于获取特征排序模型的装置10中的子特征提取单元102所进行的示例处理的说明图。图3示意性地示出了子特征提取单元102基于回归树中的分裂点为特征划分多个特征区域的处理。假设图3所示的是子特征提取单元102针对N个原始样本组中的一个原始样本组的特征f1,f2,…,fm进行的特征区域划分,其中m为大于1的自然数(即该原始样本组中的每个原始样本具有m个特征f1,f2,…,fm)。以特征f1为例,该特征在该原始样本组中的取值的值域对应于从最小值min到最大值max的范围。基于排序标签获取单元101为该原始样本组中的原始样本所构建的回归树中与该特征f1相关的分裂点(例如以这些分裂点处的特征f1的阈值为界),子特征提取单元102将特征f1的值域划分为特征区域g11,g12,…,g1n,其中n为特征区域的个数。作为示例,n可以是相应的回归树中与该特征f1相关的分裂点的个数加1。如稍后将详细描述的,子特征提取单元102可以基于这样得到的特征区域提取特征f1的子特征。子特征提取单元102可以针对特征f2,…,fm进行类似的特征区域划分处理,以提取特征f2,…,fm的子特征,这里不再重复描述。在一个示例中,在子特征提取单元102基于一组原始样本的回归树中的相关分裂点而为给定特征划分多个特征区域、并提取该特征的基于所述多个特征区域的子特征的情况下,子特征提取单元102可以通过下述方式提取基于所述多个特征区域的子特征:针对所述多个特征区域中的每个特征区域,计算该组中的原始样本的该特征的取值当中落入该区域中的取值的个数,作为所述子特征。仍参照图3,以特征f1为例,在特征f1的值域范围内,子特征提取单元102得到给定原始样本组的回归树中与特征f1相关的分裂点的集合S1以及n个对pair(g1i,v(g1i)),i∈{1,2,...,n},其中,g1i表示通过基于分裂点进行特 征区域划分而得到的特征f1的第i个特征区域,v(g1i)表示给定原始样本组中的原始样本的特征f1在该特征区域g1i的取值的集合。子特征提取单元102通过下述公式(1)提取特征f1的基于多个特征区域g11,g12,…,g1n的子特征:H1(g1)=Extract1(G1,V1,S1)=Count(v(g1))…(1)其中G1,V1表示集合pair(g1i,v(g1i)),i∈{1,2,...,n},S1表示分裂点集合,Count(v(g1))表示针对v(g1)中的特征f1的取值进行计数,即,通过针对v(g1i)(i=1,2,…,n)分别计数而得到的n维矢量。在另一个示例中,子特征提取单元102可以通过下述方式提取基于所述多个特征区域的子特征:针对所述多个特征区域中的每个特征区域,计算该组中的原始样本的该特征的取值当中落入该区域中的取值的最大值和最小值之差,作为所述子特征。例如,子特征提取单元102可以通过下述公式(2)提取特征f1的基于多个特征区域g11,g12,…,g1n的子特征:H2(g1)=Extract2(G1,V1,S1)=Max(v(g1))-Min(v(g1))…(2)其中S1,G1,V1的含义与公式(1)中相同,H2(g1)表示针对v(g1i)(i=1,2,…,n)中的特征f1的取值分别计算最大值和最小值之差而得到的n维矢量。在又一个示例中,子特征提取单元102可以通过下述方式提取基于所述多个特征区域的子特征:针对所述多个特征区域中的每个特征区域,计算该组中的原始样本的该特征的取值当中落入该区域中的取值的平均值,作为所述子特征。例如,子特征提取单元102可以通过下述公式(3)提取特征f1的基于多个特征区域g11,g12,…,g1n的子特征:H3(g1)=Extract3(G1,V1,S1)=Avg(v(g1))…(3)其中S1,G1,V1的含义与公式(1)中相同,H3(g1)表示针对v(g1i)(i=1,2,…,n)中的特征f1的取值分别计算平均值而得到的n维矢量。注意,子特征提取单元102可以分别针对原始样本的所有特征进行与参照公式(1)至公式(3)描述的处理类似的处理,以提取每个特征的子特征,这里不再重复描述。此外,子特征提取单元102提取子特征的方式不限于以上公式(1)至 公式(3)的示例。例如,在基于一组原始样本的回归树中的相关分裂点而为给定特征划分多个特征区域之后,子特征提取单元102可以针对每个特征区域,计算该原始样本组中的原始样本的该特征的取值当中落入该区域中的取值的中值或均方差,以作为该特征的子特征。接下来参照图4,图4是示意性地示出根据本公开实施例的用于获取特征排序模型的装置10中的学习单元103的示例结构的框图。如图4所示,根据本公开实施例的用于获取特征排序模型的装置10中的学习单元103例如可以包括:交换成本获取子单元1031,其针对每个原始样本组,基于该组中的原始样本,获取基于所述多个特征的所述排序标签的、所述多个特征当中的每两个特征之间的交换成本;比较概率计算子单元1032,其针对每个原始样本组,对于所述多个特征当中的每个两个特征,基于该组中的该两个特征之间的交换成本以及该组中的该两个特征的子特征的函数来计算该两个特征的比较概率;损失函数计算子单元1033,其基于针对所述N个原始样本组而各自计算的、所述多个特征当中的每两个特征之间的比较概率,计算所述特征排序模型的损失函数;以及模型确定子单元1034,其通过使所述损失函数最小化,确定所述特征排序模型。本公开实施例的学习单元103将N组带有排序标签的特征视为N组新样本,将这些特征的子特征视为这些新样本的特征来进行监督学习,从而通过各个子单元1031-1034的处理而获得基于子特征的特征排序模型。在一个示例中,比较概率计算子单元1032在计算两个特征的比较概率时所使用的该两个特征的子特征的函数涉及与子特征有关的参数,这些参数的值就是学习单元103的学习对象,也就是模型确定子单元1034为确定特征排序模型而确定的对象。因此,模型确定子单元1034通过使得基于比较概率(进而基于上述的子特征的函数)的损失函数最小化而确定上述子特征的函数中的相关参数的值,从而得到特征排序模型。以下将进一步描述学习单元103的各个子单元的示例处理。首先描述交换成本获取子单元1031的示例处理。在一个示例中,交换成本获取子单元1031针对一个原始样本组中的两个特征所计算的这两个特征之间的交换成本可以表示该一个原始样本组中这两个特征的排序标签之间的距离。例如,在一个给定的原始样本组中,假设每个原始样本各有m个特 征,其中特征fi与特征fj的排序标签分别为i和j,即分别排在全部m个特征中的第i位和第j位。与特征fi排在第i位的排序结果相关联的得分为reli,与特征fj排在第j位的排序结果相关联的得分为relj,其中reli和relj的取值分别为0至m的整数。在一个示例中,上述得分rel表示排序结果与理想排序结果的一致性。例如,可以通过对m个特征进行人工排序得到理想的排序结果,并参照理想排序结果而给出得分rel的取值。例如,可以根据特征fi排在第i位的排序结果与特征fi的理想排序结果之间的一致性给出reli的0至m的取值。在这样的情况下,可以利用归一化折算累积增益(NDCG,NormalizedDiscountedCumulativeGain)的概念、基于下述公式(4)来计算特征fi与特征fj的交换成本。|ΔNDCGfifj|=|ΔNDCGfj,fi|=[discount(i)-discount(j)]*[gain(reli)-gain(relj)]*[Value(fi)-Value(fj)]/{[max(F)-min(F)]*ideal(order)}....(4)]]>在上述公式(4)中,discount(i)表示特征fi的排序标签i的折算因子,其为log(2)/log(1+i),即1/log2(1+i);discount(j)类似地表示特征fj的排序标签j的折算因子,其为1/log2(1+j)。gain(reli)表示特征fi的排序标签i的得分reli的增益,其可以为2^reli-1;gain(relj)类似地表示特征fj的排序标签j的得分relj的增益2^relj-1。另外,公式(4)中的Value(fi)和Value(fj)分别表示特征fi和特征fj在给定的原始样本组中的取值,而[max(F)-min(F)]分别表示特征集合中的最大值和最小值。公式(4)中的ideal(order)为归一化因子,其表示基于m个特征的理想排序结果的理想折算累积增益(IDCG,IdealDiscountedCumulativeGain),例如可以通过下述公式(5)来计算:Ideal(order)=Σpmdiscount(p)*gain(relp)....(5)]]>在上述公式(5)中,discount(p)表示特征fp的理想排序结果p(即,在m个特征中排在第p位)的折算因子,其为1/log2(1+p)。gain(relp)表示 特征fp的理想排序结果p的得分relp的增益,其可以为2^relp-1。由于为理想排序的情况,得分relp例如可以取最高的得分值。在一个简化形式中,上述公式(4)可以简化为下述公式(4’)|ΔNDCGfi,fj|=|ΔNDCGfj,fi|=[discount(i)-discount(j)]*[gain(reli)-gain(relj)]/ideal(order)....(4,)]]>公式(4’)中的各项表达式与公式(4)中的相应表达式含义相同,在此不再重复描述。通过利用上述公式(4)和(4’),交换成本获取子单元1031可以计算两个特征的交换成本,以供比较概率计算子单元1032针对这两个特征计算比较概率时使用。接下来将描述比较概率计算子单元1032的示例处理。在一个优选实施例中,比较概率计算子单元1032可以被配置为:在计算两个特征的比较概率时,使用该两个特征的子特征之间的差的Sigmoid函数,作为该两个特征的子特征的函数,并且通过计算所述Sigmoid函数与该两个特征之间的交换成本的乘积而计算这两个特征的比较概率。仍以给定原始样本组中的上述特征fi和特征fj作为两个特征的示例。假设子特征提取单元102已经基于该原始样本组中的原始样本而分别提取了特征fi和特征fj的子特征。在一个示例中,子特征提取单元102可以按照如以上参照图3描述的公式(1)至(3)的方式提取了特征fi和特征fj的多个子特征,特征fi和特征fj各自的多个子特征分别构成了子特征矢量,并且可以相应地表示为X(fi)和X(fj)。在这种情况下,比较概率计算子单元1032可以基于特征fi和特征fj各自的子特征矢量X(fi)和X(fj)之间的差的Sigmoid函数、以及特征fi和特征fj的交换成本,通过下述公式(6)来计算这两个特征的比较概率。在以上公式(6)中,项中的符号表示特征fi优于特征fj(或者特征fi排在特征fj之前),即比较概率pij表示特征fi优于特征fj的概率。表示此前已参照公式(4)或(4’)描述的、由交换成本获取子单元1031获取的、特征fi和特征fj的基于排序标签的交换成本,在此不再重复说明。另一方面,表示特征fi和特征fj的子特征矢量X(fi)和X(fj)之间的差的Sigmoid函数,其中Fi(X(fi))和Fj(X(fj))的含义如以下公式(7)所示:Fi(X(fi))=wi·X(fi)+bFj(X(fj))=wj·X(fj)+b…·(7)在以上公式(7)中,wi表示特征fi的子特征矢量X(fi)的待定系数(同样为矢量),wj表示特征fj的子特征矢量X(fj)的待定系数,b表示偏置,这些参数即为此前提到的要由模型确定子单元1034确定的对象。在一个示例中,初始时,比较概率计算子单元1032可以任意地设置公式(7)中的wi、wj、b的值。此后,基于比较概率计算子单元1032根据公式(6)-(7)所计算的每两个特征之间的比较概率,损失函数计算子单元1033获得特征排序模型的损失函数。接着,模型确定子单元1034改变公式(7)中的wi、wj、b的取值,以使基于根据公式(6)-(7)计算的比较概率的损失函数最小化,从而在损失函数最小化时确定上述参数wi、wj和b的值,进而确定特征排序模型的参数。接下来,将进一步描述损失函数计算子单元1033的示例处理。在一个示例中,假设比较概率计算子单元1032通过上述公式(6)-(7)获得了给定原始样本组中的特征fi和特征fj的比较概率,并以类似方式获得了全部N个原始样本组中的每个原始样本组中的每两个特征的比较概率。 那么,损失函数计算子单元1033可以基于每个原始样本组中的每两个特征的比较概率,通过以下公式(8)建立特征排序模型的损失函数:Cost=Σt=1NCostt....(8)]]>其中,Costt表示基于第t个原始样本组中的每两个特征的比较概率而建立的、针对该原始样本组的损失函数,而表示所有N个原始样本组的损失函数的和,即特征排序模型的损失函数。在比较概率计算子单元1032已计算出比较概率的情况下,损失函数计算子单元1033可以利用各种现有技术方式、基于所述比较概率而获得上述针对第t个原始样本组的损失函数Costt。以下给出对数损失函数的计算作为示例,但损失函数计算子单元1033所使用的损失函数不限于此,而是可以应用现有技术中各种合适的损失函数。在一个示例中,损失函数计算子单元1033可以使用公式(9)获得针对第t个原始样本组的对数损失函数:Costt=Σi,j=1m[-yijlog(pij)-(1-yij)log(1-pij)]....(9)]]>其中,pij可以为比较概率计算子单元1032根据上述公式(6)-(7)针对第t个原始样本组中的特征fi、fj计算的比较概率,而yij为与比较概率pij有关的0或1的值。更具体地,yij与比较概率pij存在下述公式(10)所示的关系:在上述公式(10)中,与以上参照公式(6)进行的说明类似地,中的符号表示特征fi排在特征fj之前,而中的符号表示特征fi排在特征fj之后。当损失函数计算子单元1033通过上述公式(8)-(10)计算出特征排序模型的、基于特征之间的比较概率的损失函数之后,模型确定子单元1034可以通过改变比较概率的计算中的与子特征有关的参数(即上述公 式(7)中的待定系数wi、wj和偏置b)的取值而改变特征之间的比较概率的计算结果,进而得到损失函数的最小值,并确定得到损失函数的最小值时的相关参数(例如上述公式(7)中的系数wi、wj和偏置b)的值,从而得到特征排序模型。以上参照图1至图4描述了根据本公开实施例的用于获取特征排序模型的装置的示例结构及其组成单元的示例结构和/或所进行的示例处理。利用本公开实施例的获取特征排序模型的装置,能够以将原始样本的特征视为新样本的方式,通过对N个原始样本组的处理而获得这些特征的排序标签以及这些特征的子特征,并通过基于这些排序标签和子特征进行学习而获取基于子特征的特征排序模型。因此,用于获取特征排序模型的装置10将通常仅用于原始样本的学习过程引入到特征本身的排序当中,有利于实现准确、高效的特征排序。根据本公开的另一个方面,提供了一种特征排序装置。图5是示意性地示出根据本公开实施例的特征排序装置50的示例结构的框图。如图5所示的特征排序装置50可以基于通过如以上参照图1至图4描述的装置10获得的特征排序模型来对多个待测样本的特征进行排序,所述多个待测样本中的每一个均具有多个特征,该多个特征与获得所述特征排序模型时所使用的原始样本的多个特征相对应。如图5所示,特征排序装置50可以包括:子特征提取单元501,其基于所述多个待测样本,提取所述多个特征中的每个特征的子特征;以及排序确定单元502,其利用从所述多个待测样本提取的子特征,根据所述特征排序模型,确定所述多个待测样本的所述多个特征的排序。特征排序装置50的子特征提取单元501所进行的提取子特征的处理可以包括以上参照图1至图4所描述的用于获取特征排序模型的装置10中的子特征提取单元101所进行的处理,并且可以获取相应的效果,在此不再重复描述。在一个示例中,特征排序装置50的子特征提取单元501针对输入的多个待测样本进行的处理可以对应于用于获取特征排序模型的装置10的子特征提取单元101针对一个给定原始样本组进行的处理,在此不再展开描述。另一方面,基于特征排序装置50的子特征提取单元501所提取的子特征,特征排序装置50的排序确定单元502可以将这些子特征输入到由用于获取特征排序模型的装置10获得的特征排序模型,从而确定待测样本的多个特征的排序。由于用于获取特征排序模型的装置10将通常仅用于原始样本的学习过程引入到特征本身的排序当中并获得了相应的特征排序模型,因此,利用了该特征排序模型的特征排序装置50能够实现准确、高效的特征排序。本领域技术人员可以理解,在子特征提取单元501所提取的子特征输入到特征排序模型之后,特征排序模型中针对这些子特征进行的处理可以对应于用于获取特征排序模型的装置10中的学习单元103进行的处理,区别在于前者属于模型的应用过程,后者属于模型的学习过程。由于此前已经详细描述了模型的学习过程,在此不再详细描述模型的应用过程,仅通过下述示例给出示意性说明。在一个示例中,在对特征排序模型输入特征的子特征之后,特征排序模型中针对这些子特征进行的处理可以对应于参照图4描述的学习单元103的交换成本子单元1031至模型确定子单元1034所进行的处理,这里着重描述二者的区别。在已获得的特征排序模型中,首先,例如通过公式(4)或(4’)计算每两个特征的交换成本,此时所基于的不是这两个特征的排序标签,而是这两个特征的假设排序(初始时例如可以任意地设置特征的假设排序)。接着,例如通过公式(6)-(7)计算每两个特征的比较概率,该比较概率基于上述交换成本和该两个特征的子特征的函数。此时,由于在特征排序模型中,该两个特征的子特征的函数中的参数(例如上述公式(7)中的参数wi、wj、b)已经确定,因此,所计算的比较概率中的不确定因素来自该两个特征的交换成本,即来自计算交换成本时的两个特征的假设排序。相应地,例如通过公式(9)基于上述比较概率而构建的损失函数中的不确定因素来自于特征的假设排序。因此,通过改变特征的假设排序而使该损失函数最小化,即可获得特征的最佳排序,从而获得特征排序模型的输出结果。根据本公开的另一个方面,提供了一种获取特征排序模型的方法。图6是示出了根据本公开实施例的用于获取特征排序模型的方法600的示例流程的流程图。图6示出了用于获取特征排序模型的方法600的示例流程。方法600可以基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数。如图6所示,方法600可以包括:排序标签获取步骤S601,其针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;子 特征获取步骤S603,其针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及学习步骤S605,其基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。用于获取特征排序模型的方法600及其各个步骤S601-S605可以包括以上参照图1至图4描述的用于获取特征排序模型的装置10及其相应单元101-103中进行的各种处理,并且可以获得与参照图1至图4描述的效果类似的效果,这些处理和效果的具体细节在此不再赘述。在一个优选实施例中,所述N个原始样本组是通过从T个原始样本中进行带放回的随机抽取而得到的,并且每个原始样本组包括k个原始样本,其中T、k均为自然数,并且k<<T。在一个优选实施例中,在排序标签获取步骤S601中,针对一个原始样本组获取所述多个特征的排序标签包括:为该组中的原始样本构建分裂点与所述多个特征相关的回归树,并基于所述回归树中的分裂点的重要程度来获取所述多个特征的排序标签。在一个优选实施例中,在子特征获取步骤S603中,针对一个原始样本组提取一个特征的子特征包括:基于为该组中的原始样本构建的回归树中与该特征相关的分裂点,为该特征划分多个特征区域,并提取该特征的、基于所述多个特征区域的子特征。接下来参照图7,图7是示出了根据本公开实施例的用于获取特征排序模型的方法中的学习步骤S605的示例流程的流程图。如图7所示,在一个优选实施例中,学习步骤S605中的通过学习获得所述特征排序模型可以包括:交换成本获取子步骤S6051,其针对每个原始样本组,基于该组中的原始样本,获取基于所述多个特征的所述排序标签的、所述多个特征当中的每两个特征之间的交换成本;比较概率计算子步骤S6052,其针对每个原始样本组,对于所述多个特征当中的每个两个特征,基于该组中的该两个特征之间的交换成本以及该组中的该两个特征的子特征的函数来计算该两个特征的比较概率;损失函数计算子步骤S6053,其基于针对所述N个原始样本组而各自计算的、所述多个特征当中的每两个特征之间的比较概率,计算所述特征排序模型的损失函数;以及模型确定子步骤S6054,其通过使所述损失函数最小化,确定所述特征排序模型。以上参照图7描述的学习步骤S605及其各个子步骤S6051-S6054可以包括以上参照图4描述的学习单元103的相应子单元1031-1034进行的各种处理,并且可以获得类似的效果,这些处理和效果的具体细节在此不再赘述。在一个优选实施例中,在比较概率计算子步骤S6052中,在计算两个特征的比较概率时,使用该两个特征的子特征之间的差的Sigmoid函数,作为该两个特征的子特征的函数,并且通过计算所述Sigmoid函数与该两个特征之间的交换成本的乘积而计算所述比较概率。根据本公开的另一个方面,提供了一种特征排序方法。图8是示出了根据本公开实施例的特征排序方法800的示例流程的流程图。如图8所示的特征排序方法800可以基于通过如以上参照图1至图4描述的装置10获得的特征排序模型来对多个待测样本的特征进行排序,所述多个待测样本中的每一个均具有多个特征,该多个特征与获得所述特征排序模型时所使用的原始样本的多个特征相对应。如图8所示,特征排序装置800可以包括:子特征提取步骤S801,其基于所述多个待测样本,提取所述多个特征中的每个特征的子特征;以及排序确定步骤S803,其利用从所述多个待测样本提取的子特征,根据所述特征排序模型,确定所述多个待测样本的所述多个特征的排序。特征排序方法800及其各个步骤S801-S803可以包括以上参照图5描述的特征排序装置50及其相应单元501-502中进行的各种处理,并且可以获得与参照图5描述的效果类似的效果,这些处理和效果的具体细节在此不再赘述。上述根据本公开实施例的用于获得特征排序模型的装置(例如图1所示的装置10)和特征排序装置(例如图5所示的特征排序装置50)以及其中的各个组成单元和子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成装置的各种功能。图9是示出了可用来实现根据本公开实施例的用于获得特征排序模型的装置和方法的一种可能的硬件配置的结构简图。图9的硬件配置也可用于实现根据本公开实施例的特征排序装置和方法。在图9中,中央处理单元(CPU)901根据只读存储器(ROM)902中存 储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM903中,还根据需要存储当CPU901执行各种处理等等时所需的数据。CPU901、ROM902和RAM903经由总线904彼此连接。输入/输出接口905也连接到总线904。下述部件也连接到输入/输出接口905:输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡例如LAN卡、调制解调器等)。通信部分909经由网络例如因特网执行通信处理。根据需要,驱动器910也可连接到输入/输出接口905。可拆卸介质911例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上,使得从中读出的计算机程序可根据需要被安装到存储部分908中。此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开实施例的图像处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。上述这些机器可读存储介质包括但不限于:各种存储器和存储单元, 半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。综上,在根据本公开实施例中,本公开提供了如下方案,但不限于此:方案1、一种获取特征排序模型的方法,所述方法基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数,所述方法包括:针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。方案2、如方案1所述的方法,其中,通过学习获得所述特征排序模型包括:针对每个原始样本组,基于该组中的原始样本,获取基于所述多个特征的所述排序标签的、所述多个特征当中的每两个特征之间的交换成本;针对每个原始样本组,对于所述多个特征当中的每个两个特征,基于该组中的该两个特征之间的交换成本以及该组中的该两个特征的子特征的函数来计算该两个特征的比较概率;基于针对所述N个原始样本组而各自计算的、所述多个特征当中的每两个特征之间的比较概率,计算所述特征排序模型的损失函数;以及通过使所述损失函数最小化,确定所述特征排序模型。方案3、如方案1所述的方法,其中,针对一个原始样本组获取所述多个特征的排序标签包括:为该组中的原始样本构建分裂点与所述多个特征相关的回归树,并基于所述回归树中的分裂点的重要程度来获取所述多个特征的排序标签。方案4、如方案3所述的方法,其中,针对一个原始样本组提取一个特征的子特征包括:基于为该组中的原始样本构建的回归树中与该特征相关的分裂点,为该特征划分多个特征区域,并提取该特征的、基于所述多个特征区域的子特征。方案5、如方案2所述的方法,其中,在计算两个特征的比较概率时,使用该两个特征的子特征之间的差的Sigmoid函数,作为该两个特征的子特征的函数,以及通过计算所述Sigmoid函数与该两个特征之间的交换成本的乘积而计算所述比较概率。方案6、如方案1所述的方法,其中,所述N个原始样本组是通过从T个原始样本中进行带放回的随机抽取而得到的,并且每个原始样本组包括k个原始样本,其中T、k均为自然数,并且k<<T。方案7、一种特征排序方法,其基于通过如方案1所述的方法获得的特征排序模型来对多个待测样本的特征进行排序,所述多个待测样本中的每一个均具有多个特征,该多个特征与获得所述特征排序模型时所使用的原始样本的多个特征相对应,所述特征排序方法包括:基于所述多个待测样本,提取所述多个特征中的每个特征的子特征;以及利用从所述多个待测样本提取的子特征,根据所述特征排序模型,确定所述多个待测样本的所述多个特征的排序。方案8、一种获取特征排序模型的装置,所述装置基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数,所述装置包括:排序标签获取单元,其针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;子特征提取单元,其针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及学习单元,其基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。方案9、如方案8所述的装置,其中,所述学习单元包括:交换成本获取子单元,其针对每个原始样本组,基于该组中的原始样本,获取基于所述多个特征的所述排序标签的、所述多个特征当中的每两个特征之间的交换成本;比较概率计算子单元,其针对每个原始样本组,对于所述多个特征当中的每个两个特征,基于该组中的该两个特征之间的交换成本以及该组中的该两个特征的子特征的函数来计算该两个特征的比较概率;损失函数计算子单元,其基于针对所述N个原始样本组而各自计算的、所述多个特征当中的每两个特征之间的比较概率,计算所述特征排序模型的损失函数;以及模型确定子单元,其通过使所述损失函数最小化,确定所述特征排序模型。方案10、如方案8所述的装置,其中,所述排序标签获取单元被配置为通过下述方式针对一个原始样本组获取所述多个特征的排序标签:为该组中的原始样本构建分裂点与所述多个特征相关的回归树,并基于所述回归树中的分裂点的重要程度来获取所述多个特征的排序标签。方案11、如方案10所述的装置,其中,所述子特征提取单元被配置为通过下述方式针对一个原始样本组提取一个特征的子特征:基于为该组中的原始样本构建的回归树中与该特征相关的分裂点,为该特征划分多个特征区域,并提取该特征的、基于所述多个特征区域的子特征。方案12、如方案9所述的装置,其中,所述比较概率计算子单元被配置为在计算两个特征的比较概率时,使 用该两个特征的子特征之间的差的Sigmoid函数,作为该两个特征的子特征的函数,以及所述比较概率计算子单元被配置为通过计算所述Sigmoid函数与该两个特征之间的交换成本的乘积而计算所述比较概率。方案13、如方案8所述的装置,其中,所述N个原始样本组是通过从T个原始样本中进行带放回的随机抽取而得到的,并且每个原始样本组包括k个原始样本,其中T、k均为自然数,并且k<<T。最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1