分类器用训练数据获取方法和装置、服务器及存储介质与流程

文档序号：13642273阅读：165来源：国知局

本发明涉及分类器，尤其涉及在线检索系统的查询意图分类器的训练数据获取方法和装置、服务器及存储介质。

背景技术：

商业搜索引擎(如百度、google、好搜等产品)的在线检索系统的查询意图分类器(query分类器)是进行流量分析、细化排序的关键模块。一般查询意图分类都通过人工标注训练数据训练分类器得到。当前的图片检索结果排序主要是通过图片周边文本与查询的文本相关性、以及点击累计数据等为主要特征进行排序，少有考虑图片内容和查询本身的直接相关性。人工标注成本高，而且长尾场景覆盖不足，而且无法有效地广泛地与图像内容做匹配。

技术实现要素：

本发明鉴于现有技术的上述问题提出，用于克服或缓解现有技术存在的一个或更多个问题，至少提供一种有益的选择。

为了实现以上的目的，根据本发明的一个方面，提供了一种分类器用训练数据获取方法，包括以下步骤：图片检索意图获得步骤，根据用户输入获得图片检索意图；图片提供步骤，根据所述图片检索意图向用户提供展示图片；类别对应步骤，根据用户对所述图片的选择，确定所述图片检索意图与对应的图片实体分类类别对。

根据一种实施方式，所述方法还包括汇聚步骤，对所述类别对应步骤多次运行所获得的所述图片检索意图与对应的图片实体分类类别对进行汇聚，获得所述图片检索意图与对应的图片实体分类类别对组。

根据一种实施方式，所述方法还包括以下两个步骤之一或两者：点击过滤步骤，去掉所述用户对图片的不可信点击；所述类别对应步骤根据去掉不可信点击后的对图片的选择，确定所述图片检索意图对应的图片实体分类类别；评估步骤，对所获得的所述图片检索意图与对应的图片实体分类类别对组或所述图片检索意图与对应的图片实体分类类别对进行评估。

根据一种实施方式，所述图片检索意图与对应的图片实体分类类别对组包含与所述图片检索意图对应的各图片实体分类类别的占比。

根据一种实施方式，所述点击过滤步骤采用以下采用点击率分析法、视觉实体分类法、聚类分析法三种方法之一或其组合来进行，所述点击过滤步骤采用点击率分析法、视觉实体分类法、聚类分析法三种方法之一或其组合来进行，所述点击率分析法根据点击总数和/或点击比例来区分可信点击和不可信点击；所述聚类分析法对所点击的图片进行聚类，将针对图片数、或图片数与最多聚类的图片数的差和/或比值未满足预定条件的聚类图片的点击列为不可信点击；所述视觉实体分类法根据所点击的图片的视觉实体分类，将针对数目、或数目与最多视觉实体分类的图片数的差和/或比例未满足预定条件的图片的点击列为不可信点击。

根据本发明的另一方面，提供了一种分类器用训练数据获取装置，包括：图片检索意图获取单元，根据用户输入获得图片检索意图；图片提供单元，根据所述图片检索意图向用户提供展示图片；类别对应单元，根据用户对所述图片的选择，确定所述图片检索意图与对应的图片实体分类类别对。

根据一种实施方式，所述方法还包括汇聚单元，对所述类别对应单元所获得的多个所述图片检索意图与对应的图片实体分类类别对进行汇聚，获得所述图片检索意图与对应的图片实体分类类别对组。

根据一种实施方式，所述装置还包括以下两个单元之一或两者：点击过滤单元，去掉所述用户对图片的不可信点击；所述类别对应单元根据去掉不可信点击后的对图片的选择，确定所述图片检索意图对应的图片实体分类类别；评估单元，对所获得的所述图片检索意图与对应的图片实体分类类别对组或所述图片检索意图与对应的图片实体分类类别对进行评估。

根据一种实施方式，所述点击过滤单元采用以下采用点击率分析法、视觉实体分类法、聚类分析法三种方法之一或其组合来进行，所述点击过滤步骤采用点击率分析法、视觉实体分类法、聚类分析法三种方法之一或其组合来进行，所述点击率分析法根据点击总数和/或点击比例来区分可信点击和不可信点击；所述聚类分析法对所点击的图片进行聚类，将针对图片数、或图片数与最多聚类的图片数的差和/或比值未满足预定条件的聚类图片的点击列为不可信点击；所述视觉实体分类法根据所点击的图片的视觉实体分类，将针对数目、或数目与最多视觉实体分类的图片数的差和/或比例未满足预定条件的图片的点击列为不可信点击。

根据本发明的又一方面，提供了一种图片检索服务器，所述图片检索服务器包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所要求权利的方法。

根据本发明的在一方面提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现所要求权利的任一方法。

根据本发明的实施方式，可以获得更多的高质量训练数据，有助于分类器性能的提高。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1是示出了依据本发明的一种实施方式的分类器用训练数据获取方法的示意性流程图。

图2示出了依据本发明的一种实施方式的分类器用训练数据获取装置的示意性方框图。

图3示出了依据本发明的另一种实施方式的分类器用训练数据获取装置的示意性方框图。

图4示出了依据本发明的另一种实施方式的图片检索服务器的示意性方框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1是示出了依据本发明的一种实施方式的分类器用训练数据获取方法的示意性流程图。如图1所示，依据本发明的一种实施方式，首先在步骤s101，获得检索意图表达，这可以从用户所使用的计算机接收用户的输入而获得，用户对检索意图的表达通常是文本。例如可以是在搜索框中输入的文字、表情。用户也可能通过对网页中的文字、表情或图像的双击等操作，也可能是语音的输入等来进行检索表达。在步骤s101，根据用户的输入获得检索意图表达。在步骤s101中，可能会包括对检索意图表达的一些处理，例如去掉空格，进行图像、音频到文本的转换等。

然后在步骤s102，根据所获得的检索意图表达向用户提供展示图片。在检索系统中匹配文本对应的图片提供展示给用户。展示图片例如可通过发送给接收用户输入的计算机而进行提供。

接着，在步骤s103，进行点击过滤。过滤掉不可信的点击。根据一种实施方式，这种不可信的点击的过滤采用点击率分析法，点击率分析法即根据点击总数、点击比例来区分可信点击和误点击作弊等不可信点击。可以参见以下的文献：

learningqueryanddocumentrelevancefromaweb-scaleclickgraph

sjiang,yhu,ckang,tdalyjr,dyin…-proceedingsofthe39th…,2016-dl.acm.org

根据另一种实施方式，首先是将用户针对该检索意图表达而点击的图像进行聚类，根据聚类的结果，将数量少于阈值的点击列为不可信点击。或者将与数量组大的聚类的差值/比值大于阈值的点击列为不可信点击。例如：如果输入的检索意图表达是“猫女图片”，客户共点击了10张图片，其中九张是与蝙蝠侠电影中的猫女侠形象类似的图片，一张是一张猫的图片，那么聚类之后，第一聚类有9张图片，第二聚类有一张图片。第二聚类的数量是第一聚类的九分之一，超过阈值(例如15％)，因而将第二聚类的点击列为不可信点击。这种方法可以称为聚类分析法。根据又一种实施方式，所显示的图片的属性中设置有视觉实体分类类别。例如猫、狗、人物、树木、花草、太阳、月亮。也可以有更进一步的分类，例如人物下面可能有男性、女性、小孩、老人、少女、学生等按照不同分类获得的子类别。根据这些类别对所点击的图像进行分类，例如上例中，所点击的10张图片中，9张是属于人物的，一张属于动物或猫狗，因而根据各类别的差异，例如将与最多数量类别的数量差或数量比例大于阈值的列为无效点击，从而将对猫的点击列为无效点击。这类方法可以称为视觉实体分类法。聚类分析法和视觉实体分类法可以采用其他的预定条件来判断是否是不可信点击，将对满足预定条件的图片的点击列为可信点击，将对不满足预定条件的图片的点击列为不可信点击。应该注意，在一些实施方式中，可以省略该点击过滤步骤。

接着在步骤s104，获得检索意图表达与图片视觉实体类别的对应关系对。在去除无效点击后，检索意图表达会与用户基于该检索意图表达所点击的图片的类别对应起来，该类别例如可能是聚类获得的，或者是之前对每个图片标注的(已经事先写入图片的属性)。例如在上面的例子中，可以获得<猫女图片，猫女侠类>的对应关系对。这些图片的类别，称为视觉实体类别。视觉实体类别可以采用已有的图像识别模型来计算获得(例如可以参见a.berg,j.deng,andl.fei-fei.largescalevisualrecognitionchallenge2010.imagenet.org.2010.)。可以预先获得各图片的视觉实体类别写入其属性。

单张图片可以具有在视觉实体类别分类体系(假设1000类)上的分布，例如一张图片指向1000类上其中的[雷、雨]，另一张1000类指向【话剧】，每个图片都是一个分布，在1000类的某几类上可能性更高。

然后，在步骤s105，对从步骤104所获得大量的检索意图表达与图片类别的对应关系对进行汇聚，得到汇聚后的检索意图表达与图片视觉实体类别的对应关系对组。因为步骤101到步骤104是大量进行的，不同的用户可能会选择不同的图片，因而汇聚后，相同的检索意图表达会与不同的图片类别对应。例如“雷雨图片”的检索意图表达，第一个用户选择的图片可能均是对应于自然的雷雨，而第二个用户选择图片可能都是和话剧的雷雨相关。这样通过大数据的汇聚可以得到汇聚后的检索意图表达与图片视觉实体类别的对应关系对组。例如，<雷雨图片，自然雷雨类75％，话剧雷雨类25％>。这里的75％、25％是与图片检索意图对应的各图片实体分类类别的可能性占比。例如总计收集了100例的与图片检索意图<雷雨图片>对应的类别，其中自然雷雨类为75例，话剧雷雨为25例，则汇聚后可以得到以上的结果。如前所述，单张图片会有在图片视觉实体分类上的分布，进行汇聚以后，也会得到一个分布，在某几类上比较强。这些数值都是示例性的，不是对本发明保护范围的限制。

可以直接使用在步骤s104获得的检索意图表达与图片视觉实体类别的对应关系对作为训练数据，因而在一些实施方式中，可以省略这个步骤s105。但是采用步骤s105会使训练样本更好。

最后，在步骤s106对所获得的对应关系对组进行评估。在省略步骤s105的实施方式中，对所获得的对应关系对进行评估。例如可以抽取训练数据来检查是否准确，例如用户图片检索意图文本是否有对应分类需求，评估得到准确率。如果准确率低于阈值，则舍弃该对应对组。可以再次进行分类。评估结果令人满意的对应关系对(组)作为分类器的训练数据。

这些训练数据，可以用于现有技术的各种分类器。由于采用本发明实施例的方法可以得到更多的训练数据，而且作为训练数据的检索意图表达与图片视觉实体类别的对应关系对组实际上体现了图片内容和检索意图本身的直接相关性，因而可以直接计算文本图片检索意图和图片的视觉实体需求匹配相关性，这样的直接相关性应用于图片检索排序中，带来显著的相关性提升，能明显补充已有主要基于文本的图片排序系统。

下面结合附图对本发明的各实施方式的分类器用训练数据获取装置进行说明。前文对方法的说明可以用来理解本发明的各实施方式的分类器用训练数据获取装置。

图2示出了依据本发明的一种实施方式的分类器用训练数据获取装置的示意性方框图。如图2所示，依据本发明的一种实施方式，分类器用训练数据获取装置包括检索意图表达获取单元201、图片提供单元202以及类别对应单元203。

检索意图表达获取单元201获得检索意图表达，这可以从用户所使用的计算机等用户设备接收用户的输入而获得。用户对检索意图的表达通常是文本。例如可以是在搜索框中输入的文字、表情。用户也可能通过对网页中的文字、表情或图像的双击等操作，也可能是语音的输入等来进行检索表达。检索意图表达获取单元201根据用户的输入获得检索意图表达。检索意图表达获取单元201可能会对检索意图表达的一些处理，例如去掉空格，进行图像、音频到文本的转换等。

图片提供单元202根据检索意图表达获取单元201所获得的图片检索意图向用户提供展示图片；在检索系统中匹配文本对应的图片，提供展示给用户。展示图片例如可通过发送给接收用户输入的计算机而进行提供。

类别对应单元203根据用户对所述图片的选择，确定所述图片检索意图与对应的图片实体分类类别对。

图3示出了依据本发明的另一种实施方式的分类器用训练数据获取装置的示意性方框图。

如图3所示，与对图2所示的实施方式的分类器用训练数据获取装置相比，图3所示的实施方式的分类器用训练数据获取装置增加了点击过滤单元204、汇聚单元205以及评估单元206。检索意图表达获取单元201、图片提供单元202以及类别对应单元203可参见结合图2进行的描述。

点击过滤单元204过滤掉不可信的点击。这种不可信的点击的过滤采用点击率分析法、视觉实体分类法或聚类分析法。可以把这些方法综合运用。

汇聚单元205对类别对应单元多次获得的图片检索意图与对应的图片实体分类类别对进行汇聚，获得所述图片检索意图与对应的图片实体分类类别对组。

评估单元206对所获得的所述图片检索意图与对应的图片实体分类类别对组进行评估。

具体的实施方式不一定要求同时具备点击过滤单元204、汇聚单元205以及评估单元206三者，可以只具有其中之一或其中两者。在不采用汇聚单元的情况下，评估单元206对所获得的所述图片检索意图与对应的图片实体分类类别对进行评估。

尽管依据本发明的实施方式所获得的这些训练数据可以用于现有技术的各种分类器，但是优选地，分类器采用可以深度卷积神经网络训练分类模型将图片检索意图分类到n维视觉实体需求类别上。

卷积网络在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，只要用已知的模式对卷积网络加以训练，网络就具有输入输出对之间的映射能力。卷积网络执行的是有导师训练，所以其样本集是由形如：(输入向量，理想输出向量)的向量对构成的。所有这些向量对，都应该是来源于网络即将模拟的系统的实际“运行”结果。它们可以是从实际运行系统中采集来的。在开始训练前，所有的权都应该用一些不同的小随机数进行初始化。“小随机数”用来保证网络不会因权值过大而进入饱和状态，从而导致训练失败；“不同”用来保证网络可以正常地学习。关于深度卷积神经网络训练分类模型的进一步说明可以参见：《卷积神经网络在图像识别上的应用研究》，2012，硕论，浙江大学；《卷积神经网络的研究与应用》，2013，硕论，南京林业大学；《卷积神经网络及其应用》，2014，硕论，大连理工大学；《基于卷积神经网络的深度学习算法与应用研究》，2014，硕论，浙江工商大学等。

在图片检索系统中，可以首先进行特征设计与网络结构调制，然后训练分类器，如果分类器效果令人满意则可以结束对分类器的训练，如果分类器效果不满意，则可重复特征设计与网络结构调制以及训练分类器等步骤，直到令人满意。

本发明实施方式所提供的技术方案框架可以迁移应用于所有垂类和通用的搜索引擎系统。

本发明实施例还提供了一种图片检索服务器，如图4所示，图片检索服务器包括：存储器21和处理器22，存储器21内存储有可在处理器22上运行的计算机程序。处理器22执行所述计算机程序时实现上述实施例中的分类器用训练数据获取方法。存储器21和处理器22的数量可以为一个或多个。

该设备还包括：

通信接口23，用于存储器21和处理器22之间的通信。

存储器21可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器21、处理器22和通信接口23独立实现，则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(isa，industrystandardarchitecture)总线、外部设备互连(pci，peripheralcomponent)总线或扩展工业标准体系结构(eisa，extendedindustrystandardcomponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器21、处理器22及通信接口23集成在一块芯片上，则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李肃;付立波
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。