层次类目预测方法、装置、设备和介质与流程

文档序号:31049338发布日期:2022-08-06 06:22阅读:128来源:国知局
层次类目预测方法、装置、设备和介质与流程

1.本技术涉及人工智能技术领域,特别是涉及一种层次类目预测方法、装置、设备和介质。


背景技术:

2.层次分类,是指从含义较广的上位类细分到下位类再一步步细分,直至比较专指的类目的等级式分类方法。对特定行业的数据进行层次分类,可形成针对该行业的、且包括多个层次类目的层次类目树。目前,很多业务中都需要先识别出用户所输入的行业文本所属的层次类目,进而再基于识别的层次类目进行相关的业务处理。
3.传统技术中,主要通过多层级多标签分类模型(即,hmcn,hierarchical multi-label classification networks)来实现层次类目的预测。但是,由于hmcn模型中的分类层是基于层次类目树中各个层级对应设计的,即层次类目树中的每个层级对应hmcn模型中的一个分类器,每个分类器对应的各个类别与层次类目树中相应层级的具体标签相对应。因此,这样设计的预测模型容易出现漏召回的问题,从而导致层次类目的预测准确率较低。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提升层次类目的预测准确率的层次类目预测方法、装置、设备和介质。
5.第一方面,本技术提供了一种层次类目预测方法,所述方法包括:预测搜索文本分别在多个预设标签类别下对应的具体标签,得到预测标签集合;所述多个预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的;所述层次类目树中包括至少一个层次类目;从针对所述层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于所述预测标签集合的目标标签集合;每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到;确定与所述目标标签集合对应的层次类目,得到所述搜索文本相匹配的目标层次类目。
6.第二方面,本技术提供了一种层次类目预测装置,所述装置包括:预测模块,用于预测搜索文本分别在多个预设标签类别下对应的具体标签,得到预测标签集合;所述多个预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的;所述层次类目树中包括至少一个层次类目;确定模块,用于从针对所述层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于所述预测标签集合的目标标签集合;每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到;确定与所述目标标签集合对应的层次类目,得到所述搜索文本相匹配的目标层次类目。
7.在一个实施例中,每个预设标签类别分别设置有对应的分类网络层;所述预测模
块还用于通过每个预设标签类别对应的分类网络层,预测所述搜索文本在每个预设标签类别下对应的具体标签;根据预测的各预设标签类别下对应的具体标签,确定预测标签集合。
8.在一个实施例中,每个所述分类网络层包括至少一个全连接层;所述预测模块还用于获取搜索文本对应的初始文本语义特征;针对每一个预设标签类别,通过所述预设标签类别对应的所述至少一个全连接层,对所述初始文本语义特征进行特征处理,得到所述预设标签类别对应的目标文本语义特征;根据各个预设标签类别对应的目标文本语义特征,预测所述搜索文本在每个预设标签类别下对应的具体标签。
9.在一个实施例中,所述分类网络层是已训练的层次类目预测模型中的网络层;所述层次类目预测模型还包括编码网络层;所述预测模块还用于将所述搜索文本输入所述编码网络层,以通过所述编码网络层对所述搜索文本进行编码,得到搜索文本对应的初始文本语义特征。
10.在一个实施例中,所述分类网络层是已训练的层次类目预测模型中的网络层;所述层次类目预测模型还包括类目映射网络层;所述确定模块还用于将所述预测标签集合输入至所述类目映射网络层,以通过所述类目映射网络层从针对所述层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于所述预测标签集合的目标标签集合;通过所述类目映射网络层,确定与所述目标标签集合对应的层次类目,得到所述搜索文本相匹配的目标层次类目。
11.在一个实施例中,所述分类网络层是已训练的层次类目预测模型中的网络层;所述装置还包括:训练模块,用于获取样本搜索文本,以及获取所述样本搜索文本在各个所述预设标签类别下分别对应的参考具体标签;通过待训练的层次类目预测模型中的、且与各个预设标签类别分别对应的分类网络层,预测所述样本搜索文本分别在所述各个预设标签类别下对应的预测具体标签;根据所述预测具体标签与所述参考具体标签之间的差异,对所述分类网络层进行训练。
12.在一个实施例中,所述训练模块还用于针对每一个预设标签类别,根据所述预设标签类别对应的预测具体标签与所述预设标签类别对应的参考具体标签之间的差异,确定所述预设标签类别对应的损失;对各个预设标签类别分别对应的损失进行加权处理,得到目标损失;通过所述目标损失对所述分类网络层进行训练。
13.在一个实施例中,所述层次类目中各层级下的具体标签包括至少一个子标签;所述确定模块还用于针对所述层次类目树中的每一个层次类目,将所述层次类目中各层级对应的各个子标签进行组合,得到针对所述层次类目设置的候选标签集合。
14.在一个实施例中,针对每一个层次类目对应设置的候选标签集合的数量为至少一个;每一个层次类目与针对所述层次类目对应设置的候选标签集合之间具有映射关系;所述映射关系记录于类目映射文件中;所述确定模块还用于遍历所述类目映射文件中记录的层次类目;针对每一个层次类目,遍历与所述层次类目具有映射关系的各个候选标签集合,以从所述各个候选标签集合中,确定包含于所述预测标签集合的目标标签集合。
15.在一个实施例中,所述类目映射文件包括类目映射表;所述类目映射表中的每一行,分别用于记录每一个层次类目和与所述层次类目具有映射关系的各个候选标签集合;所述确定模块还用于遍历所述类目映射表中的每一行,以遍历所述每一行中所记录的层次
类目。
16.在一个实施例中,针对每一个层次类目对应设置的候选标签集合的数量为至少一个;所述确定模块还用于确定与所述目标标签集合对应的层次类目,对确定的各个层次类目进行去重,并将去重后得到的层次类目作为所述搜索文本相匹配的目标层次类目。
17.在一个实施例中,所述装置还包括:推荐模块,用于获取与所述目标层次类目相匹配的信息对象,并对所述信息对象进行推荐处理。
18.第三方面,本技术提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现本技术各方法实施例中的步骤。
19.第四方面,本技术提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现本技术各方法实施例中的步骤。
20.第五方面,本技术提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本技术各方法实施例中的步骤。
21.上述层次类目预测方法、装置、设备、介质和计算机程序产品,通过预测搜索文本分别在多个预设标签类别下对应的具体标签,可以得到包含各个预设标签类别下分别对应的具体标签的预测标签集合。多个预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的,层次类目树中包括至少一个层次类目。从针对层次类目树中各层次类目分别对应设置的候选标签集合中,可以确定包含于预测标签集合的目标标签集合,由于每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到的,因此,各个候选标签集合可以与更多的层次类目具有对应关系。进而通过确定与目标标签集合对应的层次类目,可以得到搜索文本相匹配的目标层次类目,降低了漏召回的可能性,从而提升了针对搜索文本的层次类目的预测准确率。
附图说明
22.图1为一个实施例中层次类目预测方法的应用环境图;图2为一个实施例中层次类目预测方法的流程示意图;图3为一个实施例中生成预测标签集合的步骤的流程示意图;图4为传统的层次类目预测方法的模型结构框图;图5为一个实施例中本技术的层次类目预测模型的模型结构框图;图6为另一个实施例中层次类目预测方法的流程示意图;图7为一个实施例中层次类目预测装置的结构框图;图8为另一个实施例中层次类目预测装置的结构框图;图9为一个实施例中计算机设备的内部结构图;图10为另一个实施例中计算机设备的内部结构图。
具体实施方式
23.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
24.本技术提供的层次类目预测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
25.服务器104可预测搜索文本分别在多个预设标签类别下对应的具体标签,得到预测标签集合;多个预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的;层次类目树中包括至少一个层次类目。服务器104可从针对层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于预测标签集合的目标标签集合;每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到。服务器104可确定与目标标签集合对应的层次类目,得到搜索文本相匹配的目标层次类目。
26.可以理解,终端102可以获取搜索文本,并将搜索文本发送至服务器104,服务器104可预测搜索文本分别在多个预设标签类别下对应的具体标签,得到预测标签集合。服务器也可将预测得到的目标层次类目发送至终端102,由终端102根据目标层次类目进行相应的业务处理。本实施例对此不做限定,可以理解,图1中的应用场景仅为示意说明,并不限定于此。
27.需要说明的是,本技术一些实施例中的层次类目预测方法使用到了人工智能技术。比如,搜索文本分别在多个预设标签类别下对应的具体标签,则属于使用人工智能技术预测得到的标签。此外,本技术中的目标标签集合和目标层次类目,也是使用人工智能技术确定得到的。
28.在一个实施例中,如图2所示,提供了一种层次类目预测方法,该方法可应用于计算机设备,计算机设备可以是终端或服务器,由终端或服务器自身单独执行,也可以通过终端和服务器之间的交互来实现。本实施例以该方法应用于计算机设备为例进行说明,包括以下步骤:步骤202,预测搜索文本分别在多个预设标签类别下对应的具体标签,得到预测标签集合;多个预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的;层次类目树中包括至少一个层次类目。
29.其中,搜索文本是用户输入的用于搜索的文本。多个预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的,可以理解,预设标签类别,是预设的层次类目树中各层级下的各个具体标签所分别归属的标签类别,即,预设标签类别也是根据层次类目树中各层级下的具体标签预设设置得到的。层次类目树中包括至少一个层次类目,每个层次类目包括至少一个层级,每个层级下的具体标签的数量为至少一个。预测标签集合中包括搜索文本分别在多个预设标签类别下对应的各个具体标签。
30.为便于理解,现举例说明,比如,针对教育行业的预设标签类别具体可包括“教育
阶段”、“内容”和“细分年级”。针对教育行业所设置的层次类目树中所包括的其中一个层次类目,具体可以是“教育_中学_初中辅导_语文_初二”。其中,该层次类目共包括五个层级,第一个层级下的具体标签为“教育”,第二个层级下的具体标签为“中学”,第三个层级下的具体标签为“初中辅导”,第四个层级下的具体标签为“语文”,第五个层级下的具体标签为“初二”。可以理解,具体标签“中学”所归属的预设标签类别为“教育阶段”,具体标签“语文”所归属的预设标签类别为“内容”,具体标签“初二”所归属的预设标签类别为“细分年级”。
31.再比如,若搜索文本为“2021xxx市初二语文质检答案”,针对该搜索文本分别在“教育阶段”、“内容”和“细分年级”这三个预设标签类别下对应的具体标签分别是“空”、“语文”和“初二”,则该搜索文本对应的预测标签集合为“初二#语文”。
32.在一个实施例中,针对教育行业的预设标签类别和具体标签的对应关系可如下表1所示。
33.表1由上表1可知,“教育阶段”这个预设标签类别下的具体标签的数量为17个,“内容”这个预设标签类别下的具体标签的数量为140个,“细分年级”这个预设标签类别下的具体标签的数量为12个。
34.具体地,计算机设备可获取搜索文本,并对该搜索文本进行标签预测,得到该搜索文本分别在多个预设标签类别下对应的具体标签,进而,根据预测得到的各个具体标签,得到该搜索文本对应的预测标签集合。可以理解,该预测标签集合中包括预测得到的各个具体标签。
35.在一个实施例中,每个预设标签类别分别设置有对应的分类器。计算机设备可通过每个预设标签类别对应的分类器,预测搜索文本在每个预设标签类别下对应的具体标签。进而,计算机设备可根据预测得到的各个具体标签,得到该搜索文本对应的预测标签集合。
36.在一个实施例中,搜索文本具体可以是短文本或长文本中的至少一种。
37.步骤204,从针对层次类目树中各层次类目分别对应设置的候选标签集合中,确定
包含于预测标签集合的目标标签集合;每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到。
38.其中,针对层次类目树中的每一个层次类目所设置的候选标签集合的数量为至少一个。每一个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到。目标标签集合,是从各个候选标签集合中筛选出来的、且包含于预测标签集合的候选标签集合。可以理解,目标标签集合是预测标签集合的子集。还可以理解,由于包含于预测标签集合的候选标签集合的数量为至少一个,因此,确定得到的目标标签集合的数量也为至少一个。
39.每一个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到。为便于理解,现举例说明,若层次类目为“教育_中学_初中辅导_语文数学英语_初二”,则根据层次类目中的具体标签进行组合得到的候选标签集合可包括:“初二#语文”、“初二#数学”和“初二#英语”。若搜索文本对应的预测标签集合为“初二#语文#数学”,则包含于该预测标签集合的目标标签集合为“初二#语文”、“初二#数学”,可以理解,候选标签集合“初二#语文”和“初二#数学”是预测标签集合“初二#语文#数学”的子集。
40.具体地,针对层次类目树中的每一个层次类目,计算机设备可针对该层次类目对应设置至少一个候选标签集合。进而,计算机设备可从针对层次类目树中各层次类目分别对应设置的候选标签集合中,确定出包含于预测标签集合的目标标签集合,即,计算机设备可从各个候选标签集合中,筛选出属于预测标签集合的子集的候选标签集合,作为目标标签集合。
41.在一个实施例中,计算机设备可遍历层次类目树中所包括的每一个层次类目。由于每一个层次类目可对应设置有至少一个候选标签集合,因此,针对每一个层次类目,计算机设备可遍历该层次类目对应的各个候选标签集合,以从该层次类目对应的各个候选标签集合,筛选出包含于预测标签集合的目标标签集合。
42.步骤206,确定与目标标签集合对应的层次类目,得到搜索文本相匹配的目标层次类目。
43.其中,目标层次类目,是层次类目树所包括的各个层次类目中的、且与目标标签集合对应的层次类目。可以理解,由于确定得到的目标标签集合的数量也为至少一个,因此,与目标标签集合对应的层次类目的数量也为至少一个,即得到的与搜索文本相匹配的目标层次类目的数量也为至少一个。
44.具体地,计算机设备可从层次类目树所包括的各个层次类目中,筛选出与目标标签集合对应的层次类目,并根据筛选出来的各个层次类目,确定与搜索文本相匹配的目标层次类目。
45.在一个实施例中,计算机设备可直接将筛选出来的各个层次类目,作为与搜索文本相匹配的目标层次类目。
46.在一个实施例中,计算机设备可从筛选出来的各个层次类目中,再选择出至少一个层次类目作为与搜索文本相匹配的目标层次类目。
47.上述层次类目预测方法中,通过预测搜索文本分别在多个预设标签类别下对应的具体标签,可以得到包含各个预设标签类别下分别对应的具体标签的预测标签集合。多个预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的,层次类目树中包括至少一个层次类目。从针对层次类目树中各层次类目分别对应设置的候选标签集合中,
可以确定包含于预测标签集合的目标标签集合,由于每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到的,因此,各个候选标签集合可以与更多的层次类目具有对应关系。进而通过确定与目标标签集合对应的层次类目,可以得到搜索文本相匹配的目标层次类目,降低了漏召回的可能性,从而提升了针对搜索文本的层次类目的预测准确率。
48.在一个实施例中,每个预设标签类别分别设置有对应的分类网络层。如图3所示,预测搜索文本分别在多个预设标签类别下对应的具体标签,得到预测标签集合,包括:步骤302,通过每个预设标签类别对应的分类网络层,预测搜索文本在每个预设标签类别下对应的具体标签。
49.具体地,每个预设标签类别分别设置有对应的分类网络层。计算机设备可通过每个预设标签类别对应的分类网络层,对搜索文本进行标签预测,得到搜索文本在每个预设标签类别下对应的具体标签。
50.在一个实施例中,计算机设备可获取搜索文本对应的文本语义特征,并将该文本语义特征分别输入至各个预设标签类别分别对应的分类网络层,已通过分类网络层对该文本语义特征进行特征处理,并根据处理后得到的特征,预测出搜索文本在每个预设标签类别下对应的具体标签。
51.步骤304,根据预测的各预设标签类别下对应的具体标签,确定预测标签集合。
52.具体地,计算机设备可根据预测的各预设标签类别下对应的具体标签,生成预测标签集合。可以理解,预测标签集合中包括预测得到的各个具体标签。
53.上述实施例中,通过给每个预设标签类别分别设置对应的分类网络层,每一个分类网络层负责相对应预设标签类别下的具体标签的分类预测,可以提升各预设标签类别下对应的具体标签的预测准确率,从而便可进一步提升层次类目的预测准确率。
54.在一个实施例中,每个分类网络层包括至少一个全连接层;通过每个预设标签类别对应的分类网络层,预测搜索文本在每个预设标签类别下对应的具体标签,包括:获取搜索文本对应的初始文本语义特征;针对每一个预设标签类别,通过预设标签类别对应的至少一个全连接层,对初始文本语义特征进行特征处理,得到预设标签类别对应的目标文本语义特征;根据各个预设标签类别对应的目标文本语义特征,预测搜索文本在每个预设标签类别下对应的具体标签。
55.其中,初始文本语义特征,是搜索文本对应的初始的文本语义特征。目标文本语义特征,是对初始文本语义特征进行进一步的特征处理后得到的文本语义特征。
56.具体地,每个分类网络层包括依次连接的至少一个全连接层。计算机设备可获取搜索文本对应的初始文本语义特征,针对每一个预设标签类别,计算机设备可将初始文本语义特征输入至依次连接的各个全连接层的第一个连接层,以通过预设标签类别对应的依次连接的各个全连接层,对初始文本语义特征进行逐层的特征处理,进而由各个全连接层的最后一个连接层输出预设标签类别对应的目标文本语义特征。计算机设备可根据各个预设标签类别对应的目标文本语义特征,预测搜索文本在每个预设标签类别下对应的具体标签。
57.在一个实施例中,计算机设备可获取搜索文本,并对搜索文本进行编码,得到初始文本语义特征。在另外一个实施例中,计算机设备可从其他第三方设备直接获取搜索文本
对应的初始文本语义特征。
58.上述实施例中,通过给每个分类网络层设置包括至少一个的全连接层,并通过这些全连接层,对搜索文本对应的初始文本语义特征进行特征处理,可以得到更好的目标文本语义特征,从而根据目标文本语义特征,预测搜索文本在每个预设标签类别下对应的具体标签,可以进一步提升具体标签的预测准确率,从而便可进一步提升层次类目的预测准确率。
59.在一个实施例中,分类网络层是已训练的层次类目预测模型中的网络层;层次类目预测模型还包括编码网络层;获取搜索文本对应的初始文本语义特征,包括:将搜索文本输入编码网络层,以通过编码网络层对搜索文本进行编码,得到搜索文本对应的初始文本语义特征。
60.具体地,分类网络层是已训练的层次类目预测模型中的网络层,该层次类目预测模型还包括编码网络层。计算机设备可获取搜索文本,并将搜索文本输入至编码网络层,以通过编码网络层对搜索文本进行编码,得到搜索文本对应的初始文本语义特征。
61.上述实施例中,通过编码网络层对搜索文本进行编码,可以得到搜索文本对应的初始文本语义特征,提升针对搜索文本的编码准确率。
62.在一个实施例中,分类网络层是已训练的层次类目预测模型中的网络层;层次类目预测模型还包括类目映射网络层;从针对层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于预测标签集合的目标标签集合,包括:将预测标签集合输入至类目映射网络层,以通过类目映射网络层从针对层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于预测标签集合的目标标签集合;确定与目标标签集合对应的层次类目,得到搜索文本相匹配的目标层次类目,包括:通过类目映射网络层,确定与目标标签集合对应的层次类目,得到搜索文本相匹配的目标层次类目。
63.具体地,分类网络层是已训练的层次类目预测模型中的网络层,该层次类目预测模型还包括类目映射网络层。计算机设备可通过层次类目预测模型中每个预设标签类别对应的分类网络层,预测搜索文本在每个预设标签类别下对应的具体标签,并根据预测的各预设标签类别下对应的具体标签,确定预测标签集合。计算机设备可将预测标签集合输入至层次类目预测模型中的类目映射网络层,以通过类目映射网络层从针对层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于预测标签集合的目标标签集合,并确定与目标标签集合对应的层次类目,得到搜索文本相匹配的目标层次类目。
64.上述实施例中,通过类目映射网络层从针对层次类目树中各层次类目分别对应设置的候选标签集合中,可以准确地确定出包含于预测标签集合的目标标签集合,以及准确地确定出与目标标签集合对应的层次类目,从而得到搜索文本相匹配的目标层次类目,提升了针对搜索文本的层次类目的预测准确率。
65.在一个实施例中,分类网络层是已训练的层次类目预测模型中的网络层;层次类目预测方法还包括:获取样本搜索文本,以及获取样本搜索文本在各个预设标签类别下分别对应的参考具体标签;通过待训练的层次类目预测模型中的、且与各个预设标签类别分别对应的分类网络层,预测样本搜索文本分别在各个预设标签类别下对应的预测具体标签;根据预测具体标签与参考具体标签之间的差异,对分类网络层进行训练。
66.其中,样本搜索文本,是用于训练层次类目预测模型的搜索文本。参考具体标签,
是预先针对样本搜索文本标注的、且用于训练层次类目预测模型的具体标签。预测具体标签,是在训练层次类目预测模型的过程中所预测得到的具体标签。
67.具体地,计算机设备可获取样本搜索文本,以及获取样本搜索文本在各个预设标签类别下分别对应的参考具体标签。计算机设备可将样本搜索文本输入至待训练的层次类目预测模型中,以通过待训练的层次类目预测模型中的、且与各个预设标签类别分别对应的分类网络层,预测样本搜索文本分别在各个预设标签类别下对应的预测具体标签。计算机设备可确定预测具体标签与参考具体标签之间的差异,并根据预测具体标签与参考具体标签之间的差异,对分类网络层进行训练,得到已训练的层次类目预测模型中的网络层。其中,该已训练的层次类目预测模型中包括已训练的分类网络层。
68.在一个实施例中,针对每一个预设标签类别,根据该预设标签类别对应的预测具体标签与该预设标签类别对应的参考具体标签之间的差异,确定该预设标签类别对应的损失。进而,计算机设备可根据各个预设标签类别分别对应的损失,对分类网络层进行训练,得到已训练的层次类目预测模型中的网络层。其中,该已训练的层次类目预测模型中包括已训练的分类网络层。
69.上述实施例中,通过与各个预设标签类别分别对应的分类网络层预测得到的预测具体标签,与样本搜索文本在各个预设标签类别下分别对应的参考具体标签之间的差异,对分类网络层进行训练,可以提升对分类网络层的训练效果,从而获得预测准确率更高的层次类目预测模型。
70.在一个实施例中,根据预测具体标签与参考具体标签之间的差异,对分类网络层进行训练,包括:针对每一个预设标签类别,根据预设标签类别对应的预测具体标签与预设标签类别对应的参考具体标签之间的差异,确定预设标签类别对应的损失;对各个预设标签类别分别对应的损失进行加权处理,得到目标损失;通过目标损失对分类网络层进行训练。
71.其中,目标损失,是对各个预设标签类别分别对应的损失进行加权处理后所得到的损失。
72.具体地,针对每一个预设标签类别,计算机设备可确定该预设标签类别对应的预测具体标签与该预设标签类别对应的参考具体标签之间的差异,并根据预设标签类别对应的预测具体标签与预设标签类别对应的参考具体标签之间的差异,确定该预设标签类别对应的损失。进而,计算机设备可对各个预设标签类别分别对应的损失进行加权处理,得到目标损失,并通过目标损失对分类网络层进行训练,得到已训练的层次类目预测模型中的网络层。其中,该已训练的层次类目预测模型中包括已训练的分类网络层。
73.上述实施例中,通过对各个预设标签类别分别对应的损失进行加权处理,可以得到目标损失,进而通过目标损失对分类网络层进行训练,可以进一步提升对分类网络层的训练效果,从而获得预测准确率更高的层次类目预测模型。
74.在一个实施例中,层次类目中各层级下的具体标签包括至少一个子标签;层次类目预测方法还包括:针对层次类目树中的每一个层次类目,将层次类目中各层级对应的各个子标签进行组合,得到针对层次类目设置的候选标签集合。
75.具体地,层次类目中各层级下的具体标签包括至少一个子标签。针对层次类目树中的每一个层次类目,计算机设备可将该层次类目中各层级对应的各个子标签进行组合,
得到针对该层次类目设置的候选标签集合。
76.为便于理解,现举例说明,若层次类目为“教育_中学_初中辅导_语文数学英语_初二”。其中,该层次类目共包括五个层级,第一个层级下的具体标签为“教育”,其子标签就是该具体标签,即“教育”本身。第二个层级下的具体标签为“中学”,其子标签也是该具体标签,即“中学”本身。第三个层级下的具体标签为“初中辅导”,其子标签也是该具体标签,即“初中辅导”本身,第四个层级下的具体标签为“语文数学英语”,其子标签包括“语文”、“数学”和“英语”,第五个层级下的具体标签为“初二”,其子标签也是该具体标签,即“初二”本身。计算机设备可根据层次类目中的具体标签进行组合得到的候选标签集合可包括:“初二#语文”、“初二#数学”和“初二#英语”。
77.上述实施例中,针对层次类目树中的每一个层次类目,将该层次类目中各层级对应的各个子标签进行组合,可以得到更丰富的针对该层次类目设置的候选标签集合,从而进一步提升层次类目的预测准确率。
78.在一个实施例中,针对每一个层次类目对应设置的候选标签集合的数量为至少一个;每一个层次类目与针对层次类目对应设置的候选标签集合之间具有映射关系;映射关系记录于类目映射文件中;从针对层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于预测标签集合的目标标签集合,包括:遍历类目映射文件中记录的层次类目;针对每一个层次类目,遍历与层次类目具有映射关系的各个候选标签集合,以从各个候选标签集合中,确定包含于预测标签集合的目标标签集合。
79.其中,类目映射文件,是用于记录层次类目与对应候选标签集合之间的映射关系的文件。
80.具体地,针对每一个层次类目对应设置的候选标签集合的数量为至少一个,每一个层次类目与针对层次类目对应设置的候选标签集合之间具有映射关系,该映射关系记录于类目映射文件中。计算机设备可遍历类目映射文件中所记录的每一个层次类目。针对每一个层次类目,在遍历到该层次类目的情况下,计算机设备可遍历与该层次类目具有映射关系的各个候选标签集合,以从各个候选标签集合中,确定包含于预测标签集合的目标标签集合。
81.在一个实施例中,类目映射文件可包括类目映射表、类目映射文本或类目映射图等中的至少一种。其中,类目映射表,是用于记录层次类目与对应候选标签集合之间的映射关系的表格。类目映射文本,是用于记录层次类目与对应候选标签集合之间的映射关系的文本。类目映射图,是用于记录层次类目与对应候选标签集合之间的映射关系的图像。
82.上述实施例中,通过遍历类目映射文件中记录的层次类目,针对每一个层次类目,再遍历与层次类目具有映射关系的各个候选标签集合,以从各个候选标签集合中确定出包含于预测标签集合的目标标签集合,这样,可以保证每一个层次类目,以及各个层次类目下的候选标签集合均被访问到,避免出现漏访问的情况,从而进一步提升了针对搜索文本的层次类目的预测准确率。
83.在一个实施例中,类目映射文件包括类目映射表;类目映射表中的每一行,分别用于记录每一个层次类目和与层次类目具有映射关系的各个候选标签集合;遍历类目映射文件中记录的层次类目,包括:遍历类目映射表中的每一行,以遍历每一行中所记录的层次类目。
84.具体地,类目映射文件包括类目映射表,该类目映射表中的每一行,分别用于记录每一个层次类目和与相应的层次类目具有映射关系的各个候选标签集合。计算机设备可遍历类目映射表中的每一行,以遍历每一行中所记录的层次类目。针对每一行中记录的层次类目,在遍历到该层次类目的情况下,计算机设备可遍历记录于该行中的各个候选标签集合,以从该行的各个候选标签集合中,确定包含于预测标签集合的目标标签集合。
85.为便于理解,现举例说明,比如,针对教育行业的层次类目树可包括四个层级。针对教育行业的类目映射表可如下表2所示。
86.表2上述实施例中,通过遍历类目映射表中的每一行,以遍历每一行中所记录的层次类目,可以进一步保证每一个层次类目均被访问到,避免出现漏访问的情况,从而进一步提升了针对搜索文本的层次类目的预测准确率。
87.在一个实施例中,针对每一个层次类目对应设置的候选标签集合的数量为至少一个;确定与目标标签集合对应的层次类目,得到搜索文本相匹配的目标层次类目,包括:确
定与目标标签集合对应的层次类目,对确定的各个层次类目进行去重,并将去重后得到的层次类目作为搜索文本相匹配的目标层次类目。
88.具体地,针对每一个层次类目对应设置的候选标签集合的数量为至少一个。计算机设备可确定与目标标签集合对应的层次类目。进而,计算机设备可对确定的各个层次类目进行去重,并将去重后得到的层次类目作为搜索文本相匹配的目标层次类目。可以理解,去重后得到的目标层次类目中,不存在重复的层次类目。
89.为便于理解,现举例说明,针对某一个层次类目,若该层次类目对应设置的候选标签集合的数量为3个,且该层次类目对应的这3个候选标签集合都是包含于预测标签集合的目标标签集合。则根据这3个目标标签集合可分别确定得到3个层次类目,且这3个层次类目相同。此时,为避免出现重复的层次类目,计算机设备可对这3个层次类目进行去重,即只保留一个层次类目,并将去重后保留的这个层次类目,作为搜索文本相匹配的其中一个目标层次类目。
90.上述实施例中,通过对确定的各个层次类目进行去重,并将去重后得到的层次类目作为搜索文本相匹配的目标层次类目,可以避免输出的目标层次类目中出现重复冗余的层次类目,节省了计算机设备的系统资源。
91.在一个实施例中,层次类目预测方法还包括:获取与目标层次类目相匹配的信息对象,并对信息对象进行推荐处理。
92.具体地,计算机设备可获取与目标层次类目相匹配的信息对象,并将获取的信息对象推荐给目标用户,其中,目标用户,是发送搜索文本的终端所对应的用户。
93.在一个实施例中,信息对象可包括广告、视频、音频、图像、文章、公众号、订阅号或歌曲等中的至少一种。
94.上述实施例中,通过获取与目标层次类目相匹配的信息对象,并对信息对象进行推荐处理,可以给用户与其输入的搜索文本相匹配的信息对象,提升了信息推荐的准确率。
95.需要说明的是,传统的层次类目预测是通过多层级多标签分类模型(即,hmcn模型)实现的,但是,由于hmcn模型中的分类层是基于层次类目树中各个层级对应设计的,即层次类目树中的每个层级对应hmcn模型中的一个分类器,每个分类器对应的各个类别与层次类目树中相应层级的具体标签相对应。因此,这样设计的预测模型容易出现漏召回的问题,从而导致层次类目的预测准确率较低。
96.为便于理解,可参考图4中hmcn模型的模型结构。若预设的层次类目树一共有n个层级,则hmcn模型需要构建n个与层次类目树中各个层级相对应的层级分类器(即,图4中的第1层级的分类器、第2层级的分类器、

、第n层级的分类器),且各个层级的分类器中的各个具体标签与层次类目树中相应层级下的具体标签一致。此外,还需要额外构建一个全局的分类器,用于生成最终的与输入的文本相对应的目标特征。其中,每一个层级的分类器包括多个连接层(图4中每一个层级的分类器包括3个连接层)。具体地,计算机设备可先将输入的文本对应的文本特征输入第1层级的分类器,由第1层级的分类器中的3个全连接层对文本特征依次进行处理,分别得到特征11、特征12和特征13。进而,计算机设备可将文本特征与第1层级的分类器输出的特征13进行拼接,并将拼接后的特征输入第2层级的分类器,通过第2层级的分类器中的3个全连接层依次对输入的拼接后的特征进行处理,以此类推,直至第n层级的分类器输出特征n3,计算机设备可将文本特征与特征n3进行拼接输入至全
局的分类器,得到全局特征。进而计算机设备可将全局特征以及各个层级的分类器输出的特征进行加权运算,得到文本的目标特征。进而,计算机设备可根据目标特征对文本进行标签预测。
97.另外,由于层次类目树中的层级较多,且每个层级下的具体标签的数量也很多,因此,在训练hmcn模型的时候,需要对用于训练的样本文本进行较为复杂的标注,即,每一个样本文本需要标注各个层级其所对应的具体标签,标注花费的时间较多,从而导致构建训练数据的效率较低。
98.在一个实施例中,层次类目预测模型包括编码网络层、与各个预测标签类别分别对应的各个分类网络层和类目映射网络层。每一个分类网络层可包括至少一个全连接层。如图5所示,预测标签类别一共有3个,即“教育阶段”、“内容”和“细分年级”,则与这3个预测标签类别对应的分类网络层也有3个。其中,每一个分类网络层包括2个全连接层。比如,针对第一个分类网络层,其包括的全连接层为全连接层11和全连接层12。针对第二个分类网络层,其包括的全连接层为全连接层21和全连接层22。针对第三个分类网络层,其包括的全连接层为全连接层31和全连接层32。
99.继续参考图5,计算机设备可获取用户输入的搜索文本“2021xxx市初二语文质检答案”,并将该搜索文本输入至编码网络层的语言表征模型中,以通过语言表征模型对该搜索文本进行编码,得到初始文本语义特征。计算机设备可将初始文本语义特征发送至与各个预测标签类别分别对应的各个分类网络层,以通过与各个预测标签类别分别对应的各个分类网络层对应搜索文本进行标签预测。其中,针对预测标签类别“教育阶段”预测出的结果为“空”,即没有预测出该搜索文本对“教育阶段”这个预设标签类别对应的具体标签。针对预测标签类别“内容”预测出的结果为“语文”这个具体标签。针对预测标签类别“细分年级”预测出的结果为“初二”这个具体标签。计算机设备可根据预测出的这几个具体标签,生成预测标签集合,即“初二#语文”。进而,计算机设备可将预测标签集合输入至类目映射网络层,以通过类目映射网络层遍历查找预先设置的类目映射表中所记录的候选标签集合中,查找出包含于预测标签集合“初二#语文”的目标标签集合。可以理解,包含于预测标签集合“初二#语文”的目标标签集合,包括可以包括本身为“初二#语文”的候选标签集合。计算机设备可确定目标标签集合对应的层次类目,得到与搜索文本对应的目标层次类。
100.由于本技术的每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到的,因此,各个候选标签集合可以与更多的层次类目具有对应关系。进而通过确定与目标标签集合对应的层次类目,可以得到搜索文本相匹配的目标层次类目,降低了漏召回的可能性,从而提升了针对搜索文本的层次类目的预测准确率。
101.此外,由于本技术的多个预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的,且各个分类网络层,是与各个预测标签类别分别对应的分类网络层,因此,本技术分类网络层的数量少于层次类目树中的层级数量,本技术各个分类网络层对应的具体标签的数量也少于层次类目树中各个层级对应的具体标签的数量。故,在训练层次类目预测模型的时候,仅需要对样本搜索文本进行少量的具体标签标注,减少人工标注的时间成本,提升了训练数据的构建效率。
102.举例说明,针对教育行业的层次类目树一共包括四个层级,其中,第一个层级包括5个具体标签,第二个层级包括35个具体标签,第三个层级包括260个具体标签,第四个层级
包括364个具体标签,即该层次类目树一共包括5+35+260+364=664个具体标签。针对该层次类目树所设置的传统的hmcn模型包括四个层级的分类器,第一个层级的分类器包括5个具体标签,第二个层级的分类器包括35个具体标签,第三个层级的分类器包括260个具体标签,第四个层级的分类器包括364个具体标签。也可以理解,该hmcn模型对应的具体标签的数量为664个。因此,在训练hmcn模型的时候,需要对用于训练的样本文本进行较为复杂的标注,即,每一个样本文本需要标注各个层级其所对应的具体标签,标注花费的时间较多,从而导致构建训练数据的效率较低。
103.而本技术针对教育行业的预设标签类别包括“教育阶段”、“内容”和“细分年级”。其中,“教育阶段”这个预设标签类别下包括17个具体标签,“内容”这个预设标签类别下包括140个具体标签,“细分年级”这个预设标签类别下包括12个具体标签。可以理解,层次类目预测模型可包括与这三个预设标签类别对应的分类网络层,即,层次类目预测模型包括与“教育阶段”对应的分类网络层,与“内容”对应的分类网络层,与“细分年级”对应的分类网络层。层次类目预测模型对应的具体标签的数量为17+140+12=169个。故,在训练层次类目预测模型的时候,仅需要对样本搜索文本进行少量的具体标签标注,减少人工标注的时间成本,提升了训练数据的构建效率。
104.若用户输入的搜索文本“2021xxx市初二语文质检答案”,则下表3为通过传统的hmcn模型和通过本技术的层次类目预测模型对搜索文本进行层次类目预测的识别结果,从下表3可知,通过传统的hmcn模型对搜索文本进行层次类目预测仅识别出1条层次类目,即下表3中序号为4对应的层次类目,而通过本技术的层次类目预测模型对搜索文本进行层次类目预测可识别出7条层次类目,即下表3中序号为1-7对应的层次类目,因此,通过本技术的层次类目预测方法,可得到搜索文本相匹配的目标层次类目,降低了漏召回的可能性,从而提升了针对搜索文本的层次类目的预测准确率。
105.表3如图6所示,在一个实施例中,提供了一种层次类目预测方法,该方法可应用于计算机设备,计算机设备可以是终端或服务器,由终端或服务器自身单独执行,也可以通过终端和服务器之间的交互来实现。本实施例以该方法应用于计算机设备为例进行说明,该方法具体包括以下步骤:步骤602,获取样本搜索文本,以及获取样本搜索文本在各个预设标签类别下分别对应的参考具体标签;预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的;层次类目树中包括至少一个层次类目。
106.步骤604,通过待训练的层次类目预测模型中的、且与各个预设标签类别分别对应的分类网络层,预测样本搜索文本分别在各个预设标签类别下对应的预测具体标签。
107.步骤606,根据预测具体标签与参考具体标签之间的差异,对分类网络层进行训练,得到已训练的层次类目预测模型;已训练的层次类目预测模型还包括编码网络层和类目映射网络层,每个分类网络层包括至少一个全连接层。
108.步骤608,将搜索文本输入编码网络层,以通过编码网络层对搜索文本进行编码,得到搜索文本对应的初始文本语义特征。
109.步骤610,针对每一个预设标签类别,通过预设标签类别对应的至少一个全连接层,对初始文本语义特征进行特征处理,得到预设标签类别对应的目标文本语义特征。
110.步骤612,根据各个预设标签类别对应的目标文本语义特征,预测搜索文本在每个预设标签类别下对应的具体标签。
111.步骤614,根据预测的各预设标签类别下对应的具体标签,确定预测标签集合。
112.步骤616,将预测标签集合输入至类目映射网络层,以通过类目映射网络层,遍历类目映射文件中记录的层次类目。
113.步骤618,针对每一个层次类目,遍历与层次类目具有映射关系的各个候选标签集合,以从各个针对层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于预测标签集合的目标标签集合;每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到。
114.步骤620,通过类目映射网络层,确定与目标标签集合对应的层次类目,对确定的各个层次类目进行去重,并将去重后得到的层次类目作为搜索文本相匹配的目标层次类目。
115.步骤622,获取与目标层次类目相匹配的信息对象,并对信息对象进行推荐处理。
116.本技术还提供一种应用场景,该应用场景应用上述的层次类目预测方法。具体地,该层次类目预测方法可应用于教育行业中针对短文本的层次类目预测的场景。计算机设备可获取样本短搜索文本,以及获取样本短搜索文本在各个预设标签类别下分别对应的参考具体标签;预设标签类别是对预设的教育行业层次类目树中各层级下的具体标签分类得到的;教育行业层次类目树中包括至少一个层次类目。通过待训练的教育行业层次类目预测模型中的、且与各个预设标签类别分别对应的分类网络层,预测样本短搜索文本分别在各个预设标签类别下对应的预测具体标签。根据预测具体标签与参考具体标签之间的差异,对分类网络层进行训练,得到已训练的教育行业层次类目预测模型;已训练的教育行业层次类目预测模型还包括编码网络层和类目映射网络层,每个分类网络层包括至少一个全连接层。
117.计算机设备可将短搜索文本输入编码网络层,以通过编码网络层对短搜索文本进行编码,得到短搜索文本对应的初始文本语义特征。针对每一个预设标签类别,通过预设标签类别对应的至少一个全连接层,对初始文本语义特征进行特征处理,得到预设标签类别对应的目标文本语义特征。根据各个预设标签类别对应的目标文本语义特征,预测短搜索文本在每个预设标签类别下对应的具体标签。根据预测的各预设标签类别下对应的具体标签,确定预测标签集合。
118.计算机设备可将预测标签集合输入至类目映射网络层,以通过类目映射网络层,
遍历类目映射文件中记录的层次类目。针对每一个层次类目,遍历与层次类目具有映射关系的各个候选标签集合,以从各个针对教育行业层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于预测标签集合的目标标签集合;每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到。通过类目映射网络层,确定与目标标签集合对应的层次类目,对确定的各个层次类目进行去重,并将去重后得到的层次类目作为短搜索文本相匹配的目标层次类目。获取与目标层次类目相匹配的广告,并向用户推荐获取的广告。
119.本技术还另外提供一种应用场景,该应用场景应用上述的层次类目预测方法。具体地,该层次类目预测方法可应用于医疗行业、电力行业、保险行业、证券行业和建筑行业等行业中的针对短文本和/或长文本的层次类目预测的场景。可以理解,针对医疗行业、电力行业、保险行业、证券行业和建筑行业等行业也可构建相应的层次类目树和相应的层次类目预测模型,基于相应的层次类目树和相应的层次类目预测模型,可对用户输入的相应行业的短文本和/或长文本进行层次类目预测,从而实现针对相应行业的业务处理。
120.应该理解的是,虽然上述各实施例的流程图中的各个步骤按照顺序依次显示,但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
121.在一个实施例中,如图7所示,提供了一种层次类目预测装置700,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:预测模块702,用于预测搜索文本分别在多个预设标签类别下对应的具体标签,得到预测标签集合;多个预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的;层次类目树中包括至少一个层次类目。
122.确定模块704,用于从针对层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于预测标签集合的目标标签集合;每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到;确定与目标标签集合对应的层次类目,得到搜索文本相匹配的目标层次类目。
123.在一个实施例中,每个预设标签类别分别设置有对应的分类网络层;预测模块702还用于通过每个预设标签类别对应的分类网络层,预测搜索文本在每个预设标签类别下对应的具体标签;根据预测的各预设标签类别下对应的具体标签,确定预测标签集合。
124.在一个实施例中,每个分类网络层包括至少一个全连接层;预测模块702还用于获取搜索文本对应的初始文本语义特征;针对每一个预设标签类别,通过预设标签类别对应的至少一个全连接层,对初始文本语义特征进行特征处理,得到预设标签类别对应的目标文本语义特征;根据各个预设标签类别对应的目标文本语义特征,预测搜索文本在每个预设标签类别下对应的具体标签。
125.在一个实施例中,分类网络层是已训练的层次类目预测模型中的网络层;层次类目预测模型还包括编码网络层;预测模块702还用于将搜索文本输入编码网络层,以通过编
码网络层对搜索文本进行编码,得到搜索文本对应的初始文本语义特征。
126.在一个实施例中,分类网络层是已训练的层次类目预测模型中的网络层;层次类目预测模型还包括类目映射网络层;确定模块704还用于将预测标签集合输入至类目映射网络层,以通过类目映射网络层从针对层次类目树中各层次类目分别对应设置的候选标签集合中,确定包含于预测标签集合的目标标签集合;通过类目映射网络层,确定与目标标签集合对应的层次类目,得到搜索文本相匹配的目标层次类目。
127.在一个实施例中,分类网络层是已训练的层次类目预测模型中的网络层;装置还包括:训练模块706,用于获取样本搜索文本,以及获取样本搜索文本在各个预设标签类别下分别对应的参考具体标签;通过待训练的层次类目预测模型中的、且与各个预设标签类别分别对应的分类网络层,预测样本搜索文本分别在各个预设标签类别下对应的预测具体标签;根据预测具体标签与参考具体标签之间的差异,对分类网络层进行训练。
128.在一个实施例中,训练模块706还用于针对每一个预设标签类别,根据预设标签类别对应的预测具体标签与预设标签类别对应的参考具体标签之间的差异,确定预设标签类别对应的损失;对各个预设标签类别分别对应的损失进行加权处理,得到目标损失;通过目标损失对分类网络层进行训练。
129.在一个实施例中,层次类目中各层级下的具体标签包括至少一个子标签;确定模块704还用于针对层次类目树中的每一个层次类目,将层次类目中各层级对应的各个子标签进行组合,得到针对层次类目设置的候选标签集合。
130.在一个实施例中,针对每一个层次类目对应设置的候选标签集合的数量为至少一个;每一个层次类目与针对层次类目对应设置的候选标签集合之间具有映射关系;映射关系记录于类目映射文件中;确定模块704还用于遍历类目映射文件中记录的层次类目;针对每一个层次类目,遍历与层次类目具有映射关系的各个候选标签集合,以从各个候选标签集合中,确定包含于预测标签集合的目标标签集合。
131.在一个实施例中,类目映射文件包括类目映射表;类目映射表中的每一行,分别用于记录每一个层次类目和与层次类目具有映射关系的各个候选标签集合;确定模块704还用于遍历类目映射表中的每一行,以遍历每一行中所记录的层次类目。
132.在一个实施例中,针对每一个层次类目对应设置的候选标签集合的数量为至少一个;确定模块704还用于确定与目标标签集合对应的层次类目,对确定的各个层次类目进行去重,并将去重后得到的层次类目作为搜索文本相匹配的目标层次类目。
133.在一个实施例中,装置还包括:推荐模块708,用于获取与目标层次类目相匹配的信息对象,并对信息对象进行推荐处理。
134.在一个实施例中,参考图8,层次类目预测装置700还可以包括:训练模块706和推荐模块708。
135.上述层次类目预测装置,通过预测搜索文本分别在多个预设标签类别下对应的具体标签,可以得到包含各个预设标签类别下分别对应的具体标签的预测标签集合。多个预设标签类别是对预设的层次类目树中各层级下的具体标签分类得到的,层次类目树中包括至少一个层次类目。从针对层次类目树中各层次类目分别对应设置的候选标签集合中,可
以确定包含于预测标签集合的目标标签集合,由于每个候选标签集合是根据相对应的层次类目中的具体标签进行组合得到的,因此,各个候选标签集合可以与更多的层次类目具有对应关系。进而通过确定与目标标签集合对应的层次类目,可以得到搜索文本相匹配的目标层次类目,降低了漏召回的可能性,从而提升了针对搜索文本的层次类目的预测准确率。
136.上述层次类目预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
137.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种层次类目预测方法。
138.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种层次类目预测方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
139.本领域技术人员可以理解,图9和图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
140.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
141.在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
142.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
143.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
144.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
145.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
146.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1